Baixe o app para aproveitar ainda mais
Prévia do material em texto
Prof.ª Sheila Regina Oro Projeto “Recursos Educacionais Digitais” Autores: Bruno Baierle e Maurício Furigo PROBABILIDADE E ESTATÍSTICA INFERÊNCIA ESTATÍSTICA Parte II TESTE PARA UMA PROPORÇÃO • H0: 𝑝 = 𝑝0 e H1: 𝑝 ≠ 𝑝0 (𝑝0 é um valor dado); • No caso de teste unilateral, a hipótese alternativa seria H1’: 𝑝 > 𝑝0 (unilateral à direita) ou H1’’:𝑝 < 𝑝 (unilateral à esquerda). • Suponha amostra suficientemente grande para aproximação da binomial à normal: 𝑛. 𝑝0 ≥ 5 𝑒 𝑛. (1 – 𝑝0) ≥ 5. TESTE PARA UMA PROPORÇÃO • Sejam: 𝑝 = 𝑦 𝑛 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑐𝑜𝑚 𝑜 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑒𝑠𝑠𝑒 𝑛 𝑦’ = 𝑦– 0,5 𝑠𝑒 𝑦 > 𝑛. 𝑝0; ou 𝑦’ = 𝑦 + 0,5 𝑠𝑒 𝑦 < 𝑛. 𝑝0 (correção de continuidade). Onde: • 𝑝 : é a proporção de elementos com atributo de interesse na amostra. TESTE PARA UMA PROPORÇÃO • Cálculo da estatística do teste: 𝑧 = 𝑦′ − 𝑛. 𝑝0 𝑛. 𝑝0(1 − 𝑝0) Onde: • 𝑝0: valor da proporção, segundo H0; • 𝑛 : tamanho da amostra; • 𝑦′: correção de continuidade. TESTE PARA UMA PROPORÇÃO ABORDAGEM DO VALOR -P Amostra Cálculo de z Obtenção de p pela tabela da normal Se bilateral: Se unilateral à direita: Se unilateral à esquerda: 𝑧 = 𝑦′ − 𝑛. 𝑝0 𝑛. 𝑝0(1 − 𝑝0) TESTE PARA PROPORÇÃO ABORDAGEM DO VALOR -P Aceita H0 Rejeita H0 EXEMPLO 8.6 BARBETTA • Uma empresa retira periodicamente amostras aleatórias de 500 peças de sua linha de produção para análise de qualidade. As peças da amostra são classificadas como defeituosas ou não, sendo que a política da empresa exige que o processo produtivo seja revisto se houver evidência de mais que 1,5% de peças defeituosas. Na última amostra foram encontradas 9 peças defeituosas. Usando um nível de significância de 1%, o processo precisa ser revisto? RESULTADO • H0: 𝑝 = 0,015; H1: 𝑝 > 0,015; Usar 𝛼 = 0,01; • Amostra: 𝑦 = 9 em 𝑛 = 500; 𝑝 = 9 500 = 0,018 𝑧 = 𝑦′ − 𝑛. 𝑝0 𝑛. 𝑝0(1 − 𝑝0) = 8,5 − 500 ∗ (0,015) 500 ∗ 0,015 ∗ (1 − 0,015) = 1 2,718 ≈ 0,37 RESULTADOS Aceita-se H0 ao nível de significância de 1%. TESTE PARA PROPORÇÃO ABORDAGEM CLÁSSICA Obtenção do valor crítico pela tabela normal Nível de significância α ... TESTE PARA PROPORÇÃO ABORDAGEM CLÁSSICA TESTE PARA PROPORÇÃO ABORDAGEM CLÁSSICA Se bilateral: Nível de significância α Obtenção do valor crítico pela tabela normal Cálculo do valor z Aceita H0 RejeitaH0Rejeita H0 TESTE PARA PROPORÇÃO ABORDAGEM CLÁSSICA Se unilateral a direita: Nível de significância α Obtenção do valor crítico pela tabela normal Cálculo do valor z Aceita H0 Rejeita H0 EXEMPLO 8.6 BARBETTA • H0: 𝑝 = 0,015; e H1: 𝑝 > 0,015. Usar α = 0,01 Regra de decisão: Aceita H0 Rejeita H0 • Da amostra temos: • 𝑧 = 𝑦′−𝑛.𝑝0 𝑛.𝑝0(1−𝑝0) = 0,37 Portanto, chegamos a conclusão de que não há provas estatísticas suficientes para recomendar a revisão do processo produtivo. RESULTADO TESTE PARA UMA MÉDIA • É aplicável em situações que queremos verificar se uma variável na população pode ser considerada, em média, igual a certo valor . Para teste bilateral: • H0: 𝜇 = 𝜇0 e H1: 𝜇 ≠ 𝜇0 • Para teste unilateral: Para este caso a hipótese alternativa seria: H1’: 𝜇 > 𝜇0 (unilateral à direita); ou H1’’:𝜇 < 𝜇0 (unilateral à esquerda). TESTE PARA UMA MÉDIA CASO DE VARIÂNCIA CONHECIDA • Cálculo da estatística do teste: 𝑧 = 𝑥 − 𝜇0 ∗ 𝑛 𝜎 Onde: • 𝑥: média da amostra; • 𝜇0: valor da média segundo H0; • 𝑛 : tamanho da amostra; • 𝜎 : variância populacional; O teste é feito com a distribuição normal, análogo ao da proporção. TESTE PARA UMA MÉDIA CASO DE VARIÂNCIA DESCONHECIDA • Cálculo da estatística do teste: 𝑡 = 𝑥 − 𝜇0 ∗ 𝑛 𝑠 Onde: • 𝑥: média da amostra; • 𝜇0: valor da média segundo H0; • 𝑛 : tamanho da amostra; • 𝑠 : variância populacional. Uso da distribuição t com 𝑔𝑙 = 𝑛 – 1 (supondo população com distribuição normal). EXEMPLO 8.8 (BARBETTA pg. 220) • O tempo para transmitir 10 MB determinada rede de computadores varia segundo um modelo normal, com média 7,4 s e variância 1,3 s². Depois de algumas mudanças na rede, acredita-se numa redução no tempo de transmissão de dados, além de uma possível alteração na variabilidade. Foram realizados 10 ensaios independentes com um arquivo de 10 MB e foram anotados os tempos de transmissão, em segundos: 6.8, 7.1, 5.9, 7.5, 6.3, 6.9, 7.2, 7.6, 6.6, 6.3; • Existe evidência suficiente de que o tempo médio de transmissão foi reduzido? Use nível de significância de 1%. RESULTADOS H0: 𝜇 = 7,4 𝑠; H1: 𝜇 < 7,4 𝑠; Amostra: • N=10; • Média da amostra=6,82; • Desvio padrão da amostra=0,551; 𝑡 = 6,82 − 7,4 ∗ 10 0,551 = −3,33 RESULTADOS • Uso da tabela t para obter o valor p: RESULTADOS • Uso da tabela t para obter o valor p: RESULTADOS Como observado na tabela t, a área apontada é entre 0,0025 < 𝑣𝑎𝑙𝑜𝑟 𝑝 < 0,005 , então o teste estatístico rejeita H0 em favor de H1. Portanto, com este resultado, podemos afirmar que houve redução no tempo de transmissão de dados com as alterações nas redes de computadores. COMPARAÇÃO ENTRE TRATAMENTOS AMOSTRAS INDEPENDENTES Para realizar este tipo de experimento, divide- se as unidades experimentais em g grupos, submetendo cada grupo a um tratamento. Dessa forma temos g amostras independentes. Podemos construir também h blocos de unidades experimentais semelhantes similares, sorteando os tratamentos em cada bloco. AMOSTRAS INDEPENDENTES • Ex. 9.1(BARBETTA) Considere o problema de comparar dois materiais (A e B), para sola de tênis, em termos do grau de desgaste após um certo período de uso. Seguem dois projetos de experimentos alternativos: • Projeto I – Um grupo de indivíduos usa tênis com solas feitas com o material A; e outro grupo usa tênis com solas feitas com o material B. AMOSTRAS INDEPENDENTES Mensuração do grau de desgaste Mensuração do grau de desgaste AMOSTRAS PAREADAS (se g>2) • Projeto II – Fabricam-se, para a realização do experimento, pares de tênis com os dois tipos de sola, isto é, um dos pés com o material A e o outro pé com o material B. Em cada par, o material usado em cada pé (direito ou esquerdo) é decidido por sorteio Mensuração do grau de desgaste Alocação aleatória de A e B em cada par; AMOSTRAS PAREADAS • Importância de considerar os pares na análise: Indivíduo (par de unidades experimentais) TESTE T PARA DUAS AMOSTRAS • H0: 𝜇1 = 𝜇2 e H1: 𝜇1 ≠ 𝜇2; Onde: • 𝜇1: valor esperado da resposta sob o tratamento 1; • 𝜇2: valor esperado da resposta sob o tratamento 2; • Na abordagem unilateral, a hipótese alternativa é do tipo: • H1’: 𝜇1 > 𝜇2 ou H1”: 𝜇1 < 𝜇2. TESTE T PARA DUAS AMOSTRAS • Caso os dados na amostra possuam um nível de mensuração qualitativo (ordinal ou nominal), mensuração quantitativa com indícios de que a distribuição não é normal ou quando há interesse em realizar inferência sobre outras características da população, usa-se os testes não paramétricos. • No caso do teste t para duas amostras independentes, o teste não paramétrico substituto é o teste Mann-Whitney. Para duas amostras pareadas o teste indicado é o de Wilcoxon. EXEMPLO 9.2(Barbetta, pg 235) • Seja o problema de verificar se um novo algoritmo de busca em um banco de dados é mais rápido que o algoritmo atualmente usado. Para se fazer a comparação dos dois algoritmos, planeja-se realizar uma amostra aleatória de 10 buscas experimentais (ensaios). Em cada ensaio, uma dada busca é realizada pelos dois algoritmos e o tempo de resposta de cada algoritmo anotado. Observamos que em cada ensaio os dois algoritmos são usados em condições idênticas, caracterizando 10 pares de observações. EXEMPLO • H0: em média, os dois algoritmos são igualmente rápidos; e • H1: em média, o algoritmo novo é mais rápido do que o algoritmo em uso; Ou: • H0: 𝜇1 = 𝜇2 e H1: 𝜇1 < 𝜇2; Onde: • 𝜇2 é o tempo esperado de resposta do algoritmonovo; e • 𝜇1 é o tempo esperado de resposta do algoritmo antigo. EXEMPLO EXEMPLO • Como os dados são pareados, pode ser verificado em cada ensaio a diferença entre os dois tratamentos(algoritmo): 𝐷 = 𝑋2 − 𝑋1 • Em termos da variável diferença, as hipóteses ficam: • H0: 𝜇𝐷 = 0 e H1: 𝜇𝐷 > 0. EXEMPLO A estatística do teste será calculada da seguinte maneira: 𝑡 = 𝑑 ∗ 𝑛 𝑠𝑑 Onde: • 𝑑: é a média das diferenças observadas; • 𝑛 : é o tamanho da amostra(número de pares); • 𝑠𝑑 : é o desvio padrão das diferenças observadas. EXEMPLO • Supondo populações de distribuição normal, usa- se a distribuição t de Student, com 𝑔𝑙 = 𝑛 − 1 graus de liberdade. • Dos dados apresentados anteriormente temos: Valores de D: 3, 7, -2, 6, -1, 6, 2, 9, -1, 5: • 𝑑 = 3,4; • 𝑛 = 10 𝑠𝑑 = 1 𝑛 − 1 ∗ 𝑖 𝑑𝑖 2 − 𝑛 ∗ 𝑑2 = 246 − (10)(3,4)² 9 = 3,81 EXEMPLO A estatística fica da seguinte forma: 𝑡 = 𝑑 ∗ 𝑛 𝑠𝑑 = 3,4 ∗ 10 3,81 = 2,82 Conferindo na tabela t com 𝑔𝑙 = 10 − 1 = 9: EXEMPLO • O valor calculado, 𝑡 = 2,82, está bem próximo de 2,821 apresentado na tabela de distribuição t, o que nos fornece um valor para 𝑝 = 0,01 , menor que o nível de significância adotado, de 5%(0,05). • Portanto, podemos afirmar que o algoritmo de busca novo é, em média, mais rápido que o antigo, rejeitando assim H0: 𝜇𝐷 = 0. TESTE T PARA DUAS AMOSTRAS INDEPENDENTES Exemplo 9.3(Barbetta, pg 238) Desejamos verificar se os catalisadores A e B têm efeitos diferentes no rendimento de uma certa reação química. As hipóteses são: • H0: em média, os dois catalisadores são iguais em termos de rendimento; H0: 𝜇1 = 𝜇2; e • H1: em média, os dois catalisadores são diferentes em termos de rendimento. H1: 𝜇1 ≠ 𝜇2. TESTE T PARA DUAS AMOSTRAS INDEPENDENTES • Rendimentos (%) de uma reação química em função do catalisador utilizado. 45 42 45 45 51 53 35 41 50 50 43 43 62 48 59 49 43 55 48 39 Catalisador A Catalisador B TESTE T PARA DUAS AMOSTRAS INDEPENDENTES • Diagrama de pontos dos resultados do experimento: TESTE T PARA DUAS AMOSTRAS INDEPENDENTES • Estatística do teste: 𝑠𝑎 2 = 𝑠1 2 + 𝑠2 2 2 Onde: • 𝑠1 2: variância da amostra 1; • 𝑠2 2: variância da amostra 2; • 𝑠𝑎 2: variância agregada das duas amostras. TESTE T PARA DUAS AMOSTRAS INDEPENDENTES • Estatística do teste: 𝑡 = 𝑥1 − 𝑥2 ∗ 𝑛 2 ∗ 𝑠𝑎 2 Onde: • 𝑥1: média da amostra 1; • 𝑥2: média da amostra 2; • 𝑛 : tamanho da amostra em cada grupo. TESTE T PARA DUAS AMOSTRAS INDEPENDENTES • Usa-se para o cálculo a distribuição t de Student com graus de liberdade (supondo populações com distribuição normal). • Continuação(ex. 9.3): Amostra 1: 𝑛 = 10; 𝑥1 = 49,9; 𝑒 𝑠1 2 = 35,656; Amostra 2: 𝑛 = 10; 𝑥2 = 44,7; 𝑒 𝑠2 2 = 42,233; Variância Agregada: 𝑠𝑎 2 = 35,656+42,233 2 = 38,945; 𝑡 = 49,9 − 44,7 10 2 ∗ 38,94 = 1,86 TESTE T PARA DUAS AMOSTRAS INDEPENDENTES Graus de Liberdade: 𝑔𝑙 = 2𝑛 − 2 = 2 ∗ 10 − 2 = 18; Abordagem do valor p: TESTE T PARA DUAS AMOSTRAS INDEPENDENTES • O valor de t obtido pelo cálculo aponta para uma região entre 0,025 e 0,05, mas como o teste é bilateral, a área deve ser dobrada para se obter o valor correto: • Portanto, 0,05 < 𝑝 < 0,1 , aceitamos H0 ao nível de significância de 5%, afirmando que os dados não comprovam uma diferença entre os dois catalisadores. COMPARAÇÃO ENTRE VÁRIOS TRATAMENTOS • AMOSTRAS INDEPENDENTES: A análise estatística para a comparação de g grupos independentes é feita geralmente por análise de variância ANOVA, acompanhada por um teste F, que supõe: • as observações devem ser independentes; • as variâncias populacionais devem ser iguais nos g grupos; • a distribuição das observações em cada grupo deve ser normal. COMPARAÇÃO ENTRE VÁRIOS TRATAMENTOS • Ex. 9.4(Barbetta, pg. 252) Considere o problema de comparar 3 tipos de rede de computadores, C1, C2 e C3, em termos do tempo médio de transmissão de pacotes de dados entre duas máquinas. Experimento (projeto completamente aleatorizado com um fator): 8 replicações com cada tipo de rede, aleatorizando a ordem dos 24 ensaios e mantendo fixos os demais fatores controláveis. COMPARAÇÃO ENTRE VÁRIOS TRATAMENTOS • Ex. 9.4; • Projeto do experimento: Seqüência número Uso da dos testes do ensaio rede 1 16 C2 2 14 C2 3 24 C3 4 6 C1 ... ... ... 24 11 C3 COMPARAÇÃO ENTRE VÁRIOS TRATAMENTOS • Ex. 9.4; Perguntas a serem respondidas pela análise estatística: • Existe diferença real (significativa) entre os 3 tipos de rede? • Qual é a estimativa do tempo de resposta para cada tipo de rede? COMPARAÇÃO ENTRE VÁRIOS TRATAMENTOS • Ex. 9.4; Hipóteses para o problema: • H0: os tempos esperados de transmissão são iguais para os três tipos de rede; • H1: os tempos esperados de transmissão não são todos iguais (dependem do tipo de rede); COMPARAÇÃO ENTRE VÁRIOS TRATAMENTOS • Dados do experimento: Replicação Tipo de Rede C1 C2 C3 1 7,2 7,8 6,3 2 9,3 8,2 6 3 8,7 7,1 5,3 4 8,9 8,6 5,1 5 7,6 8,7 6,2 6 7,2 8,2 5,2 7 8,8 7,1 7,2 8 8 7,8 6,8 Soma 65,7 63,5 48,1 Média 8,21 7,94 6,01 MODELO ANOVA: • 𝑔 = 3 𝑔𝑟𝑢𝑝𝑜𝑠; • 𝑦𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝑒𝑖𝑗 Onde: • 𝑦𝑖𝑗: observação; • 𝜇 : média global; • 𝜏𝑖: efeito do tratamento i; • 𝑒𝑖𝑗: erro aleatório; • 𝜇𝑖 = 𝜇 + 𝜏𝑖 = média do fator i. COMPARAÇÃO ENTRE VÁRIOS TRATAMENTOS Tratameto (1) (2) (3) 𝑦11 𝑦21 𝑦31 𝑦12 𝑦22 𝑦32 … … … 𝑦1𝑛 𝑦2𝑛 𝑦3𝑛 Média Global Média 𝑦1. 𝑦2. 𝑦3. 𝑦.. COMPARAÇÃO ENTRE VÁRIOS TRATAMENTOS • HIPÓTESES: H0: 𝜏1 = 𝜏2 = ⋯ = 𝜏𝑔 = 0 ou 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑔; H1: 𝜏𝑖 ≠ 0 ou 𝜇𝑖 ≠ 𝜇𝑗 As observações: Sob H1: Sob H0: 𝑦𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝑒𝑖𝑗 𝑦𝑖𝑗 = 𝜇 + 𝜇𝑖𝑗 COMPARAÇÃO ENTRE VÁRIOS TRATAMENTOS • HIPÓTESES E MODELO SUBJACENTE: 𝐻0: 𝜏1 = 𝜏2 = ⋯ = 𝜏𝑔 = 0 𝑦𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝑒𝑖𝑗 𝑦𝑖𝑗 = 𝜇 + 𝜇𝑖𝑗 COMPARAÇÃO ENTRE VÁRIOS TRATAMENTOS • HIPÓTESES E MODELO SUBJACENTE: Sob H1: 𝜏𝑖 ≠ 0 para algum 𝑖: 𝑦𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝑒𝑖𝑗 Análise de variância (ANOVA), com um fator Análise de variância (ANOVA), com um fator Soma de quadrados totais: 𝑆𝑄𝑇𝑜𝑡 = 𝑖=1 𝑔 𝑗=𝑖 𝑛 (𝑦𝑖𝑗 − 𝑦..) ² Onde: • 𝑔 : grupos; • 𝑛 : repetições; Graus de Liberdade: 𝑔𝑙 = 𝑁 − 1 𝑁 = 𝑛 ∗ 𝑔 Onde: • 𝑁 : tratamentos; Análise de variância (ANOVA), com um fator Soma de Quadrados do Tratamento: 𝑆𝑄𝑇𝑟𝑎𝑡 = 𝑖=1 𝑔 𝑗=1 𝑛 𝑦𝑖. − 𝑦.. 2 = 𝑛 𝑖=1 𝑔 ( 𝑦𝑖. − 𝑦..)² Onde: • 𝑔 : grupos; • 𝑛 : repetições Graus de Liberdade: 𝑔𝑙 = 𝑔 − 1 Análise de variância (ANOVA), com um fator • Soma de quadrados do erro: 𝑆𝑄𝐸𝑟𝑟𝑜 = 𝑖=1 𝑔 𝑗=1 𝑛 (𝑦𝑖𝑗 − 𝑦𝑖.)² Onde: • 𝑔 : grupos; • 𝑛 : repetições; • Graus de liberdade: 𝑔𝑙 = 𝑁 − 𝑔 Onde: • 𝑁 : tratamentos; Análise de variância (ANOVA), com um fator Fonte de Variação Soma de Quadrados gl Quadrados Médios Razão f Entre Tratamentos 𝑆𝑄𝑇𝑟𝑎𝑡 = 𝑖=1 𝑔 𝑦𝑖. 2 𝑛 − 𝑦.. 2 𝑁 𝑔 − 1 𝑄𝑀𝑇𝑟𝑎𝑡 = 𝑆𝑄𝑇𝑟𝑎𝑡 𝑔𝑙𝑇𝑟𝑎𝑡 𝑓 = 𝑄𝑀𝑇𝑟𝑎𝑡 𝑄𝑀𝐸𝑟𝑟𝑜 Dentro Trat. (Erro) 𝑆𝑄𝐸𝑟𝑟𝑜 = 𝑆𝑄𝑇𝑜𝑡 − 𝑆𝑄𝑇𝑟𝑎𝑡 𝑁 − 𝑔 𝑄𝑀𝐸𝑟𝑟𝑜 = 𝑆𝑄𝐸𝑟𝑟𝑜 𝑔𝑙𝐸𝑟𝑟𝑜 Total 𝑆𝑄𝑇𝑜𝑡 = 𝑖=1 𝑔 𝑗=𝑖 𝑛 𝑦𝑖𝑗 2 − 𝑦.. 2 𝑁 𝑁 − 1 TESTE F • Se H0: 𝜏1 = 𝜏2 = ⋯ = 𝜏𝑔 = 0 for verdadeira e considerando as suposições anteriormente enunciadas, a estatística f tem distribuição F com (g - 1) graus de liberdade no numerador e (N - g) graus de liberdade no denominador. f TESTE F • Após calculada a estatística f, usa-se a tabela de distribuição F de Snedecor,para encontrar (), com graus de liberdade no numerador, e graus de liberdade no denominador. A regra de decisão é dada por: • Se 𝑓 < 𝑓𝑐, então aceita H0; • Se 𝑓 ≥ 𝑓𝑐, então rejeita H0; Continuação Ex. 9.4 Soma global: 𝑦.. = 177,3; 𝑆𝑄: 𝑖=1 𝑔 𝑗=1 𝑛 𝑦𝑖𝑗 2 = 7,2 2 + 9,3 2 + ⋯ =1344,25 𝑆𝑄𝑇𝑟𝑎𝑡 = 67,6 2 + 63,5 2 + (48,1)² 8 − 177,3 2 24 = 22,99 𝑆𝑄𝑇𝑜𝑡 = 1344,25 − 177,3 2 24 = 34,45 𝑆𝑄𝐸𝑟𝑟𝑜 = 34,45 − 22,99 = 11,46 Continuação Ex. 9.4 Fonte de Variação SQ gl QM f Entre Trat. 22,99 2 11,50 21,07 Dentro Trat. (Erro) 11,46 21 0,55 Total 34,45 23 REGRA DE DECISÃO ABORDAGEM DO VALOR P • Como regra de decisão, usa-se α=nível de significância, usualmente 0,05(5%), que é probabilidade tolerável de se rejeitar Ho quando esta for verdadeira; Rejeita H0 (Prova- se estatisticamente H1) Aceita H0 (Dados não mostram evidências para aceitar H1) ANÁLISE DOS RESÍDUOS • Avaliação das suposições da ANOVA através de gráficos dos resíduos: ESTIMAÇÃO DAS MÉDIAS • Intervalo de confiança para o valor esperado da resposta sob o i-ésimo tratamento (nível de conf. 𝛾): 𝐼𝐶 𝜇𝑖 , 𝛾 = 𝑦𝑖. ± 𝑡𝛾 𝑄𝑀𝐸𝑟𝑟𝑜 𝑛 Onde: • 𝑡𝛾: valor encontrado na tabela t; • 𝛾 : nível de confiança; ESTIMAÇÃO DAS MÉDIAS • Ex. 9.4: Usando nível de confiança de 95% e 𝑔𝑙 = 𝑁 − 𝑔 = 24 − 3 = 21, temos 𝑡95% = 2,08, então, para a rede C1 temos: 𝐼𝐶 𝜇𝑖 , 95% = 8,21 ± 2,08 0,55 8 = 8,21 ± 0,55 ANOVA COM UM FATOR • No caso em que as amostras não possuem distribuição normal, ou que tenham um nível de mensuração qualitativo, usa-se o teste Kruskal- Wallis. TESTE F PARA AMOSTRAS EM BLOCOS • Notação para os dados: TESTE F PARA AMOSTRAS EM BLOCOS Modelo para os dados: 𝑌𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝛽𝑗 + 𝜀𝑖𝑗 Onde: 𝜇 : é a média global da resposta; 𝜏𝑖: é o efeito do i-ésimo tratamento; 𝛽𝑗: é o efeito do j-ésimo bloco; 𝜀𝑖𝑗: é o efeito aleatório (𝑖 = 1, 2, … , 𝑛; 𝑗 = 1, 2, … , ℎ). TESTE F PARA AMOSTRA EM BLOCOS QUADRO ANOVA Fonte de Variação Soma de Quadrados gl Quadrados Médios Razão f Entre Trat. 𝑆𝑄𝑇𝑟𝑎𝑡 = 𝑖=1 𝑔 𝑦𝑖. 2 ℎ − 𝑦.. 2 𝑁 𝑔 − 1 𝑄𝑀𝑇𝑟𝑎𝑡 = 𝑆𝑄𝑇𝑟𝑎𝑡 𝑔𝑙𝑇𝑟𝑎𝑡 𝑓 = 𝑄𝑀𝑇𝑟𝑎𝑡 𝑄𝑀𝐸 Entre Blocos 𝑆𝑄𝐵𝑙𝑜𝑐𝑜 = 𝑗=1 ℎ 𝑦.𝑗 2 𝑔 − 𝑦.. 2 𝑁 ℎ − 1 𝑄𝑀𝐵 = 𝑆𝑄𝐵 𝑔𝑙𝐵 Erro 𝑆𝑄𝐸 = 𝑆𝑄𝑇𝑜𝑡 − 𝑆𝑄𝑇𝑟𝑎𝑡 − 𝑆𝑄𝐵 (𝑔 − 1)(ℎ − 1) 𝑄𝑀𝑇𝑟𝑎𝑡 = 𝑆𝑄𝐸 𝑔𝑙𝐸 Total 𝑆𝑄𝑇𝑜𝑡 = 𝑖=1 𝑔 𝑗=𝑖 𝑛 𝑦𝑖𝑗 2 − 𝑦.. 2 𝑁 𝑁 − 1 Ex. 9.5(Barbetta, pg. 256) • Seja o problema de comparar 3 algoritmos de busca em um banco dedados. Realiza-se um experimento com 6 buscas experimentais, sendo que em cada uma é sorteado um número aleatório que indica o registro do banco de dados a ser localizado. Em cada um dos 6 processos de busca, são usados separadamente os três algoritmos em estudo, mas sob as mesmas condições, em termos dos fatores controláveis. São anotados os tempos de resposta ao usuário. • Hipóteses: H0: em média, os três algoritmos são igualmente rápidos; H1: em média, os três algoritmos não são igualmente rápidos; Ex. 9.5(Barbetta, pg. 256) • Dados do exercício: Ensaio (Bloco) Algoritmos de Busca A1 A2 A3 1 8,3 8,1 9,2 2 9,3 8,9 9,8 3 9,1 9,3 9,9 4 9,9 9,6 10,3 5 8,2 8,1 8,9 6 10,9 11,2 13,1 Soma 55,8 55,2 61,2 Média 9,3 9,2 10,2 Ex. 9.5(Barbetta, pg. 256) Soma de Quadrados 𝑆𝑄𝑇𝑟𝑎𝑡 = 55,8 2 + 55,2 2 + (61,2)² 6 − 172,2 2 18 = 3,64 𝑆𝑄𝐵 = 5007,98 3 − 172,2 2 18 = 21,95 𝑆𝑄𝑇𝑜𝑡 = 8,3 2 + 9,3 2 + 9,1 2 + ⋯− 172,2 2 18 = 26,86 𝑆𝑄𝐸𝑟𝑟𝑜 = 26,86 − 21,95 − 3,64 = 1,27 Fonte de Variação SQ gl QM Entre Trat. 3,64 2 1,82 14,29 Entre Blocos 21,95 5 4,39 Erro 1,27 10 0,13 Total 26,86 17 Ex. 9.5(Barbetta, pg. 256) Tabela ANOVA: Adotando 𝛼 = 0,05, com 𝑔𝑙 = 2 no numerador e 𝑔𝑙 = 10 no denominador, temos o valor crítico 𝑓𝑐 = 4,10. O que podemos concluir? Ex. 9.5(Barbetta, pg. 256) • Como o valor calculado é superior ao valor crítico, então o teste rejeita H0, provando estatisticamente que há diferença entre os três algoritmos de busca em termos do tempo médio de resposta. ANOVA EM PROJETOS FATORIAIS • Nos estudos experimentais, em geral procuramos avaliar ou testar o efeito de mais de um fator sobre uma resposta de interesse, por exemplo: • O engenheiro civil quer conhecer o quanto o tempo de hidratação, a dosagem de cimento e o uso de aditivos interferem na resistência a compressão de um concreto; • Um projeto é dito fatorial quando cada nível de um fator é testado com todos os níveis dos outros fatores, sem restrições. ANOVA EM PROJETOS FATORIAIS • As observações podem ser descritas pelo seguinte modelo: 𝑌𝑖𝑗𝑘 = 𝜇 + 𝜏𝑖 + 𝛽𝑗 + (𝜏𝛽)𝑖𝑗 + 𝜀𝑖𝑗𝑘 Onde: • 𝜇 : é a média global da resposta; • 𝜏𝑖: é o efeito do i-ésimo nível do fator A; • 𝛽𝑗: é o efeito do j-ésimo nível do fator B; • (𝜏𝛽)𝑖𝑗: é o efeito da interação entre 𝜏𝑖 e 𝛽𝑗; • 𝜀𝑖𝑗𝑘: é o efeito aleatório ou erro experimental. ANOVA EM PROJETOS FATORIAIS • Notação para os dados: ANOVA EM PROJETOS FATORIAIS SOMAS DE QUADRADOS • Somas das observações em cada célula: 𝑦𝑖𝑗. = 𝑘=1 𝑛 𝑦𝑖𝑗𝑘 • Soma de quadrados entre as células: 𝑆𝑄𝑆𝑢𝑏𝑡𝑜𝑡 = 𝑖=1 𝑔 𝑗=1 ℎ 𝑦𝑖𝑗. 2 𝑛 − 𝑦… 2 𝑁 ANOVA EM PROJETOS FATORIAIS Fonte de Variação Soma de Quadrados gl Quadrados Médios Razão f Fator A 𝑆𝑄𝐴 = 𝑖=1 𝑔 𝑦𝑖. 2 ℎ𝑛 − 𝑦… 2 𝑁 𝑔 − 1 𝑄𝑀𝐴 = 𝑆𝑄𝐴 𝑔𝑙𝐴 𝑓 = 𝑄𝑀𝐴 𝑄𝑀𝐸𝑟𝑟𝑜 Fator B 𝑆𝑄𝐵 = 𝑗=1 ℎ 𝑦.𝑗. 2 𝑔𝑛 − 𝑦… 2 𝑁 ℎ − 1 𝑄𝑀𝐵 = 𝑆𝑄𝐵 𝑔𝑙𝐵 𝑓 = 𝑄𝑀𝐵 𝑄𝑀𝐸𝑟𝑟𝑜 Interação A*B 𝑆𝑄𝐴𝐵 = = 𝑆𝑄𝑆𝑢𝑏𝑡𝑜𝑡 − 𝑆𝑄𝐴 − 𝑆𝑄𝐵 𝑔 − 1 ∗ ∗ (ℎ − 1) 𝑄𝑀𝐴𝐵 = 𝑆𝑄𝐴𝐵 𝑔𝑙𝐴𝐵 𝑓 = 𝑄𝑀𝐴𝐵 𝑄𝑀𝐸𝑟𝑟𝑜 Erro 𝑆𝑄𝐸𝑟𝑟𝑜 = 𝑆𝑄𝑇𝑜𝑡 − 𝑆𝑄𝑆𝑢𝑏𝑡𝑜𝑡 ℎ𝑔(𝑛 − 1) 𝑄𝑀𝐸𝑟𝑟𝑜 = = 𝑆𝑄𝐸𝑟𝑟𝑜 𝑔𝑙𝐸𝑟𝑟𝑜 Total 𝑆𝑄𝑇𝑜𝑡 = 𝑖=1 𝑔 𝑗=1 ℎ 𝑘=1 𝑛 𝑦𝑖𝑗𝑘 2 − 𝑦… 2 𝑁 𝑁 − 1 EXEMPLO 9.6( Barbetta, pg. 260) Considere o problema de comparar 3 topologias de rede de computadores (C1, C2 e C3) e 2 protocolos (L1 e L2), em termos do tempo de resposta ao usuário. Realizou- se um experimento com 4 replicações em cada combinação de topologia e protocolo. Deseja-se verificar se há diferenças entre as topologias, entre os protocolos e eventual interação entre topologia e protocolo. Então, quer-se testar as seguintes hipóteses nulas: 𝐻0 (𝐴) :os tempos esperados de resposta são iguais para as três topologias; 𝐻0 (𝐵) : os tempos esperados de resposta são iguais para os dois protocolos; 𝐻0 (𝐴𝐵) : a mudança de protocolo não altera as diferenças médias do tempo de resposta nas três topologias (ausência de interação). EXEMPLO 9.6( Barbetta, pg. 260) • Dados do experimento: Protocolo Topologia Soma Média C1 C2 C3 L1 6,2 5,9 5,9 𝑦.1. = 82,8 7,45 7,6 8,4 6,2 7,2 7,1 5,2 8,8 7,1 7,2 L2 9,0 7,1 6,2 𝑦.2. = 95,9 7,99 8,9 8,6 6,1 9,4 9,1 8,9 8,0 7,8 6,8 Soma 𝑦1.. = 65,1 𝑦2.. = 61,1 𝑌3.. = 52,5 𝑦... = 178,7 7,45 Média 8,1375 7,6375 5,5625 EXEMPLO 9.6( Barbetta, pg. 260) 𝑆𝑄𝑆𝑢𝑏𝑡𝑜𝑡 = 5393,39 4 − 31933,69 24 = 17,77 𝑆𝑄𝑇𝑜𝑡 = 1365,49 − 31933,69 24 = 34,92 𝑆𝑄𝐴 = 10727,47 8 − 31933,69 24 = 10,36 𝑆𝑄𝐵 = 16052,65 12 − 31933,69 24 = 7,15 EXEMPLO 9.6( Barbetta, pg. 260) • ANOVA: Fonte de Variação SQ gl QM 𝑓 𝑓𝑐 Topologia 10,36 2 5,18 5,44 3,55 Protocolo 7,15 1 7,15 7,51 4,41 Interação 0,26 2 0,13 0,14 3,55 Erro 17,14 18 0,95 Total 34,92 23 EXEMPLO 9.6( Barbetta, pg. 260) Conclui-se assim que tanto as diferentes topologias C1, C2 e C3, (𝑓 = 5,44 > 𝑓𝑐 = 3,55) , quanto os diferentes protocolos utilizados L1 e L2, (𝑓 EXEMPLO 9.6( Barbetta, pg. 260) • Análise dos resíduos e do perfil das médias para comprovar as suposições de normalidade e variância constante dos dados. • As médias são determinadas pela equação: 𝑦𝑖𝑗. = 1 𝑛 𝑘=1 𝑛 𝑦𝑖𝑗𝑘 • Os resíduos são a diferença entre os valores observados e a médiados subgrupos: 𝑒𝑖𝑗𝑘 = 𝑦𝑖𝑗𝑘 − 𝑦𝑖𝑗. EXEMPLO 9.6( Barbetta, pg. 260) (a) Perfil das médias (b) Análise dos Resíduos EXEMPLO 9.6( Barbetta, pg. 260) Observando o perfil das médias podemos observar diferenças entre os níveis dos dois fatores e a ausência de interação. Observando o perfil dos resíduos, observamos que os resíduos se encontram distribuídos de forma aleatória em torno da linha horizontal, associada ao resíduo nulo, isso sugere também que as suposições de normalidade e variância constantes são atendidas, validando os resultados da ANOVA. REFERÊNCIAS • BARBETTA, Pedro A.; REIS, Marcelo. M.; BORNIA, Antonio C. Estatística para cursos de engenharia e informática. 3 ed. São Paulo: Editora Atlas, 2010.
Compartilhar