Prévia do material em texto
Módulo 4 - Noções básicas de delineamento experimental e a importância do cálculo do tamanho amostral Urbano G P de Abreu 2 Módulo 4 - Noções básicas de delineamento experimental e a importância do cálculo do tamanho amostral Objetivos de Aprendizagem: • Indicar o delineamento experimental e o tamanho amostral mais adequado ao experimento. 3 Módulo 4 - Noções básicas de delineamento experimental e a importância do cálculo do tamanho amostral Introdução: • Planejamento / Execução / Análise dos Dados / Interpretação dos resultados; • Tratamentos – qualquer método, elemento ou material cujo EFEITO nós desejamos medir ou comparar; • Experimento – trabalho previamente planejado que segue determinados princípios básicos, no qual se faz a comparação dos efeitos dos tratamentos; • Parcela ou Unidade Experimental – unidade na qual o tratamento é aplicado e que deverá fornecer os dados que irão refletir os efeitos dos tratamentos; • Delineamento Experimental – plano utilizado para fazer o experimento e que implica na maneira como serão distribuídos os tratamentos nas parcelas e como serão analisados os dados. 4 Amostragem OBTER IFORMAÇÃO SOBRE O TODO, BASEANDO-SE NO RESULTADO DE UMA AMOSTRA. Amostragem é fato corrente no cotidiano, e o uso de amostras que resultados confiáveis e livre de viéses é o desejo de todos. A amostra é retirada de uma distribuição de probabilidades. Ou seja, é necessário que o pesquisador planeje, execute, corrija e analise adequadamente o procedimento proposto e usado. Implica numa série de medidas e cuidados antes da realização, durante a aplicação e depois da pesquisa efetuada. População: grupo completo. Amostra: subconjunto de unidades elementares selecionadas na população. 5 Amostras e Variáveis Amostra aleatória de tamanho n retirada de uma população é uma das possíveis prováveis combinações de n unidades elementares, que podem ser retiradas de uma população, portanto possuem a mesma probabilidade de serem selecionadas. A) Amostras com reposição; e B) Amostras sem reposição (mais comum). Variáveis aleatórias – é uma variável cujo valor é resultado numérico de um experimento aleatório. Classificações das variáveis: A) Quantitativas - discretas (tamanho da leitegada). - contínuas (produção diárias de leite em vacas). B) Qualitativas - nominais (sem ordenamento e hierarquia) - cor de ovos. - ordinais (com ordenamento e hierarquia) - escore de condição corporal em bovinos. 6 Medidas de Ordenamento e Posição A) Percentil – interesse em saber a posição de um determinado valor em relação ao grupo de valores. Ordenamos todo valores de forma crescente ou decrescente. Ao associar os n valores ordenados de forma crescente com a serie dos números naturais de 1, 2, 3, ... até n definimos uma relação de ordem. O percentil de menor valor é definido como 0% e o percentil de maior valor é definido como 100%. p = ((x-1)/(n-1)) *100% n = quantidade de indivíduos p = percentil x = ordem Exemplo Ganho de peso (g/dia) 310 380 190 270 240 420 320 180 430 150 390 Ordenar 150 180 190 240 270 310 320 380 390 420 430 1 2 3 4 5 6 7 8 9 10 11 Exemplo: p = ((x-1)/(n-1)) *100% = ((2-1)/(11-1))*100 = 10% Indivíduo com 180g 7 B) Quartil – divide os valores ordenados em quatro quartos iguais e aí se obtém três quartis denominados primeiro quartil (25%), segundo quartil (50%) e terceiro quartil (75%). Primeiro quartil (Q1) x = ((n -1)*(1/4)) +1 Segundo quartil (Q2) x = ((n +1)/2 Terceiro quartil (Q3) x = ((3*(n +1))/4 Limite superior Q1 8 c) Média Aritmética – medida de posição mais usada, pois a média de x é a definição do valor mais provável da variável. =430 180 190 420 270 310 320 380 390 240 150 298,1818 d) Mediana – é o valor localizado na posição central dos valores ordenados da variável tal que 50% dos valores são menores e o restantes são maiores. • Se a quantidade de valores n for ímpar, a mediana será o valor da variável situada no posição (n+1)/2. • Se a quantidade de variáveis de valores fou par. A mediana será igual ao resultado de dividir por 2 a soma dos valores das posições (n/2) e (n/2)+1. 430 420 390 380 320 310 270 240 190 180 150 310 Quando a distribuição é normal (simétrica) a média e mediana são iguais. 9 Histograma de Frequência Histograma de Frequência com Curva Normal Ajustada 10 Medidas de Dispersão A) Variância (s2 ou σ2 )– de uma população é definida como sendo a média dos quadrados dos desvios em relação a média aritmética. População Amostra 150 298,1818 -148,182 21957,8512 21957,8512 180 298,1818 -118,182 13966,9421 13966,9421 190 298,1818 -108,182 11703,3058 11703,3058 240 298,1818 -58,1818 3385,1240 3385,1240 270 298,1818 -28,1818 794,2149 794,2149 310 298,1818 11,81818 139,6694 139,6694 320 298,1818 21,81818 476,0331 476,0331 380 298,1818 81,81818 6694,2149 6694,2149 390 298,1818 91,81818 8430,5785 8430,5785 420 298,1818 121,8182 14839,6694 14839,6694 430 298,1818 131,8182 17376,0331 17376,0331 298,1818 0 99763,64 99763,63 11 GL = 10 9069,4215 9976,3636 (n-1) A variância é sempre um valor positivo e sua unidade é quadrática. 11 B) Desvio Padrão (DP ou s)– raiz quadrada da variância, tomada como valor positivo e expressa na mesma unidade dos dados. s = 99,8817 g/dia C) Coeficiente de Variação (CV)– desvio padrão expresso em termos de porcentagem da média. CV=(100s)/ ͞xCV = 33,4969 g/dia D) Erro Padrão da Média (EP)– fornece uma idéia da precisão da estimativa da média. EP = s/EP = 30,1155 g/dia 12 Probabilidade e Experimentação A) Probabilidade (P) - estudo das chances de obtenção de cada resultado de um experimento aleatório. B) Frequência relativa - forma de realizar essa análise dos dados por meio de uma comparação, pois a frequência relativa de um dado é a porcentagem que aquele dado representa em relação a todos os dados coletados. C) Curva Normal - Distribuição de z (ou t) 13 • A área total sob uma curva de distribuição normal padrão é de 100%; • Probabilidade de uma variável aleatória aparecer na metade esquerda da curva é 0,5. É claro que nem todos os problemas são simples assim, e é por isso que há uma tabela-z. Tudo o que uma tabela-z faz é medir essas probabilidades (ou seja, 50%) e colocá-las em desvios-padrão da média. •A média está no centro da distribuição normal padrão e uma probabilidade de 50% é igual a zero desvios padrão. •Conseguimos desenhar uma curva de distribuição normal tendo apenas dois parâmetros: média e desvio padrão. •Considerando a probabilidade de ocorrência de um fenômeno, a área sob a curva representa 100%. Isso quer dizer que a probabilidade de uma observação assumir um valor entre dois pontos quaisquer é igual à área compreendida entre esses dois pontos; •O ponto mais alto na curva, representa o valor com a maior moda do processo, ou seja,o valor que mais aparece na base de dados. Esse é representado na curva pelo corte central deste diagrama. 14 •Os outros cortes verticais, representam o desvio padrão em relação a média, ou seja, temos uma faixa de valores que significa a soma ou subtração de um desvio padrão em relação a média. •Outro detalhe importante e conhecido da curva de distribuição normal é que cada faixa de valores representa uma certa probabilidade de ocorrência. • -1 desvio padrão até +1 desvio padrão, está compreendido 68,26% da base de dados. Se ampliarmos um pouco mais e pegarmos a faixa que vai de mais até menos 2 sigma, já teremos 95,44%, mais ou menos3 sigma representa 99,74% dos dados. 15 •D) Intervalo de Confiança (IC) – é o intervalo de valores que contém a média da população com uma determinada probabilidade de acerto. µ = ͞x ± 1,96 * s / / Na experimentação o valor médio encontrado se baseia em número restrito de observações. Como o valor 1,96 se refere a distribuição de valores médios de grande grupos (r > ou = 120), e o desvio da distribuição de médias aumenta à medida que r diminui, uma correção no valor de z=1,96 deverá ser feita para garantir a definição precisa de uma área central de 95% que constituir-se-á no IC obtida de r observações. No nosso exemplo: Média = 298,1818 s = 99,8817 R = 11 239,1551 g/dia ≤ µ ≤ 357,2085 g/dia µ = 298,1818 ± 1,96 (99,8817/√11) 16 •D) Cálculo do Tamanho da Amostra – esta ligado ao intervalo de confiança da média. A estrutura da fórmula do intervalo ͞x ± z s/ , verificamos que a confiabilidade de ͞x depende de s e r . Já que z por sua vez depende de r e varia apenas de 2,571 a 1,960 se r for 5 ao infinito, respectivamente. • O valor do DP (s) então possui uma importância grande sobre a estimativa do intervalo; • Desvios a média terá menos significado de medida de posição, a menos que aumente o r; • Desvios a média terá significado como medida de posição. •Exemplo resultado de 298,18 ± 200,00 g/dia (quase 70% da média) fica difícil caracterizar um tratamento com este resultado; •Exemplo, permitir oscilação de 10% em torno da média (29 g/dia). Média= 298,1818 g/dia DP (s) = 99,8817 g/dia z = 1,96 • µ = ͞x ± 1,96 * s / 17 29 = 1,96 * 99,1818 / √r = 6,7506 … r = 45,57093 ~ 46 bovinos. 18 •No planejamento da pesquisa, é importante levar em consideração quais são os resultados possíveis dos testes realizados; •Tamanho do efeito, importante que o pesquisador tenha em mente que a existência de diferença estatística entre dois grupos não é suficiente para que ela seja significativa biologicamente. Assim, é preciso estimar, com base em experimentos prévios ou parâmetros a magnitude que torna essa diferença realmente relevante; •Estimativa do desvio-padrão é a medida de dispersão da média e indica o quanto as observações individuais se distanciam da média calculada para um determinado conjunto de amostras. Em geral, quanto maior o desvio, maior o número necessário de repetições. Algumas variáveis apresentam grande variação individual, enquanto outras, quando apresentam desvio amplo, podem indicar efeito do acaso, ou seja, presença de fatores não controlados; •Para efeitos de cálculo de tamanho amostral, o pesquisador pode lançar mão de dados de experimentos anteriores, dados da literatura científica ou estimativas pautadas em revisão ou outros tipos de documentação; e •Estimativa de perda de amostras, deve-se avaliar o risco de perda de amostras durante a execução do projeto para que seus resultados não sejam invalidados. 19 Experimentação - Consulte um Estatístico •Variações; •Parcela experimental; •Repetições (mínimo de 20 parcelas e 10 Graus de Liberdade para o resíduo); •Casualização – probabilidade de uma parcela qualquer receber um tratamento é a mesma de receber outro tratamento; •Controle Local (Blocos); •Duplo Controle Local (Quadrado Latino); •Ensaios Rotativos (“Change Over”); •Ensaios de Reversão (“Switch Back”); e •Covariância. 20 Literatura Obrigado Urbano G P de Abreu Urbano.abreu@embrapa.br v