Baixe o app para aproveitar ainda mais
Prévia do material em texto
Leandro Vinhas de Paula Bioestatística Unidade 4 Livro didático digital Diretor Executivo DAVID LIRA STEPHEN BARROS Diretora Editorial ANDRÉA CÉSAR PEDROSA Projeto Gráfico MANUELA CÉSAR ARRUDA Autor LEANDRO VINHAS DE PAULA Desenvolvedor CAIO BENTO GOMES DOS SANTOS Olá! Meu nome é Leandro Vinhas de Paula, sou bacharel e licenciado em Educação Física (Faculdade de Educação Física e Fisioterapia – Universidade Federal de Uberlândia), mestre em Ciências do Esporte (Escola de Educação Física, Fisioterapia e Terapia Ocupacional – Universidade Federal de Minas Gerais – EEFFTO/UFMG) e especialista em Estatística Aplicada (Departamento de Estatística – Instituto de Ciências Exatas – ICEX/UFMG) com uma experiência técnico-profissional na área de educação física e esportes por mais de 10 anos em atividades de ensino, pesquisa e extensão na Universidade Federal de Ouro Preto e no meio privado. Atualmente sou doutorando na área de Biomecânica (EEFFTO - UFMG). Autor LEANDRO VINHAS DE PAULA INTRODUÇÃO: para o início do desenvolvimen- to de uma nova competência; DEFINIÇÃO: houver necessidade de se apresentar um novo conceito; NOTA: quando forem necessários obser- vações ou comple- mentações para o seu conhecimento; IMPORTANTE: as observações escritas tiveram que ser prioriza- das para você; EXPLICANDO MELHOR: algo precisa ser melhor explicado ou detalhado; VOCÊ SABIA? curiosidades e indagações lúdicas sobre o tema em estudo, se forem necessárias; SAIBA MAIS: textos, referências bibliográficas e links para aprofun- damento do seu conhecimento; REFLITA: se houver a neces- sidade de chamar a atenção sobre algo a ser refletido ou discutido sobre; ACESSE: se for preciso aces- sar um ou mais sites para fazer download, assistir vídeos, ler textos, ouvir podcast; RESUMINDO: quando for preciso se fazer um resumo acumulativo das últimas abordagens; ATIVIDADES: quando alguma ativi- dade de autoapren- dizagem for aplicada; TESTANDO: quando o desen- volvimento de uma competência for concluído e questões forem explicadas; Iconográficos Olá. Meu nome é Manuela César de Arruda. Sou a responsável pelo pro- jeto gráfico de seu material. Esses ícones irão aparecer em sua trilha de aprendizagem toda vez que: SUMÁRIO Introdução......................................................................................10 Competências................................................................................11 Coeficiente de correlação de pearson.................................12 Coeficiente de correlação de spearman e concordância de kendal.........................................................................................17 Análise de regressão linear.......................................................24 Estudo de dispersão de frequência.......................................33 Bibliografia.....................................................................................49 Bioestatística 9 UNIDADE 04 Bioestatística10 Nesta unidade você será apresentado à distribuição normal de probabilidade, aprenderá a utilizar a tabela “z” e aprenderá a tipificar respostas individuais para uma determinada variável aleatória, serão apresentados exemplos práticos para que possa entender com aplicar estes conceitos. Então vamos lá! INTRODUÇÃO Bioestatística 11 Olá. Seja muito bem-vindo à Unidade 4. Nosso objetivo é auxiliar você no desenvolvimento das seguintes competências profissionais até o término desta etapa de estudos: 1. Explorando o grau de associação entre variáveis (“Pearson”); 2. Explorando o grau de associação (“Spearman”) e concordância (“Kendall”) entre variáveis; 3. Estabelecendo o relacionamento entre variáveis contínuas; 4. Verificando a independência de variáveis discretas Vamos começar? Está preparado? Então vamos ao trabalho! COMPETÊNCIAS Bioestatística12 Coeficiente de Correlação de Pearson O coeficiente de correlação de Pearson é utilizado para quantificar a relação linear entre duas variáveis quantitativas. Seu valor é determinado pelos valores dos dados amostrais observados. Seja uma amostra aleatória constituída de n pares (x_i,y_i) de observações, i=1,2,…,n. O coeficiente de correlação amostral de Pearson é calculado através da fórmula 01: Fórmula 1: Coeficiente de correlação de Pearson. Sendo: 𝑟 = (𝑆𝑥𝑦 ) 𝑆𝑥𝑆𝑦 = ∑ (𝑥𝑖 − �̅�)(𝑦𝑖 − 𝑦�)𝑛𝑖=1 ∑ 𝑥𝑖 − �̅� 2𝑛𝑖=1 1 2 ∑ 𝑦𝑖 − 𝑦� 2𝑛𝑖=1 1 2 𝑟 = (∑ 𝑥𝑖𝑦𝑖 ) − 𝑛𝑥𝑦𝑛𝑖=1 ∑ 𝑥𝑖2 − 𝑛�̅� 2𝑛 𝑖=1 1 2 ∑ 𝑦𝑖2 − 𝑛𝑦� 2𝑛 𝑖=1 1 2 𝑆𝑥𝑦 = ∑ (𝑥𝑖 − �̅�)(𝑦𝑖 − 𝑦�)𝑛𝑖=1 𝑛 − 1 ; 𝑆𝑥 = ∑ 𝑥𝑖 − �̅� 2𝑛𝑖=1 𝑛 − 1 1 2 ; 𝑆𝑦 = ∑ 𝑦 − 𝑦� 2𝑛𝑖=1 𝑛 − 1 1 2 Bioestatística 13 Pode ser mostrado que o coeficiente de correlação de Pearson está sempre entre -1 e 1. O exemplo a seguir ilustra o cálculo de r. TESTANDO: Em uma agência de correios de uma cidade, o gerente realizou um estudo para relacionar o peso (em kg) do total de correspondências recebidas por dia com o número efetivo de correspondências (x1000). Os dados obtidos da observação de 11 dias estão na tabela 1. Tabela 1. Dados do exemplo 1 Fonte: autor. Neste caso o valor do coeficiente de correlação de Pearson é dados por: Dia Peso (𝒙𝒊) Número(𝒚𝒊) 𝒙𝒊𝒚𝒊 1 10 4,1 41 2 35 6,5 227,5 3 13 3,6 46,8 4 34 6,7 227,8 5 21 5,2 109,2 Média 22,60 5,220 652,3 (Total) Desvio Padrão 11,59 1,388 CV% 51,28 26,59 𝑆𝑥𝑦 = (∑ 𝑥𝑖𝑦𝑖)− 𝑛𝑥𝑦𝑛𝑖=1 𝑛 − 1 = 652,3− 5 22,6 5,22 4 = 15,61 𝑟 = 15,61 (11,59)(1,388) = 0,9704 Bioestatística14 O valor de r indica que há uma forte relação linear entre os pesos total das correspondências recebidas e o número de correspondências recebidas diariamente, sendo que quanto maior o número de correspondências recebidas maior é o peso total. A correlação está bem próxima de 1. Teste de Hipóteses – Coeficiente de Correlação de Pearson Seja 𝜌 o coeficiente de correlação populacional entre as variáveis aleatórias X e Y. Para testar a significância da correlação é necessário que as duas variáveis X e Y tenham distribuição normal. Caso isto aconteça podemos testar a hipótese: 𝐻0:𝜌 = 0 através da estatística t-Student dada pela fórmula 2: Que sob a hipótese nula tem distribuição t-Student com (n-2) graus de liberdade. Seja 𝛼 o nível de significância do teste, 0 < 𝛼 < 1 . Se a hipótese alternativa for 𝐻1:𝜌 > 0 , então a hipótese nula será rejeitada para grandes valores de 𝑡 isto é, 𝑡 > 𝑡𝑐 , sendo o valor crítico obtido da tabela t-Student tal que 𝑃 𝑡𝑛−2 > 𝑡𝑐 = 𝛼 . Se a hipótese alternativa for 𝐻1:𝜌 < 0 , a hipótese nula será rejeitada para pequenos valores de 𝑡 isto é, 𝑡 < 𝑡𝑐, e o valor crítico obtido da tabela t-Student é tal que 𝑃 𝑡𝑛−2 < 𝑡𝑐 = 𝛼 . 𝑡 = 𝑟 𝑛 − 2 1− 𝑟2 � Fórmula 2: Estatística t-Student. Bioestatística 15 Se a hipótese alternativa for bilateral, 𝐻1:𝜌 ≠ 0 , então a hipótese nula será rejeitada para valores de 𝑡 , 𝑡 > 𝑡𝑐 , sendo o valor crítico obtido da tabela t-Student é tal que 𝑃 𝑡𝑛−2 > 𝑡𝑐 = 𝛼 2 . No exemplo em questão temos que o valor de t observado é igual a: Seja 𝐻1:𝜌 > 0 e 𝛼 = 0,05 . Supondo normalidade para as variáveis peso total e número de correspondências recebidas diariamente podemos realizar o teste estatístico. Sob a hipótese nula a estatística de teste t tem distribuição t-Student com 3 graus de liberdade. Então, o valor crítico 𝑡𝑐 será igual a 𝑡3;0,05 = 2,35 e a hipótese nula será rejeitada, o que indica que a relação linear positiva entre o peso total de correspondências recebidas e o número de correspondências recebidas diariamente é significativa do teste que seria dada por 𝑃 𝑡3 ≥ 6,959 = 0,00304 , o que indica que sob a hipótese nula um valor de correlação da ordem 0,9704 é pouco provável. Na Figura 1 tem-se o gráfico de dispersão dos valores do peso de correspondências e do número de correspondências recebidas diariamente. A figura1 indica uma relação de crescimento positivo entre duas variáveis. 𝑡 = 𝑟 𝑛 − 2 1 − 𝑟2 � = 0,9704 5− 2 1− 0,9704 2 � = 6,959 Bioestatística16 NOTA: É importante observar que para 𝑛 = 5 e 𝛼 = 0,05 a hipótese 𝐻0:𝜌 = 0 seria rejeitada para qualquer valor de r maior ou igual a 0,805. Basta buscar os valores de r que satisfazem a equação abaixo: O coeficiente de correlação de Pearson é um coeficiente paramétrico. Nem sempre temos dados com distribuição normal. Neste caso é importante buscarmos uma alternativa não paramétrica para medir a relação linear entre as duas variáveis. No exemplo em questão, a variável número de correspondências recebidas é discreta e não tem distribuição normal. Figura 1: Gráfico de dispersão entre o peso total e o número de correspondências recebidas diariamente. 2,35 = 𝑟 3 1 − 𝑟2 � Bioestatística 17 Coeficiente de Correlação de Spearman Suponha que tenhamos uma amostra constituída de n pares do tipo (𝑥𝑖 , 𝑦𝑖) . Então, o coeficiente de correlação de Spearman é simplesmente o coeficiente de correlação de Pearson calculado com os postos das observações (𝑥𝑖 , 𝑦𝑖) . Dados os n pares de observações deve-se inicialmente ordenar os valores de X do menor para o maior colocando os pontos correspondentes (em caso de empates usar posto médio). Denota-se o posto de observação 𝑥𝑖 por 𝑅𝑖 . Posteriormente, ordena-se os valores de Y do menor para o maior colocando os postos correspondentes (em caso de empates usar posto médio). Denota-se o posto de observação 𝑦𝑖 por 𝑆𝑖 . O coeficiente de correlação de Spearman será dado pela fórmula 03. 𝑟 = ∑ (𝑅𝑖 − 𝑅�)(𝑆𝑖 − 𝑆̅)𝑛𝑖=1 ∑ 𝑅𝑖 − 𝑅� 2𝑛𝑖=1 1 2 ∑ 𝑆𝑖 − 𝑆̅ 2𝑛𝑖=1 1 2 = (∑ 𝑅𝑖𝑆𝑖)− 𝑛𝑅𝑆𝑛𝑖=1 ∑ 𝑅𝑖2 − 𝑛𝑅� 2𝑛 𝑖=1 1 2 ∑ 𝑆𝑖2 − 𝑛𝑆̅ 2𝑛 𝑖=1 1 2 Sendo 𝑅� = 𝑆̅ = 𝑛 + 1 2 . No caso de não haver empates entres as observações o coeficiente de Spearman se reduz a fórmula 3: Coeficiente de correlação de Spearman (reduzida). 𝑟 = 1 − 6𝑇 𝑛(𝑛2 − 1) onde 𝑇 = ∑ 𝑅𝑖 − 𝑆𝑖 2𝑛𝑖=1 No caso de empates os valores 𝑅𝑖 e 𝑆𝑖 são substituídos por postos 𝑅𝑖∗ e 𝑆𝑖∗ . 𝑇 por 𝑇∗ e 𝑟 por 𝑟∗, onde o * denota que há empates entre as observações e postos médios Fórmula 3: Coeficiente de correlação de Spearman. Bioestatística18 estão sendo utilizados na atribuição de postos dessas observações. NOTA: Voltando ao exemplo 1, primeiramente ordenaríamos os valores dos pesos das correspondências recebidas e atribuiríamos os postos correspondentes. Posteriormente o mesmo seria feito para os valores do número de correspondências recebidas diariamente. Os dados organizados dessa forma são apresentados no Tabela 2. Tabela 2: Dados de pesos de correspondências. Fonte: autor. Nesse sentido, o coeficiente de Spearman seria calculado da seguinte forma: 𝑟 = 1− 6 4 5 25 − 1 = 1− 0,2 = 0,80 o que indica relação linear entre os postos das observações de X e Y. Dia Peso (𝑥𝑖) Número (𝑦𝑖) 𝑅𝑖 − 𝑆𝑖 2 1 10(1) 4,1(2) 1 2 35(5) 6,5(4) 1 3 13(2) 3,6(1) 1 4 34(4) 6,7(5) 1 5 21(3) 5,2(3) 0 Bioestatística 19 Teste de Hipóteses- Coeficiente de Associação (Correlação de Spearman) É possível testar a significância da correlação entre X e Y usando o coeficiente não paramétrico de Spearman. As seguintes hipóteses nula e alternativa podem ser consideradas: 𝐼 𝐻0:𝜌 = 0 contra 𝐻𝑎:𝜌 > 0 𝐼𝐼 𝐻0:𝜌 = 0 contra 𝐻𝑎:𝜌 < 0 𝐼𝐼𝐼 𝐻0:𝜌 = 0 contra 𝐻𝑎:𝜌 ≠ 0 Onde 𝜌 é o coeficiente de correlação populacional entre X e Y. A distribuição de probabilidades do coeficiente e correlação amostral de Spearman sob a hipótese nula é determinada pelas ordenações possíveis de serem obtidas quando se tem n pares de n observações de X e n de Y (pares). Essa distribuição não depende do conhecimento da distribuição de probabilidades das variáveis aleatórias X e Y, sendo o coeficiente de correlação de Spearman não- paramétrico. Existem tabelas com a distribuição exata de r sob a hipótese nula. No entanto, quando n é grande a distribuição de r sob a hipótese nula se aproxima de u 1 𝑛 − 1 ma distribuição normal com média zero e variância igual a no caso em que não há empates entre as observações de X ou de Y. No caso (I) a probabilidade de significância de teste é dada por 𝑝 = 𝑃[𝑟 ≥ 𝑟𝑜𝑏𝑠 ] . No caso (II) a probabilidade de significância é dada por: 𝑝 = 𝑃[𝑟 ≤ 𝑟𝑜𝑏𝑠 ]. No caso (III) seja 𝑝 = 2𝑃[𝑟 ≥ 𝑟𝑜𝑏𝑠]sendo 𝑟𝑜𝑏𝑠 o valor observado do coeficiente de Spearman para a amostra avaliada. No exemplo da agência de correios suponha que tenhamos as hipóteses: 𝑯𝟎: 𝝆 = 𝟎 contra 𝑯𝒂 :𝝆 > 𝟎 . Então pela tabela da distribuição exata de r sob a hipótese nula obtemos: Bioestatística20 𝑝 = 𝑃 𝑟 ≥ 0,80 = 0,067 . Isto significa que a hipótese nula seria rejeitada para qualquer nível de significância maior ou igual a 0,067. É importante observar que não há exigência de normalidade das variáveis para se realizar o teste de hipóteses relacionado ao coeficiente de associação não paramétrico de Spearman. TESTANDO: Os dados a seguir referem-se a um experimento para verificar o efeito de uma droga (X) no crescimento de um determinado tumor. Foram usadas 7 doses diferentes de X e para casa dose observou-se a porcentagem (Y) de animais que desenvolveram o tumor. Os dados observados foram (tabela 3): Tabela 3: Dados de efeito da droga e crescimento tumoral Fonte: autor. O valor observado do coeficiente de Spearman é: Dose (X) 0,05 0,5 5,0 20 50 100 300 Posto(X) 1 2 3 4 5 6 7 % (Y) 1 0 4,9 44,2 30 86,5 56,9 Posto (Y) 2 1 3 5 4 7 6 𝑅𝑖 − 𝑆𝑖 2 1 1 0 1 1 1 1 𝑇 = � 𝑅𝑖 − 𝑆𝑖 2 = 6 𝑛 𝑖=1 𝑟 = 1 − 6 6 7 49 − 1 = 0,8928 Bioestatística 21 A probabilidade de significância para o teste unilateral (I) é 0,006 indicando que existe uma associação positiva significativa entre a dosagem da droga e o desenvolvimento do tumor. Quanto maior a dose espera-se que maior será o percentual de animais que desenvolvem o tumor. Para o teste bilateral (III) seria 0,012. Usando a aproximação normal tem-se que: Figura 2: Gráfico de dispersão entre percentagem de animais que desenvolveram o tumor e dosagem da droga. 𝑝 = 𝑃 𝑟 ≥ 0,8928 = 𝑃 𝑁 0,1 ≥ 0,8928 1 6 � = 𝑝 𝑁 0,1 ≥ 2,19 = 0,014 Bioestatística22 A figura 2 apresenta os gráficos de dispersão da porcentagem de animais que desenvolveram o tumor (Y) e dosagem da droga (X). É possível observar que a relação entre Y e X aparentemente não é linear. O coeficiente de correlação de Spearman é na realidade um coeficiente de associação entre X e Y, não necessariamente essa associação é linear. Quando o valor é positivo há uma associação positiva entre as variáveis, ou seja, quando uma variável aumenta de valor a outra também tende a aumentar o valor (e vice-versa). TESTANDO: Em competição de ginástica rítmica desportiva dez participantes foram classificados por dois juízes da seguinte forma (1 é 1° colocado; 2 é o 2° colocado, etc.). Nesse exemplo o valor do coeficiente de correlação de Spearman é 𝑟 = 0,915 e a probabilidade de significância do teste (I) é igual 0 0,00 (aproximadamente), rejeitando-se a hipótese nula. Deste modo, percebe-se que os juízes foram concordantes no julgamento dos candidatos. Juiz A 2 5 6 4 1 7 9 10 3 8 Juiz B 1 4 5 6 2 7 10 8 3 9 𝑅𝐴 − 𝑅𝐵 2 1 1 1 4 1 0 1 4 0 1 Bioestatística 23 Caso de Empates entre observações X ou Y. No caso de haver empates entre as observações de X ou de Y, utiliza-se os postos médios quando da ordenação de valores e a distribuição normal para o cálculo da probabilidade de significância. No caso de empates tem-se que: 𝑉𝑎𝑟 𝑇∗ = 𝑛 − 1 𝑛2 𝑛 + 1 2 36 = 1− ∑ (𝑑𝑖𝑥3 − 𝑑𝑖𝑥)�𝑖 𝑛3 − 𝑛 = 1 − ∑ (𝑑𝑖𝑦3 − 𝑑𝑖𝑦)�𝑖 𝑛3 − 𝑛 Assim a variância do coeficiente de correlação de Spearman de 𝑟∗ será definida pela fórmula 4: Fórmula 4: Variância do coeficiente de correlação de Spearman. 𝑉𝑎𝑟 𝑟∗ = 36 𝑛2 𝑛 + 1 2 𝑉𝑎𝑟 𝑇∗ E utiliza-sea aproximação normal para cálculo da probabilidade de significância, sendo 𝑑𝑖𝑥 e 𝑑𝑖𝑦 , as frequências observadas de cada valor da variável X e cada valor da variável Y. Para efeito da correção de empates apenas as frequências dos valores de X e Y que aparecem mais de uma vez são contabilizadas. Bioestatística24 Análise de Regressão Linear A análise de regressão é uma técnica de modelagem utilizada para analisar a relação entre uma variável resposta (Y) e uma ou mais variáveis explicativas X1, X2, X3...Xn com objetivo de identificar (estimar) uma função que descreva, da melhor forma possível, a relação entre essas variáveis. Assim pode-se predizer o valor que a variável resposta (Y) irá assumir para determinados valores das variáveis explicativas. O objetivo de empregar esta técnica reside na interpretação da relação possivelmente existente entre as variáveis a fim de entender o fenômeno, predizer valores para variável resposta a partir das variáveis explicativas. Antes de explorar a análise de regressão linear, devemos diferenciar os conceitos de modelagem estatística e modelagem matemática. A modelagem matemática envolve o componente determinístico e modelagem estatística envolve tanto o componente determinístico e o componente estocástico. A regressão simples é dada pela fórmula 5 a seguir: Modelo de regressão linear. 𝑦𝑖� = 𝛽0 + 𝛽1 + 𝜖𝑖 , 𝑖 = 1,2,3, … ,𝑛 Onde: 𝑦𝑖� e a variável resposta; xi e a variável explicativa; β0 e o intercepto (termo constante); β1 e o coeficiente relacionado a variável xi (fator multiplicador ou coeficiente de regressão); ei e o erro aleatório, pertencente ao modelo. Para ajustar um modelo de regressão linear, devem ser respeitados as seguintes suposições: Bioestatística 25 ei N(0;σ 2); Cov(ei , ej) = 0 (Independência), Para entender os coeficientes da análise de regressão sem se preocupar com as questões de estimação e incerteza, vamos iniciar com um exemplo que se trata de uma regressão para predizer o desempenho esportivo de equipes adultas femininas da modalidade esportiva de handebol entre os anos de 2007 e 2017 (1ª a 24ª posições), explicada pelo número médio de partidas internacionais disputadas pelo grupo de jogadoras de cada país participante de campeonatos mundiais. 𝐷𝑒𝑠𝑒𝑚𝑝𝑒𝑛ℎ𝑜 = 21,36 − 0,17𝑝𝑎𝑟𝑡𝑖𝑑𝑎𝑠 + 𝜖 (Modelagem estatística) 𝐷𝑒𝑠𝑒𝑚𝑝𝑒𝑛ℎ𝑜 = 21,36 − 0,17𝑝𝑎𝑟𝑡𝑖𝑑𝑎𝑠 (Modelagem matemática) A variável resposta “Desempenho” denota o valor predito ou esperado para o desempenho dado o preditor número médio de partidas internacionais disputadas. Esse modelo busca explicar o desempenho em mundiais a partir da experiência internacional obtida através de jogos, onde -0,17 é o coeficiente de regressão. O intercepto “21,36” o valor esperado para o número médio de partidas internacionais disputadas. Os coeficientes em um modelo de regressão linear são geralmente estimados pelo método dos mínimos quadrados ordinários. A idéia do método de Minimos Quadrados é minimizar por meio das fórmulas abaixo: Métodos dos mínimos quadrados para determinação dos coeficientes do modelo de regressão. 𝑄𝐸 𝛽0,𝛽1 = � 𝑦𝑖 − 𝛽0 + 𝛽1𝑥𝑖 2 𝑛 𝑖=1 Bioestatística26 SQE(β0,β1) pode ser minimizadas através de suas derivadas: 𝜕𝑆𝑄𝐸(𝛽0,𝛽1 ) 𝜕𝛽0 = −2� 𝑦𝑖 − 𝛽0 + 𝛽1𝑥𝑖 = 0 𝑛 𝑖=1 𝜕𝑆𝑄𝐸(𝛽0,𝛽1 ) 𝜕𝛽1 = −2� 𝑦𝑖 − 𝛽0 + 𝛽1𝑥𝑖 = 0 𝑛 𝑖=1 Resolvendo o sistema de equações temos: 𝛽0 = 𝑦𝑚é𝑑𝑖𝑎 − 𝛽1𝑥𝑚é𝑑𝑖𝑎 ; 𝛽1 = ∑ 𝑥𝑖𝑦𝑖 − ∑ 𝑦𝑖𝑛𝑖=1 ∑ 𝑥𝑖𝑛𝑖=1𝑛𝑖=1 ∑ 𝑥𝑖2 − ∑ 𝑥𝑖2𝑛𝑖=1 2 𝑛 𝑛 𝑖=1 Assumindo a suposição válida, ei ~ N(0,σ 2), então: 𝛽0~𝑁 𝛽0,𝜎2 1 𝑛 + 𝑥𝑚é𝑑𝑖𝑎2 ∑ 𝑥𝑖 − 𝑥𝑚é𝑑𝑖𝑎 2𝑛𝑖=1 𝛽1 ~𝑁 𝛽1,𝜎2 1 ∑ 𝑥𝑖 − 𝑥𝑚é𝑑𝑖𝑎 2𝑛𝑖=1 Hipótese para β0: 𝐻0:β0 = 0; 𝐻1:β0 ≠ 0 ; Estatística de teste: 𝑡𝑜𝑏𝑠 = 𝛽0 − 𝛽0 𝐻0 𝑠𝑒 𝛽0 = 𝛽0 𝑠𝑒 𝛽0 ; Hipótese para β1: 𝐻0:β1 = 0; 𝐻1:β1 ≠ 0 ; Bioestatística 27 Estatística de teste: 𝑡𝑜𝑏𝑠 = 𝛽1 − 𝛽1 𝐻0 𝑠𝑒 𝛽1 = 𝛽1 𝑠𝑒 𝛽1 ; Podemos construir intervalos de confiança para os β’s (coeficientes) estimados: 𝛽0 ± 𝑡𝑐 ∗ 𝑠𝑒 𝛽0 𝛽1 ± 𝑡𝑐 ∗ 𝑠𝑒 𝛽1 Onde: 𝑠𝑒 𝛽0 = 𝜎2 1 𝑛 + 𝑥𝑚é𝑑𝑖𝑎2 ∑ 𝑥𝑖 − 𝑥𝑚é𝑑𝑖𝑎 2𝑛𝑖=1 ; 𝑠𝑒 𝛽1 = 𝜎2 1 ∑ 𝑥𝑖 − 𝑥𝑚é𝑑𝑖𝑎 2𝑛𝑖=1 ; 𝜎2 = ∑ 𝑦𝑁𝑖=1 − 𝛽0 + 𝛽1𝑥𝑖 𝑁 − 𝑝 , onde p é o número de parâmetros estimados pelo modelo; 𝑡𝑐é o valor crítico da distribuição 𝑡𝑛−2 de acordo com o nível de confiança desejado; Com 95% de confiança o valor de 𝑡𝑐 é: O erro observado é chamado resíduo que é dado por: 𝛽0 ± 𝑡𝑐 ∗ 𝑠𝑒 𝛽0 𝛽1 ± 𝑡𝑐 ∗ 𝑠𝑒 𝛽1 Onde: 𝑒 = 𝑦𝑖 − 𝑦𝑖� ,𝑜𝑛𝑑𝑒 𝑦�𝑖 = 𝛽0 + 𝛽1𝑥𝑖 . Bioestatística28 Figura 3: Determinação da soma dos quadrados das fontes de variação. Fonte:http://www.portalaction.com.br/22-teste-qui-quadrado-para- independência. Os resíduos pode ser uma medida útil de quão bem a reta estimada se ajusta aos dados. Uma boa equação de regressão é aquela que ajuda a explicar uma grande proporção da variância de 𝑦𝑖 . Podemos medir a variação de 𝑦𝑖 (𝑉𝑎𝑟𝑖𝑎çã𝑜 𝑦𝑖� = ∑ 𝑦𝑖 − 𝑦�𝑚é𝑑𝑖𝑎 2�� ) , após algumas equações chegamos ao seguinte resultado (fórmula 7): Somas dos quadrados das fontes de variação. 𝑆𝑄𝑇 = 𝑆𝑄𝐸 + 𝑆𝑄𝑟𝑒𝑔𝑟𝑒𝑠𝑠ã𝑜 ∑ 𝑦𝑖 − 𝑦�𝑚é𝑑𝑖𝑎 2�� = ∑ 𝑦𝑖 − 𝑦�𝑖 2�� + ∑ 𝑦�𝑖 − 𝑦�𝑚é𝑑𝑖𝑎 2�� http://www.portalaction.com.br/22-teste-qui-quadrado-para-independência http://www.portalaction.com.br/22-teste-qui-quadrado-para-independência Bioestatística 29 Para analisar a adequação do ajuste, deve-se determinar o coeficiente de determinação (R2), resumindo a subdivisão da variação de 𝑦𝑖 em termos de uma análise de variância (Tabela 4). Uma medida importante para a qualidade de ajuste é dada por pela fórmula 8: Coeficiente de Determinação. 𝑅2 = 1− 𝑆𝑄𝐸 𝑆𝑄𝑇 = 𝑆𝑄𝑟𝑒𝑔 𝑆𝑄𝑇 O valor de R2 estará sempre entre 0 e 1; Um R2 = 0 (A regressão não ajuda em nada a explicar a variação de yi); Um R2 = 1 (Ajustamento perfeito); Tabela 4: Tabela de análise variância para regressão linear. Fonte de Variação Soma de quadrados Graus de Liberdade Quadrados Médios Teste F Regressão 𝑆𝑄𝑟𝑒𝑔 = ∑ 𝑦�𝑖 − 𝑦�𝑚é𝑑𝑖𝑎 2�� 1 𝑄𝑀𝑟𝑒𝑔 = 𝑆𝑄𝑟𝑒𝑔 1 𝐹1,𝑁−2 = 𝑄𝑀𝑟𝑒𝑔 𝑄𝑀𝐸Resíduos 𝑆𝑄𝐸 = ∑ 𝑦𝑖 − 𝑦�𝑖 2�� N-2 𝑄𝑀𝐸 = 𝑆𝑄𝐸 𝑁 − 2 Total 𝑆𝑄𝑇 = ∑ 𝑦𝑖 − 𝑦�𝑚é𝑑𝑖𝑎 2�� N-1 Fonte: Autor. Bioestatística30 Figura 4: Relação entre desempenho em mundiais femininos de handebol e número médio de partidas internacionais entre 2007 e 2017. Fonte: Autor A busca pela excelência no handebol induz (solicita demanda) treinadores e comissões técnicas a procurar meios e ferramentas para a análise do desempenho em competição para identificar as variáveis necessárias ao sucesso. Neste sentido, a escassez de informações oriundas de análises de desempenho sobre as variáveis que diferenciam equipes vencedoras das perdedoras, dificulta o planejamento de treinos e competições para melhora do desempenho em competições de alto nível, ou mesmo como referência para equipes, treinadores e jogadores em desenvolvimento. Dessa forma, o objetivo deste exemplo é estabelecer a relação entre desempenho classificatório em mundiais femininos de handebol e número médio de partidas internacionais entre 2007 e 2017. Bioestatística 31 Figura 5: Correlação de Spearman e análise de regressão linear: software “R”. Fonte: Autor. O número médio foi de 56±26 partidas internacionais disputadas pelas equipes. O número de partidas internacionais é fornecido por cada país participante, considerando amistosos internacionais, competições continentais, mundiais e jogos olímpicos. Ao todo, n=89 dados foram disponibilizados via internet entre os anos de 2007 a 2017. O grau de associação entre partidas e a posição em mundiais se testou por meio do teste de correlação de Spearman (β) e um modelo de regressão linear entre o desempenho obtido em função das partidas internacionaisfoi construído. Bioestatística32 A relação estabelecida mostrou que o aumento médio de participação em um jogo internacional melhora em 0.17 vezes a posição obtida em mundiais (Desempenho = 21,36 - 0,17partidas, intercepto e coeficiente de regressão significativos, p<0,001, R2 = 0.45, observada na figura 5), com um coeficiente moderado e negativo de correlação entre as variáveis (β = -0.66; p<0,001), ou seja, um maior número de partidas está moderadamente associado às posições inicias do ranking de classificação (melhor desempenho) em mundiais. Bioestatística 33 Estudo de Dispersão de Frequência As respostas obtidas na experimentação em animais e humanos geralmente são quantitativas. Considerando fatores circunstanciais como o tempo, amostra e infraestrutura disponíveis, sempre um delineamento adequado pode ser definido para analisar este tipo de resposta. As respostas qualitativas exigem uma estratégia diferenciada de análise por sua natureza. Caso um ensaio é planejado para se obter resposta qualitativas de cada animal por efeito de tratamentos impostos pelo pesquisador, é preciso criar um critério de variabilidade de respostas observadas dentro de cada tratamento. Como as respostas são qualitativas, a abordagem de análise mais indicada envolveria métodos não – paramétricos. Existem situações entretanto nas quais as respostas qualitativas são julgadas pela frequência em que elas ocorrem dentro de um sub - universo estudado. Isto ocorrerá em basicamente dois grandes grupos de estudo de dispersão de frequência: a. Variável estudada apresenta-se dicotomicamente (sim ou não, presença ou ausência, animais positivos ou negativos, etc.) indicará apenas um resultado percentual de ocorrência da resposta alvo. Como exemplo, podemos citar a ocorrência de brucelose em bovinos de um município (positivo ou negativo); b. Variável estudada, ainda qualitativa, é pesquisada em grupos diferentes e se deseja conhecer se a dispersão das respostas observadas (dicotômicas ou não) se apresenta igualmente para todos os grupos, ou se a dispersão parece variar dependendo do grupo onde a resposta foi estudada (Figura 7). Esta situação está mais ligada à ação planejadora do pesquisador do que na situação anterior onde, pela operação de levantamento, não está implícita a imposição de grupos experimentais ou tratamentos. Por exemplo, em Bioestatística34 uma criação leiteira, estuda-se se a retenção de placenta está associada ou ocorre mais frequentemente em algum grau de sangue para vacas paridas, percebe-se que a resposta de retenção de placenta é dicotômica (sim ou não) e podem existir mais de dois graus de sangue discriminados pelo pesquisador para verificar se existe diferença no percentual de animais paridos com retenção entre aqueles graus de sangue, estes estudo são denominados de tabelas de contingência, apresentadas à seguir. Figura 06: Estudo de dispersão de frequência: tabelas de contingência. Estudo de Dispersão de Frequência Tabela de Contingência Teste de Qui- quadrado (x2) Limitações do uso do x2 Fonte: Autor. Tabelas de Contingência Enquanto nos levantamentos estuda-se tão somente a frequência de evento dicotômico dentro de um universo amostral, as tabelas de contingência envolvem o estudo de frequência de eventos dicotômicos ou não, mas que trazem consigo, naturalmente ou pressuposta pelo pesquisador, uma distribuição esperada. Suponhamos que em uma fazenda de exploração leiteira tenha havido 180 nascimentos no último ano. Para este tipo de exploração o evento mais desejável é de produtoras do plantel. A segregação genética para sexos de 1:1 é bem conhecida, deverá prevalecer e portanto, estaremos esperando 90 fêmeas e 90 machos entre bezerros nascidos. Se observássemos que realmente nasceram 90 machos e 90 fêmeas, nada de novo teria acontecido que ameaçasse a esperada segregação de nascimentos na proporção 1 macho para 1 fêmea (1:1). Bioestatística 35 Caso o evento observado fosse, entretanto de 92 fêmeas e 88 machos, consideraríamos a mesma segregação, já que os desvios ocorridos entre as frequências observadas e esperadas foram muito pequenos. Supostamente, se 120 fêmeas e apenas 60 machos, esses desvios nos pareceriam mais substâncias, e alternativamente julgaríamos: ou algo muito difícil de acontecer está ocorrendo ou alguma coisa pode estar efetivamente alterando a proporção esperada de 1:1. Nesse sentido, para julgarmos um evento como este, por meio da avaliação dos desvios observados é necessário: a. Estabelecer as hipóteses de testagem e um índice para medir a magnitude de desvios (formula 09), por meio do índice afastamento de qui - quadrado (β2); Hipóteses: H0: Não existe associação entre as variáveis, não discrepância entre as frequências esperada e observada (𝜒𝑜𝑏𝑠2 ≤ 𝜒𝑡𝑎𝑏2 ). H1: Há associação entre as variáveis, há discrepância entre as frequências esperada e observada (𝜒𝑜𝑏𝑠2 > 𝜒𝑡𝑎𝑏2 ) . Índice afastamento qui – quadrado (χ2). 𝜒𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜2 = � � 𝑛𝑖𝑗𝐸𝑖𝑗 2 𝐸𝑖𝑗 𝐶𝑜𝑙𝑢𝑛𝑎𝑠 𝑗=1 𝑙𝑖𝑛ℎ𝑎𝑠 𝑖=1 Onde 𝑛𝑖𝑗 é a frequência observada, 𝐸𝑖𝑗 = 𝑛𝑖+𝑛+𝑗 𝑛++ a frequência esperada e 𝜒𝑜𝑏𝑠2 segue uma distribuição de qui – quadrado com k-1 graus de liberdade para um total k de grupos, ilustrados na tabela 5. A exemplo do cálculo do desvio padrão, os desvios foram elevados ao quadrado pois sua soma simples resultaria no valor 0, e relativizados pela frequência esperada pertinente, logo o índice obtido é adimensional. Bioestatística36 TESTANDO: Considerando a mesma fazenda de pecuária leiteira a primeira situação onde verifica-se 92 fêmeas e 88 machos o índice de afastamento seria: 𝜒12 = 92 − 90 2 90 + 88 − 90 2 90 = 0,088 Na segunda situação onde verifica-se 92 fêmeas e 88 machos o índice de afastamento seria: 𝜒22 = 120 − 90 2 90 + 60 − 90 2 90 = 20,0 Tabela 05: Tabela de Contingência 2 x 2. Fonte: Autor. Logo, o valor do índice de afastamento qui – quadrado para o nascimento de bezerros da fazenda na primeira situação é menor que na segunda situação (𝜒12<𝜒22) . Parece claro que a primeira situação denuncia desvios meramente casuais e na segunda eles já parecem substancialmente grandes. Variável 1 Variável 2 Nivel A Nivel B Total Nivel A N 11 N 12 N 1+ Nivel B N 21 N 22 N 2+ Total N +1 N +2 N ++ Bioestatística 37 b. Analisar a distribuição desse índice de modo a identificar o valor em que os desvios seriam elevados demais para serem interpretados como casuais, tornando- se discrepante da frequência esperada para determinada resposta. Figura 07: Distribuição de qui – quadrado: Teste de β2 (Aceitação e rejeição de uma hipótese nula). Fonte: http://www.portalaction.com.br/22-teste-qui-quadrado-para- independência. O estudo da distribuição dos valores de 𝜒𝑡𝑎𝑏𝑒𝑙𝑎𝑑𝑜2 obtidos em vários levantamentos relacionados ao sexo, se a proporção for realmente 1:1, nos conduzirá ao encontro mais frequente de valores zero ou próximos de zero, a frequência diminuindo à medida que os valores de 𝜒𝑡𝑎𝑏𝑒𝑙𝑎𝑑𝑜2 aumentam. Além disso, essa distribuição irá depender do número de grupos estudados onde o valor mínimo do índice é zero (gl = k-1). As variações na proporção de nascimentos entre fêmeas e machos levarão diferentes e maiores valores de 𝜒𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜2 , mas cada vez menos frequentes. Os valores próximos a zero indicarão desvios meramente causais, http://www.portalaction.com.br/22-teste-qui-quadrado-para-independência http://www.portalaction.com.br/22-teste-qui-quadrado-para-independência Bioestatística38 dentro do critério de tipificar sempre 95% das respostas possíveis (p<0,05). Logo, deve-se localizar o valor crítico de 𝜒𝑡𝑎𝑏𝑒𝑙𝑎𝑑𝑜2 como aquele que engloba sob a curva do gráfico uma área que corresponda a 95% da área total a partir do valor inicial zero (Figura 8). Em síntese, isto se traduz que estudos de proporções entre sexos que estiveremalém deste ponto, sugerirão um fenômeno muito improvável (5% dos casos) ou o colocando em dúvida a proporção inicial considerada. Tabela 06: Tabela de qui – quadrado (χ2). Fonte: www.ime.unicamp.br/~cnaber/Tabela%20da%20Qui-quadrado.pdf . http://www.ime.unicamp.br/~cnaber/Tabela da Qui-quadrado.pdf Bioestatística 39 O estudo de áreas pode ser feito com o domínio da função matemática da distribuição de probabilidade de β2 e do processo de integração. Os valores limites e áreas podem ser quantificadas para o nível de erro estipulado (5%) e tabeladas conforme o número de graus de liberdade envolvidos no estudo (tabela 6). Para “k” grupos independentes os graus de liberdade correspondem a k-1, logo o valor tabelado que congrega 95% dos eventos possíveis da proporção de nascimentos por sexo é da ordem de 3,84, 5% de erro, que corresponde obter valores superiores a este limite em cinco de 100 estudos realizados. Logo, na primeira situação proposta anteriormente o valor de qui – quadrado (𝜒12 = 0,088) revela que os desvios foram realmente casuais, não significativo, pelo que o índice é taxado de não significativo, confirmando a hipótese nula. Por outro lado, na segunda situação o índice é superior ao tabelado (𝜒22 = 20,0) , mostrando uma elevada discrepância entre as frequências observadas e esperadas. Bioestatística40 TESTANDO: Em outro exemplo (tabela 7), para grupos independentes, a pelagem de coelhos de determinada raça possui 4 cores (branco, cinza, preto e malhado), onde a proporção esperada é respectivamente de 9:3:3:1. Em uma propriedade são estudados em torno de 480 filhotes registrados conforme a tabela 2. Tem-se o objetivo verificar a discrepância entre as frequências esperada e observada de filhotes da propriedade: 𝜒22 = 260 − 270 2 270 + 98 − 90 2 90 + 87 − 90 2 90 + 35 − 30 2 30 = 2,014 Tabela 07: Pelagem de filhotes de coelho. Fonte: Autor. Como existem 4 tipos de pelagem, temos então 3 graus de liberdade (k-1=3). O valor tabelado para 5%, conforme a tabela 6, é de 7,815. Como o índice de afastamento qui – quadrado calculado é inferior ao valor tabelado, não há discrepância entre a frequência observada e esperada entre as cores de filhotes de coelhos, portanto quaisquer variações entre a frequência observada e esperada na propriedade criadora de coelhos ocorre ao acaso. Pelagem Frequência Observada Esperada Branco 260 270 Cinza 98 90 Preto 87 90 Malhado 35 30 Total 480 480 Bioestatística 41 TESTANDO: Em diferentes contextos esportivos, é comumente observada a organização das competições em categorias em que o critério adotado é o ano de nascimento. Apesar da intenção positiva de se promover uma forma de disputa justa entre os participantes, este critério de agrupamento pode induzir diferenças de idade, que podem alcançar quase 24 meses dentro da mesma categoria etária. Essa diferença relativa de idade pode levar a possíveis vantagens de desempenho e participação, favorecendo os atletas nascidos mais próximos ao início do ano de seleção, fenômeno denominado “Efeito da Idade Relativa” (EIR). Na prática, um indivíduo nascido em janeiro apresenta 11 meses a mais de desenvolvimento psicofísico que outro nascido em dezembro, proporcionando uma vantagem em termos psicofísicos e de tempo de prática. Diante do exposto, o presente exemplo tem como objetivo mostrar e avaliar a presença do EIR de forma global nas categorias juvenil, júnior e adulta quando agrupados por trimestre (primeiro trimestre, T1 - nascidos(as) em janeiro, fevereiro e março; segundo trimestre, T2 – nascidos em abril, maio e junho; terceiro trimestre, T3 – nascidos em julho, agosto e setembro e quarto trimestre, T4 – outubro, novembro e dezembro) para ambos os sexos em campeonatos mundiais, com o uso do teste de qui - quadrado. Espera-se que a proporção de nascimentos seja igual para cada trimestre. As hipóteses estabelecidas para o estudo da dispersão de frequência por trimestres de nascimento na modalidade handebol são: Bioestatística42 H0: Não há discrepância entre as frequências esperada e observada de trimestres de nascimento na modalidade handebol (𝜒𝑜𝑏𝑠2 ≤ 𝜒𝑡𝑎𝑏2 ); H1: Há discrepância entre as frequências esperada e observada de trimestres de nascimento na modalidade handebol (𝜒𝑜𝑏𝑠2 > 𝜒𝑡𝑎𝑏2 ). Tabela 08 Estatística de teste qui – quadrado e p-valores para distribuições de trimestres de nascimento nas categorias juvenis, juniores e adultos (feminino e masculino) da modalidade esportiva de handebol (*Indica discrepâncias significativas com valor de p<0,001). Categoria (Sexo) Trimestre e Campeonato T1 T2 T3 T4 Adulto (Masculino) 537 491 486 401 Adulto (Feminino) 572 548 465 406 Júnior (Masculino) 349 312 258 206 Júnior (Feminino) 385 288 259 212 Juvenil (Masculino) 300 247 243 157 Juvenil (Feminino) 353 299 242 188 𝜒𝐴𝑑𝑢𝑙𝑡𝑜 𝑀𝑎𝑠𝑐 2 = 537 − 478,75 2 478 ,75 + 491 − 478,75 2 478 ,75 + 486 − 478,75 2 478,75 + 401 − 478,75 2 478,75 𝜒𝐴𝑑𝑢𝑙𝑡𝑜 𝑀𝑎𝑠𝑐 2 = 20,13* 𝜒𝐴𝑑𝑢𝑙𝑡𝑜 𝐹𝑒𝑚 2 = 572 − 497,75 2 497 ,75 + 548 − 497,75 2 497 ,75 + 465 − 497,75 2 497,75 + 406 − 497,75 2 497,75 𝜒𝐴𝑑𝑢𝑙𝑡𝑜 𝐹𝑒𝑚 2 = 35,21 ∗ Bioestatística 43 𝜒𝐽ú𝑛𝑖𝑜𝑟 𝑀𝑎𝑠𝑐 2 = 349 − 497,75 2 497 ,75 + 312 − 497,75 2 497,75 + 258 − 497,75 2 497,75 + 206 − 497,75 2 497,75 𝜒𝐽ú𝑛𝑖𝑜𝑟 𝑀𝑎𝑠𝑐 2 = 41,73 ∗ 𝜒𝐽ú𝑛𝑖𝑜𝑟 𝑀𝑎𝑠𝑐 2 = 349 − 281,25 2 281 ,25 + 312 − 281,25 2 281,25 + 258 − 281,25 2 281,25 + 206 − 281,25 2 281,25 𝜒𝐽ú𝑛𝑖𝑜𝑟 𝑀𝑎𝑠𝑐 2 = 41,73 ∗ 𝜒𝐽ú𝑛𝑖𝑜𝑟 𝐹𝑒𝑚 2 = 385 − 286 2 286 + 288 − 286 2 286 + 259 − 286 2 286 + 212 − 286 2 286 𝜒𝐽ú𝑛𝑖𝑜𝑟 𝐹𝑒𝑚 2 = 55,97 ∗ 𝜒𝐽𝑢𝑣𝑒𝑛𝑖𝑙 𝑀𝑎𝑠𝑐 2 = 300 − 236,75 2 236,75 + 247 − 236,75 2 236,75 + 243 − 2236 ,75 2 236,75 + 157 − 236,75 2 236 ,75 𝜒𝐽𝑢𝑣𝑒𝑛𝑖𝑙 𝑀𝑎𝑠𝑐 2 = 44,63 ∗ 𝜒𝐽𝑢𝑣𝑒𝑛𝑖𝑙 𝐹𝑒𝑚 2 = 353 − 270,5 2 270,5 + 299 − 270,5 2 270,5 + 242 − 270,5 2 270,5 + 188 − 270,5 2 270 ,5 𝜒𝐽𝑢𝑣𝑒𝑛𝑖𝑙 𝐹𝑒𝑚 2 = 56,33 ∗ Bioestatística44 Figura 08: Teste de qui – quadrado: software “R”. Fonte: Autor. Bioestatística 45 Os índices de afastamento indicam uma diferença entre as frequências esperada e observada na distribuição de trimestres de nascimento em todas as categorias. Para verificar se há diferentes entre trimestres, aplicam-se testes de proporções 2 a 2, que não são o foco desta unidade de estudo. A partir da aplicação destes testes verificamos se há a presença do EIR. Na categoria juvenil em ambos os sexos foi verificado uma maior proporção pelos menos às margens da significância decrescente do primeiro ao quarto trimestre (T1, T2, T3 e T4) (Feminino - T1 vs. T2, p = 0,049; T1 vs. T3, p = 0,004; T1 vs. T4, p < 0,001; T2 vs. T3, p = 0,061; T2 vs. T4, p < 0,001; T3 vs. T4, p = 0,047; e Masculino - T1 vs. T2, p = 0,07; T1 vs. T3 e T1 vs. T4, p < 0,001; T2 vs. T3, p = 0,03; T2 vs. T4, p < 0,001; T3 vs. T4, p = 0,02). Para a categoria Junior, a análise de proporções revelou que em ambos os sexos o T1 foi significativamente superior à T3 e T4 (Feminino e Masculino – T1 vs. T3, T1 vs. T4, p < 0,001), T2 em relação à T4 (Feminino e Masculino - T2 vs. T4, p < 0,001) e especificamente o T1 significativamente diferente ao T2 no masculino (T1 vs. T2, p < 0,001). Porém, na categoria júnior masculina foi verificada uma proporção maior de nascidos no T3 quando comparado ao T4 (p = 0,047) e às margens da significância de T2 para com T4 (p = 0,06). Na categoria adulta do sexo feminino uma maior proporção significativa de nascidos nos três primeiros trimestres em relação ao último trimestre (T1 vs. T4, p < 0,001, T2 vs. T4. p = 0,004; T3 vs. T4, p = 0,007). Por outro lado, no sexo masculino foi verificada uma maior frequência de nascidos nos dois primeiros trimestres quando comparado aos dois últimos trimestres (T1 vs. T3, p < 0,001; T1 vs. T4, p < 0,001; T2 vs. T3, p = 0,017; e T2 vs. T4, p<0,001).Após as análises, de uma forma geral, nas análises gerais foi verificado uma forte presença do EIR em todas as categorias e em ambos Bioestatística46 os sexos. Na figura 09 é mostrado a aplicação do teste de qui – quadrado no software “R”. Limitações do uso do χ2 Nesta subseção são abordados aspectos relacionados com as limitações de uso do teste de qui – quadrado. O estudo de dispersão de frequências é realizado a partir de registros absolutos. Nesse sentido, podem ser verificadas algumas limitações: a. O índice de afastamento qui – quadrado possui uma configuração que impede que qualquer frequência teórica assuma o valor zero, implicando em uma indeterminação, onde o divisor seria igual a zero. Por outro lado, as frequências esperadas muito próximas de zero superestimam o valor de β2 e podem ser um indicador para agrupamento de classes, compactamos classes vizinhas adotando um critério racional, até que a soma de frequência seja maior que 1. b. As situações experimentais com frequências totais reduzidas, não poderão ter suas dispersões devidamente estudadas e comparadas. Caso as observações de um grupo forem distribuídas em k classes de respostas, o ideal seria obter 15*k indivíduos para este grupo. Assim, para o valor mínimo de k=2 deveríamos contar com 30 indivíduos por grupo. c. Como a distribuição dos valores de β2 é contínua e as frequências estudadas são variáveis discretas, um ajuste para corrigir pequena diferença no cálculo da área sob a curva da distribuição pode ser efetuada, logo o teor de ajuste proposto é: Bioestatística 47 A alteração proposta só diminui discretamente o valor final de χ2 e, portanto, quando sem o ajuste do valor de χ2 não tiver sido significativo ou então for muito maior que o tabelado, a correção de continuidade não afetará a conclusão inicialmente tomada. Por outro lado, o valor significativo de χ2 estiver próximo ao valor tabelado, seria interessante procedermos à correção, cujo valor ajustado de χ2 seria igual a: = 17 − 21 − 0,5 2 21 + 25 − 21 − 0,5 2 21 + 13 − 9 − 0,5 2 9 + 5 − 9 − 0,5 2 9 𝜒𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜2 = 3,888 𝜒𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 2 = � � 𝑛𝑖𝑗𝐸𝑖𝑗 − 0,5 2 𝐸𝑖𝑗 𝐶𝑜𝑙𝑢𝑛𝑎𝑠 𝑗=1 𝑙𝑖𝑛ℎ𝑎𝑠 𝑖=1 𝜒𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 2 = � � 𝑛𝑖𝑗𝐸𝑖𝑗 − 0,5 2 𝐸𝑖𝑗 𝐶𝑜𝑙𝑢𝑛𝑎𝑠 𝑗=1 𝑙𝑖𝑛ℎ𝑎𝑠 𝑖=1 O valor anterior do índice de afastamento era de 5,079, mostrando a significância dos desvios observados, superior ao valor tabelado de 3,84 com 1 grau de liberdade. O valor ajustado é superior ao tabelado, confirmando a associação entre a fertilidade e diluente. Bioestatística48 Nesta unidade IV, você teve acesso a conceitos sobre associação e relacionamento de variáveis e estudo de dispersão de frequência com o uso do software “R”, revise seus conceitos e explore novas bibliografias! Finalizamos nossas atividades neste curso, esperamos que você tenha gostado! Agora é com você! Bioestatística 49 BIBLIOGRAFIA CRAWLEY, M.J. The R book. San Francisco: John Wiley & Sons. 942p. SHAHBABA, B. Biostatistics with R. New York: Springer, 2012. 352p. SIQUEIRA, A. L.; TIBÚRCIO, J. D. Estatística na Área da Saúde: conceitos, metodologia, aplicações e prática computacional. Belo Horizonte: Coopmed, 2011. 520p. SAMPAIO, I.B. Estatística aplicada à experimentação animal: Belo Horizonte: FEPMZ, 2010. 264p. PAGANO, M.; GAUVREAU, K. Princípios de Bioestatística. 2. ed. São Paulo: Pioneira Thompson Learning, 2004. 522p. ZAR, J.H. Biostatistical analysis. New Jersey: Prentice- Hall.1984. 718p.
Compartilhar