Prévia do material em texto
BIOESTATÍSTICA AULA 4 Prof. Michael Pereira da Silva Prof. Thiago Silva Piola 2 CONVERSA INICIAL Como já vimos, ao analisarmos dados com variáveis de caráter quantitativo (numérico), é necessário verificarmos se essas variáveis apresentam distribuição normal, ou seja, se a distribuição dos dados observados se assemelha à curva de sino que já estudamos em momento anterior. Testar essa normalidade dos dados é parte preliminar da escolha de testes estatísticos que serão voltados a avaliarem hipóteses formuladas em nossos estudos. Alguns testes assumem que a variável de interesse não desvie da distribuição teórica normal e são conhecidos como testes paramétricos. Esses testes podem ser utilizados para realizarmos comparações com dados populacionais ou mesmo com dois ou mais grupos identificados dentro do nosso conjunto de dados coletados, bem como utilizados para associar duas ou mais variáveis desse conjunto de dados. Discutiremos a seguir a utilização e a interpretação desses testes estatísticos. TEMA 1 – TESTES PARAMÉTRICOS PARA UM ÚNICO GRUPO Testes paramétricos para um único grupo são normalmente utilizados para situações em que pretendemos comparar as informações provenientes do conjunto de dados que coletamos/observamos com alguma referência externa (Barros et al., 2012). Por exemplo, imagine que coletamos informações de peso corporal e estatura de homens e mulheres adultos da cidade de Curitiba/PR e queremos verificar se a média dos valores de índice de massa corporal (IMC) observada nestes sujeitos se difere da média do IMC coletada na população brasileira através da Pesquisa Nacional de Saúde. Para isso, precisaremos de um teste estatístico que testará a hipótese de que os dados observados em nossa amostra não se diferem dos dados brasileiros. Discutiremos a seguir as opções disponíveis para essa situação. 1.1 Teste Z O teste Z para uma amostra é utilizado para testar se a média de um conjunto de dados se difere ou não de uma média conhecida desse parâmetro na população. Diante disso, temos a seguinte formulação de hipóteses: 3 • H0: média observada no conjunto de dados = média conhecida na população. • H1: média observada no conjunto de dados ≠ média conhecida na população. Para a realização do teste Z, alguns pressupostos devem ser atendidos. Sendo eles: • A distribuição deve ser normal (paramétrica). • A amostra deve ter sido extraída da população de forma aleatória simples, ou seja, todos os participantes apresentaram a mesma chance conhecida de serem incluídos na amostra. • Conhecer o real desvio-padrão da média da população, pressuposto dificilmente atendido visto à dificuldade de obtenção desse valor (Navarro et al., 2019). Vamos reforçar o entendimento da utilização do teste z utilizando o seguinte exemplo. Após coletarmos uma amostra aleatória simples de mulheres da cidade de Curitiba (PR), identificamos uma média de índice de massa corporal (IMC) de 22,2kg/m². Sabemos que o IMC médio de mulheres brasileiras é de 24,0kg/m² com desvio-padrão de 4,4kg/m² (hipoteticamente). Fazemos então o seguinte questionamento: o IMC médio de mulheres de Curitiba se difere significativamente do IMC médio de mulheres brasileiras? Vamos usar o software BioEstat1 para analisarmos e respondermos esse questionamento. Para compreender a forma de entrada dos dados, você pode acessar o manual do BioEstat2. • Passo 1: selecione o Teste Z. 1 Disponível em: <https://www.mamiraua.org.br/downloads/programas/>. Acesso em: 31 ago. 2021. 2 Disponível em: <https://docs.ufpr.br/~vayego/pdf_11_2/manual.pdf>. Acesso em: 31 ago. 2021. 4 Figura 1 – Passo 1 • Passo 2: selecione a variável de interesse observada (IMC). Figura 2 – Passo 2 • Passo 3: insira a média e o desvio padrão da variável conhecida na população. 5 Figura 3 – Passo 3 • Resultado. O valor de p apresentou valor inferior a 0,05. Nesse caso, rejeitamos a hipótese nula e assumimos que o IMC observado na nossa amostra foi significativamente diferente do IMC da população. 1.2 Teste t para uma amostra O teste t para uma amostra apresenta-se como uma opção ao teste Z para uma amostra, permitindo avaliar diferenças do valor médio observado em uma amostra de um valor de referência (Barros et al., 2012; Navarro et al., 2019). O teste t apresenta algumas diferenças que favorecem a sua utilização, em relação ao teste Z, mas também possui pressupostos para sua utilização: • A distribuição deve ser normal (paramétrica). • A amostra deve ter sido extraída da população de forma aleatória simples, ou seja, todos os participantes apresentaram a mesma chance conhecida de serem incluídos na amostra. Como visto, o teste t não exige que conheçamos o verdadeiro desvio- padrão da média populacional, facilitando assim sua utilização, até mesmo em amostras menores (Navarro et al., 2019). Voltamos, então, à mesma situação exemplo proposta no tópico anterior. • Média de IMC observada = 22,2kg/m². • Média de IMC na população = 24,0kg/m². Pergunta de pesquisa: o IMC médio de mulheres de Curitiba se difere significativamente do IMC médio de mulheres brasileiras? Vamos ao passo a passo. 6 • Passo 1: selecione o teste t. Figura 4 – Passo 1 • Passo 2: selecione a variável de interesse observada (IMC) e a inserção da média da variável conhecida na população. Obs.: perceba que não precisamos mais inserir o desvio-padrão da variável conhecida na população. Figura 5 – Passo 2 • Passo 3: Resultado. 7 O valor de p apresentou valor inferior a 0,05. Nesse caso, rejeitamos a hipótese nula e assumimos que o IMC observado na nossa amostra foi significativamente diferente do IMC de referência. TEMA 2 – TESTES COMPARATIVOS PARA DOIS GRUPOS Em diversos momentos, nos deparamos com a necessidade de comparar variáveis observadas entre dois grupos distintos em nosso conjunto de dados ou mesmo verificarmos se um grupo de participantes obteve melhorias em uma variável após determinado tratamento. Nesses casos, utilizamos testes que compararão as médias/ou distribuição dos dados entre dois grupos distintos (independentes ou não pareados) ou entre o momento pré-tratamento e o pós- tratamento (dependentes ou pareados). Discutiremos agora as possibilidades para ambas as situações. 2.1 Teste Z para duas distribuições O teste Z para duas distribuições utilizado com intuito de comparar duas variáveis paramétricas de grupos independentes quando a distribuição da variável na população é paramétrica (Lirani; Oziecki, 2020). Diante disso, temos a seguinte formulação de hipóteses: • H0: distribuição observada no conjunto de dados do grupo 1 = distribuição observada no conjunto de dados do grupo 2. • H1: distribuição observada no conjunto de dados do grupo 1 ≠ distribuição observada no conjunto de dados do grupo 2. Vamos a um exemplo prático. Pretendemos verificar se o IMC se difere entre homens e mulheres de uma amostra coletada da cidade de Curitiba. 8 • Passo 1: selecione o teste estatístico. Figura 6 – Passo 1 • Passo 2: selecione as variáveis para cada grupo e indicar a variância observada em cada um deles. Figura 7 – Passo 2 • Passo 3: Resultado. 9 Ao analisarmos o resultado do teste, identificamos que o valor do p está maior do que 0,05, indicando que não temos evidência suficiente para rejeitar a hipótese nula. Sendo assim, assumimos que a distribuição do IMC não se difere entre homens e mulheres. 2.2 Teste t independente O teste t para amostras independentes é um dos testes estatísticos mais utilizados e visa comparar variáveis numéricas entre dois grupos independentes (Barros et al., 2012; Navarro et al., 2019). Diante disso, temos a seguinte formulação de hipóteses: • H0: médiaobservada no conjunto de dados do grupo 1 = média observada no conjunto de dados do grupo 2. • H1: média observada no conjunto de dados do grupo 1 ≠ média observada no conjunto de dados do grupo 2. Para a realização do teste t independente, alguns pressupostos devem ser atendidos: • As variáveis devem ser numéricas. • As variáveis devem apresentar distribuição normal. • As variâncias entre os dois grupos analisados devem ser semelhantes (testada normalmente por um teste estatístico conhecido como Levene) (Barros et al., 2012). Vamos continuar com o exemplo envolvendo a comparação dos valores de IMC entre homens e mulheres. 10 • Passo 1: selecione o teste estatístico. Figura 8 – Passo 1 • Passo 2: selecione as variáveis para cada grupo. Figura 9 – Passo 2 • Passo 3: resultado. 11 Figura 10 – Passo 3 Ao analisarmos o resultado do teste, identificamos novamente que o valor do p está maior do que 0,05, indicando que não temos evidência suficiente para rejeitar a hipótese nula. Sendo assim, assumimos que a média do IMC não se difere entre homens e mulheres. 2.3 Teste t pareado Uma outra opção de utilização do teste t é para verificarmos diferenças nos valores entre dois pares de observações. Para isso, utiliza-se a versão pareada desse teste (Barros et al., 2012). Dados pareados indicam que eles foram obtidos dos mesmos participantes em dois momentos distintos. Uma forma simples de entendermos esse fator é imaginarmos a realização de um estudo onde aplicamos um determinado tratamento visando reduzir o colesterol de um grupo de pacientes. Para isso, medimos o colesterol dos participantes antes e depois do tratamento para verificarmos se esses valores reduziram ao final do processo (pré/pós). Diante disso, temos a seguinte formulação de hipóteses: • H0: diferença média entre pré e pós = 0. • H1: diferença média entre pré e pós ≠ 0. Vamos a um exemplo prático da utilização do teste t pareado. Nesse caso, um determinado grupo de participantes foi submetido a um tratamento visando a redução de peso corporal e consequentemente seu IMC. Nesse estudo, visamos verificar então se esse tratamento foi efetivo para reduzir o IMC desses participantes. • Passo 1: selecione o teste estatístico. 12 Figura 11 – Passo 1 • Passo 2: Selecionar as variáveis para cada medida pareada. Figura 12 – Passo 2 • Passo 3: Resultado. Figura 13 – Passo 3 13 Ao analisarmos o resultado do teste, identificamos que o valor do p está maior do que 0,05, indicando que não temos evidência suficiente para rejeitar a hipótese nula. Sendo assim, assumimos que a média do IMC não se difere entre as medidas pré e pós-tratamento. TEMA 3 – TESTES COMPARATIVOS PARA TRÊS OU MAIS GRUPOS Muitas vezes, em nossas pesquisas, temos o interesse de comparar dados de mais de dois grupos. Imagine, por exemplo, que temos a intenção de verificar se existe diferença na mortalidade de determinado parasita utilizando três diferentes doses de determinada substância. Nesse caso, precisaremos de um teste estatístico que compare o número de parasitas eliminados entre essas três dosagens. Vamos discutir em seguida o teste estatístico mais adequado para esse propósito, quando termos dados numéricos paramétricos. 3.1 Análise de variância (ANOVA) A análise de variância (ANOVA) é o procedimento estatístico utilizado para comparar variáveis numéricas entre três ou mais grupos. Diante disso, temos a seguinte formulação de hipóteses: • H0: Todas as médias dos grupos são estatisticamente iguais. • H1: Pelo menos um par de médias não é estatisticamente igual (Barros et al., 2012). A ANOVA testa a hipótese de igualdade entre os grupos, verificando a variabilidade do conjunto de dados de forma simultânea. Mais especificamente, o teste estatístico verifica a igualdade de variâncias analisadas intergrupos e intragrupo. A hipótese nula é rejeitada quando a variância intergrupos é maior do que a variância intragrupo (Barros et al., 2012; Field, 2011). Vamos a um exemplo prático da utilização da ANOVA. Nesse exemplo, temos o objetivo de verificar diferenças no IMC entre praticantes de três tipos de modalidades de atividade física (musculação, corrida e ginástica). • Passo 1: selecione o teste estatístico. 14 Figura 14 – Passo 1 • Passo 2: selecione as variáveis de IMC para cada grupo. Figura 15 – Passo 2 • Passo 3: resultado. 15 Figura 16 – Passo 3 Ao analisarmos o resultado do teste, identificamos que o valor do p está menor do que 0,05, indicando que temos evidência suficiente para rejeitar a hipótese nula. Ou seja, podemos indicar que existem diferenças no IMC entre as modalidades. Contudo, ainda não sabemos ao certo entre quais modalidades existem essas diferenças. Nesse caso, devemos avançar a análise de dados realizando as comparações múltiplas ou testes adicionais conhecidos como post hoc. Esses testes mostrarão entre quais grupos essas diferenças foram observadas. Veja a seguir o resultado dessas comparações utilizando-se do teste de Bonferroni. • Passo 4: resultado das comparações múltiplas. Figura 17 – Passo 4 16 Nesse exemplo, temos a modalidade musculação codificada como coluna 10, a corrida como 11 e a ginástica como 12. Vemos que o teste de Bonferroni identificou diferenças nas médias somente entre a coluna 11 e 12 (p<0,05). Assim, verificamos as médias dessas colunas e podemos concluir que a média de IMC do grupo de ginástica foi maior do que a do grupo corrida. TEMA 4 – ENTENDENDO E APLICANDO TESTES DE CORRELAÇÕES Até o presente ponto desse documento, conversamos sobre testes que visam comparar médias entre dois ou mais grupos. Entretanto, muitas vezes, temos o objetivo de verificar como uma variável se relaciona com outra variável no intuito de entender, mesmo que preliminarmente, possíveis relações causais. Por exemplo, imagine que pretendemos verificar se a quantidade de horas estudadas tem relação com maiores notas nas disciplinas. Nesse caso, aplicamos testes conhecidos como correlações. Vamos discutir sobre a aplicação desse teste, mais especificamente a correlação de Pearson. 4.1 Correlação de Pearson A correlação é uma medida que indica o grau de associação entre duas variáveis, sendo que o coeficiente utilizado para determinar essa relação é denominado coeficiente de correlação de Pearson (Barros et al., 2012; Field, 2011). O coeficiente de correlação de Pearson (r) possui uma escala que vai de –1 a +1 com o ponto 0 (central). A interpretação da correlação ocorre da seguinte forma: • r = 0: ausência de correlação entre as variáveis; • r = –1,0: correlação inversa perfeita entre as variáveis; • r = 1,0: correlação direta perfeita entre as variáveis. Quando temos uma correlação inversa perfeita, assumimos que conforme os valores de uma variável aumentam os valores da outra variável de interesse diminuem para todos os casos observados naquele conjunto de dados. No caso da correlação direta perfeita observamos a condição contrária, ou seja, conforme os valores de uma variável aumentam os valores da outra variável de interesse também aumentam para todos os casos observados naquele conjunto de dados. 17 Adicionalmente, podemos formular as seguintes hipóteses: • H0: o coeficiente de correlação = 0; • H1: o coeficiente de correlação ≠ 0. Vamos a um exemplo prático. Nesse caso, estamos investigando se os valores de IMC têm alguma relação com a idade da amostra de participantes que retiramos da cidade de Curitiba. • Passo 1: selecione o teste estatístico. Figura 18 – Passo 1 • Passo 2: selecione as variáveis de Idade e IMC. Figura 19 – Passo 2 18 • Passo 3: resultado. Podemos observar que o coeficiente de correlação apresentou valor positivo(r = 0,063) e com valor de p < 0,05. Diante disso, podemos concluir que existiu uma correlação entre a idade e o IMC e essa correlação diferiu-se significativamente do valor 0. Assim, interpretamos que, conforme a idade aumentava, os valores de IMC também aumentavam nesse conjunto de dados. TEMA 5 – ENTENDENDO E APLICANDO A REGRESSÃO LINEAR Como vimos anteriormente, a correlação é um método estatístico útil para verificarmos a associação entre duas variáveis. No entanto, ela não fornece informações sobre o poder preditivo de uma variável sobre a outra (Field, 2011). A regressão linear é um método estatístico voltado a predizer valores de uma variável dependente numérica a partir de uma ou mais variáveis independentes (Field, 2011; Barros et al., 2012). Mais especificamente, pretende-se predizer os valores de uma variável Y a partir dos valores de uma variável X. Para isso, utiliza-se a seguinte equação: 𝒀𝒊 = (𝜷𝟎 + 𝜷𝟏𝑿𝒊) Sendo: • 𝒀𝒊 = variável dependente (a qual queremos prever); • 𝜷𝟎 = o ponto onde a linha cruza o eixo vertical do gráfico (intercepto); • 𝜷𝟏 = a inclinação da linha de predição no gráfico; • 𝑿𝒊 = o escore do participante da variável independente (preditora). Discutiremos mais à frente sobre a aplicabilidade prática dessa equação para facilitar o entendimento. Por hora, vamos conhecer dois resultados importantes dessa análise de regressão linear: o R² (coeficiente de determinação) e o 𝜷 (coeficiente de regressão). 5.1 R² (coeficiente de determinação) O R² representa o percentual dos valores previstos da variável dependente que podem ser explicados pela variação dos valores das variáveis independentes inseridas no modelo de regressão linear expresso em percentual (%) (Field, 2011). É uma forma de verificarmos a qualidade de nosso modelo de 19 predição. Por exemplo, imaginem que gostaríamos de predizer o número de acertos em um determinado teste baseado na quantidade de horas estudadas pelos estudantes avaliados. Ao realizarmos uma regressão linear tendo como variável preditora as horas de estudo e variável dependente o número de acertos no teste, obtivemos um R² = 0,5. Interpretamos que 50% da variação do número de acertos foi explicada pela variação nas horas de estudo. Isso nos diz duas coisas: a primeira é que estudar representa metade o resultado no teste; e a segunda é que outras coisas além das horas de estudo, e que nós não avaliamos, também se relacionam com a quantidade de acertos. 5.2 𝜷 coeficiente de regressão O coeficiente de regressão (𝜷) representa a mudança nos valores da variável dependente que são resultantes da mudança de uma unidade nos valores da variável preditora (Field, 2011). Diferentemente do R², o 𝜷 é um indicador individual de previsão, pois através dele conseguimos entender o quanto a variável dependente muda a cada valor que mudamos da variável preditora. Vamos voltar ao exemplo das horas de estudo com o número de acertos no teste. Imagine que ao realizarmos a análise de regressão linear verificamos um 𝜷 = 1,0. Podemos então interpretar que a cada hora adicional de estudo aumentava-se uma unidade na variável dependente, ou seja, 1 acerto. Podemos interpretar também que as horas de estudo foram diretamente relacionadas ao número de acerto, pois o 𝜷 apresentou valores positivos. Se ele fosse negativo, teríamos aí uma relação inversa entres as variáveis. NA PRÁTICA Como vimos, a regressão linear é uma excelente ferramenta para predizermos os valores de uma variável a partir de valores de outra variável preditora. Para isso, utilizamos a equação de regressão. 20 Vamos aplicá-la ao contexto do exemplo utilizado das horas de estudo do número de acertos assumindo os seguintes parâmetros: 𝜷𝟎 (𝒊𝒏𝒕𝒆𝒓𝒄𝒆𝒑𝒕𝒐) = 𝟏, 𝟎 𝜷𝟏 (𝒊𝒏𝒄𝒍𝒊𝒏𝒂çã𝒐 𝒅𝒂 𝒓𝒆𝒕𝒂) = 𝟏, 𝟎 𝑿𝒊 (𝒗𝒂𝒍𝒐𝒓 𝒅𝒂 𝒗𝒂𝒓𝒊á𝒗𝒆𝒍 𝒉𝒐𝒓𝒂𝒔 𝒅𝒆 𝒆𝒔𝒕𝒖𝒅𝒐) = 𝟏𝟓 Aplicando a equação de regressão, poderemos predizer qual seria o número de acertos do participante que estudou 15 horas. Veja abaixo: 𝑵ú𝒎𝒆𝒓𝒐 𝒅𝒆 𝒂𝒄𝒆𝒓𝒕𝒐𝒔 = (𝟏, 𝟎 + 𝟏, 𝟎 𝒙𝟏𝟓) 𝑵ú𝒎𝒆𝒓𝒐 𝒅𝒆 𝒂𝒄𝒆𝒓𝒕𝒐𝒔 = 𝟏𝟔 FINALIZANDO Nesta aula, analisamos a utilização de diversos testes estatísticos aplicados para testes de hipóteses com variáveis paramétricas. Verificamos como podemos comparar dados observados em uma amostra com dados provenientes de uma população (referência), bem como a comparação entre dois ou mais grupos distintos dentro de um conjunto de dados. Discutimos a aplicação de correlações e a utilização da regressão linear com intuito de predizer uma variável numérica de interesse. Todos os testes apresentados aqui são amplamente utilizados em estudos nas ciências biológicas e seu entendimento facilitará a realização e entendimento de estudos científicos. 21 REFERÊNCIAS BARROS, M. V. G. et al. Análise de dados em saúde. 3. ed. Londrina: Midiograf, 2012. FIELD, A. Descobrindo a estatística usando o Spss. Porto Alegre: Artmed, 2011. LIRANI, L. DA S.; OSIECKI, A. C. V. Bioestatística. 1. ed. Curitiba: InterSaberes, 2020. NAVARRO, D.J.; FOXCROFT, D. R.; FAULKENBERRY, T. J. Learning statistics with Jasp: a tutorial for psychology students and other beginners. 2019.