Baixe o app para aproveitar ainda mais
Prévia do material em texto
- -1 BIOESTATÍSTICA E EPIDEMIOLOGIA UNIDADE 2 - ANÁLISE ESTATÍSTICA: EXIBINDO E COMPREENDENDO A VALIDADE DE DADOS Autoria: Ana Paula Felizatti – Revisão técnica: Symara Rodrigues Antunes - -2 Introdução Você já sabe que a estatística pode ser aplicada em diversas áreas do conhecimento, afinal, é comum vivenciarmos e vermos informações no decorrer do dia que utilizam dados estatísticos. Mas o que está por trás desses dados? Saiba que temos diversos estudos, cálculos e testes. Esses testes são importantes, pois auxiliam a responder hipóteses, e há diversos tipos de testes. Todo estudo estatístico se inicia com uma hipótese a ser comprovada ou refutada. Mas se há vários tipos de testes, como definir qual o melhor para determinado conjunto de dados? Há diversos conceitos que nos auxiliam, de acordo com os objetivos e tipos de estudos, assim como diferentes ferramentas para aplicação desses testes. Nesta unidade, vamos aprender os principais testes de hipóteses em bioestatística. Todavia, para compreendê- los, devemos ver alguns conceitos essenciais, como qui-quadrado, análise de inferências, correlação, entre outros, que permitem analisar os dados adequadamente, identificar os resultados e possíveis erros. Você sabia que há tipos diferentes de erros? E em alguns estudos, o tipo de erro apresentado é muito importante para definir se os dados são representativos ou não da realidade. Então, vamos lá, pois temos muitos conceitos para serem estudados. Bons estudos! 2.1 Compreendendo erros e testando hipóteses Em estatística, a obtenção e análise dos dados é o ponto principal. Os dados podem ser apresentados de modo descritivo – com estatística descritiva – considerando dados de parâmetros, como média ou desvio-padrão. Todavia, para realizar afirmações acerca de dados obtidos em relação a uma população, ou seja, compreender a real representatividade dos valores, deve-se utilizar outra área da estatística: a inferência estatística (ANDRADE; OGLIARE, 2013). A inferência estatística é utilizada para construir proposições, deduzindo informações a partir de dados concretos fornecidos pela estatística descritiva. Um dos modelos mais utilizados em inferência estatística são os testes de hipóteses (BUSSAB; MORETTIN, 2006). Vamos compreender melhor sobre eles a seguir. 2.1.1 Testes de hipóteses Quando iniciamos uma análise estatística, temos uma hipótese para testar, como verdadeira ou falsa, em que há uma pergunta a ser respondida. Para aceitar ou rejeitar uma hipótese, devemos submetê-la a um teste, chamado de (BALDI; MOORE, 2014).teste de hipótese O teste de hipótese é utilizado para avaliar duas declarações opostas sobre determinada população. Uma das declarações é chamada de , enquanto a outra é chamada de . Ahipótese nula ( )H0 hipótese alternativa ( )H1 hipótese nula carrega o sinal de igualdade e indica usualmente “sem efeito”. Já a hipótese alternativa irá contradizer a hipótese nula. Assim, aplica-se um teste de hipótese com regras específicas que avaliam o comportamento das hipóteses nula e alternativa, definindo qual deve ser aceita ou rejeitada (LOPES ., 2014).et al O teste de hipótese é aplicado após definição do intervalo de confiança, usualmente utilizado em 95%. Um dos testes mais utilizados é o valor-p, que indica a probabilidade de ocorrência de valores extremos e médios (LOPES ., 2014). Considere, então, que após a coleta de dados hipotéticos n amostral, previamente calculados eet al - -3 testes mais utilizados é o valor-p, que indica a probabilidade de ocorrência de valores extremos e médios (LOPES ., 2014). Considere, então, que após a coleta de dados hipotéticos n amostral, previamente calculados eet al definidos, o valor-p foi calculado em 0,001. O que isso significa em relação às hipóteses, considerando o nível de significância escolhido? Que a hipótese nula será rejeitada, e a hipótese alternativa passa a ser aceita, pois a hipótese nula nos diz que não há nenhum efeito, ou seja, não há significância nos valores analisados. Todavia, como obtivemos um valor de p menor que o nível de confiança, observamos que há uma diferença e, portanto, a hipótese alternativa deve ser aceita. Ao responder sobre a rejeição ou aceite da hipótese, podemos agir corretamente ou temos a possibilidade de errar de duas maneiras (MOORE, 2005). : afirmar que existe efeito, quando ela não existe.Primeira : afirmar que não existe o efeito, quando existe.Segunda Quando for verdadeira, e aceitamos como falsa – rejeitamos –, temos um erro do tipo I. Aqui, estamosH 0 rejeitando quando é verdadeiro. Quando for falso, e aceitamos como verdadeiro, temos um erro do tipo II.H 0 Aqui, estamos aceitando quando é falso. Observe, a seguir, um resumo desses conceitos.H 0 Figura 1 - Hipóteses e tipos de erros gerados Fonte: Fonte: Elaborada pela autora, baseada em MOORE, 2005. #PraCegoVer: imagem traz em uma primeira linha, as expressões: aceitar e rejeitar . Em uma segundaH 0 H 0 linha, as expressões: verdadeira; decisão correta; erro do tipo I. E na terceira linha, as expressões: falsa;H 0 H 0 erro do tipo II; decisão correta. A probabilidade de cometer um erro do tipo I é denominada α, relacionada ao nível de significância escolhido para o teste. Já a probabilidade de cometer um erro do II é dada por β, e indica qual as chances de se aceitar H 0 em casos em que é verdadeira (CALLEGARI-JACQUES, 2003). Você quer ler? Poder de teste e tamanho amostral Ano: 2020 - -4 Há diversos testes estatísticos para testar as hipóteses. Vimos um exemplo, utilizando o valor-p, mas há outras formas que dependem do tipo de conjunto amostral e sua distribuição. Agora, vamos tratar da distribuição normal e dos principais testes utilizados. 2.1.2 Principais testes de hipóteses utilizados – distribuição normal Um dos principais fatores que determinam a escolha de um teste é o tamanho amostral. Em amostras grandes, com n > 30, podemos utilizar o teste de hipótese baseado na média, com o cálculo do valor Z (MOORE, 2015). O valor Z é um indicativo do quanto um ponto está fora dos valores de desvio-padrão e média, ou seja, quão distante ele está do esperado a partir de tais parâmetros estatísticos. Também chamado de escore-padrão, é dado pela fórmula: Onde: = média amostral, = média populacional, = desvio-padrão populacional, = número de elementos.n O valor Z é então comparado com tabelas estatísticas para diferentes níveis de confiança, em que a hipótese será rejeitada ou não, se o valor estiver no limite estabelecido pelo intervalo de confiança (LOPES ., 2014;et al BUSSAB; MORETTIN, 2006). Mas, em muitos casos, em que o desvio-padrão não é conhecido, ou o número de elementos é menor, outro teste é amplamente utilizado: o teste-t. Nele, a estatística de teste é baseada no cálculo da distribuição T- . Essestudent teste também é utilizado para dados com distribuição normal (BUSSAB; MORETTIN, 2006). O cálculo é dado por: Onde: = valor-t, = média amostral, = média populacional, = desvio-padrão amostral, = número det x n elementos. Neste caso, devemos estabelecer valores críticos para t, para tomada de decisão sobre a hipótese. Assim, como vimos anteriormente, definimos valores para o teste bilateral e unilateral, e definimos qual das hipóteses será para . Para o teste ser bilateral, definimos como valor crítico os valores e . Para o teste unilateral àH 1 -t α/2 t α/2 direita, o ponto crítico passa a ser , enquanto para o teste unilateral à esquerda o ponto crítico passa a ser - .t α t α Os valores de t em nível de confiança específico são obtidos nas tabelas de valor T, assim como observamos para o valor Z, sendo encontradas facilmente em materiais de estatística (CAMPOS, 2000). Observe as regiões correspondentes aos valores críticos de na distribuição normal.t α Ano: 2020 Autor: Sergio Miranda Freire Comentário: para calcular o parâmetro estatístico β, relacionado ao erro do tipo II, utilizam-se diversos parâmetros, como o nível de confiança, valor de Z crítico e medidasda função da distribuição normal. É um cálculo importante para compreender de modo mais avançado os erros do tipo II e reflete o poder de um teste estatístico. No link a seguir, da obra , destaca-se o capítulo 15.9Bioestatística Básica “Poder de teste e tamanho amostral”. Acesse http://www.lampada.uerj.br/arquivosdb/_book/testeHipotese.html#poder-de-um-teste-e-tamanho-amostral - -5 Figura 2 - Valores críticos em curvas de distribuição normal Fonte: Fonte: Elaborada pela autora, 2020. #PraCegoVer: imagem traz três gráficos em formato de curva, que indica a distribuição normal. O da esquerda tem como título região crítica: unilateral à direita; o do meio, região crítica: bilateral; e o da direita, região crítica: unilateral à esquerda. Portanto, após calcular t, observando os valores obtidos e comparando aos valores críticos, rejeitamos H 0 quando o valor-t calculado ultrapassar os valores críticos do teste escolhido (POCINHO; FIGUEIREDO, 2004; PAGANO; GAUVREAU, 2006), ou seja, quando T > - em testes unilaterais à direita; quando T < em testest α t α unilaterais à esquerda; quando T > e T < em testes bilaterais.t α/2 t -α/2 É importante destacar que o uso conjunto dos testes de valor-t e valor-p são comuns e amplamente utilizados, oferecendo maior confiabilidade aos resultados. Teste seus conhecimentos (Atividade não pontuada) Até aqui, estudamos o cálculo de hipóteses em dados com distribuição normal. E quando os dados não forem assim distribuídos? Acompanhe a seguir. 2.2 Testes paramétricos e não paramétricos Agora que você já conhece alguns dos principais conceitos sobre testes de hipóteses, e introduzidos alguns testes amplamente utilizados para análises de rejeição ou aceite de hipóteses, vamos aprofundar mais o conhecimento. Há dois tipos principais de testes em estatística: os paramétricos e os não paramétricos (POCINHO; FIGUEIREDO, - -6 Há dois tipos principais de testes em estatística: os paramétricos e os não paramétricos (POCINHO; FIGUEIREDO, 2004) O teste-t, por exemplo, é um exemplo de teste paramétrico (PAGANO; GAUVREAU, 2006). E o que isso quer dizer? O termo “paramétrico” está relacionado a determinados parâmetros estatísticos: a média e o desvio-padrão. Esses parâmetros refletem o comportamento da população e seu modo de distribuição normal (MAGALHÃES; LIMA, 2005; PAGANO; GAUVREAU, 2006). Ou seja, os testes paramétricos são testes de hipóteses que requerem o comportamento populacional devidamente caracterizado pelos parâmetros da média e do desvio-padrão e uma distribuição normal. Já os testes não paramétricos não têm, necessariamente, essa exigência. Assume-se que a distribuição do conjunto amostral é indefinida, sem o pressuposto da normalidade (LOPES ., 2014; POCINHO; FIGUEIREDO, 2004). De acordo com Moore (2015), Pocinho e Figueiredo (2004),et al dentre os testes paramétricos mais utilizados, destacam-se os testes-t e ANOVA. Vamos conhecer mais sobre eles. Testes-t para uma ou duas amostras Utilizados para comparar médias, resumem os valores do conjunto amostral em um valor de T, que é comparado em uma tabela com níveis de confiança α. O teste-t para uma amostra também é chamado de teste-t pareado, e é utilizado para comparar médias amostrais em relação ao valor determinado pela hipótese nula. O teste-t para duas amostras envolve a coleta de dois grupos independentes. Assume-se na hipótese nula que ambos os grupos são iguais, ou seja, a diferença entre eles é zero. A fórmula do cálculo passa a ser a diferença entre as médias dos grupos e diferentemente do cálculo para uma amostra, desconsidera-se o tamanho amostral, ficando: Onde, = média amostral do grupo 1, = média amostral do grupo 2, = desvio-padrão amostral.s ANOVA O teste ANOVA é o teste de análise da variância, derivado do termo em inglês . Enquanto osanalisys f rianceo va testes-t são utilizados para análise da diferença entre as médias de até dois grupos, as análises ANOVA podem ser aplicadas para mais de três grupos independentes. Utiliza-se o teste F para verificar a estatística das médias dos grupos de interesse. A estatística F nos diz sobre a dispersão dos dados em relação à média, e é calculada pela razão entre duas variâncias, ou seja, o valor F é igual à variação das medidas amostrais sobre a variação amostral. Usualmente, a hipótese nula do teste F considera que as médias entre os grupamentos são iguais. A fórmula de F é: Onde = variância amostral da população 1, = desvio-padrão amostral da população 1, = variância amostral da população 2, = desvio-padrão amostral da população 2. Após o cálculo de F, utiliza-se a tabela Fisher-Snedecor para avaliar os valores para determinado intervalo de confiança e verificar se a hipótese deverá ser aceita ou não. - -7 Entre os testes não paramétricos, destacam-se: teste de Wilcoxon, Maan-Whitney e Kruskal-Wallis. Vamos conhecê-los? Acompanhe. • Teste de Wilcoxon para uma amostra Método alternativo em situações em que o teste-t para uma amostra não pode ser aplicado. Informa sobre a mediana, indicando se o valor é igual a um determinado valor numérico. Assim, a hipótese nula considera que a mediana é igual a um valor θ 0, e as hipóteses alternativas consideram as condições de diferença (maior, menor ou diferente). • Teste de Mann-Whitney Informa sobre a diferença entre grupos, ou seja, é uma alternativa ao teste-t para duas amostras, quando não há informações sobre a distribuição. Pode ser aplicado em variáveis aleatórias, tanto numéricas como categóricas, e indica se as distribuições de dois grupamentos são similares em termos de localização da mediana. Aqui, define-se como hipótese nula que a diferença de localização entre as medianas dos grupos testados é igual a zero. • Kruskal-Wallis É uma alternativa ao teste ANOVA, sendo utilizado para análise em estudos com mais de dois grupos. São testadas as funções de distribuição dos grupos amostrais, assumindo-se como hipótese nula que todas as funções de distribuição entre os grupos são iguais. A escolha do teste adequado impacta diretamente na qualidade dos resultados obtidos. Considerando grupos com distribuição normal, com dados simétricos e parâmetros de média e desvio-padrão, deve-se utilizar os teste- t ou ANOVA, na maioria dos casos (PAGANO; GAUVREAU, 2006). Teste seus conhecimentos (Atividade não pontuada) Até aqui, nos aprofundamos nos testes de hipóteses e os conceitos de testes paramétricos ou não paramétricos. Agora, vamos passar para um teste em específico: o qui-quadrado. Você quer ver? O cálculo da ANOVA é essencial em bioestatísica. Em Estatística e Probabilidade - ( ) (2018) é possível rever conceitos importantes eAnálise de Variância ANOVA aprender como aplicá-los corretamente para construção de uma análise ANOVA. Acesse • • • https://www.youtube.com/watch?v=1ceP2FL5fzE&ab_channel=UNIVESP - -8 2.3 Qui-quadrado e análise de correlação Em estatística aplicada a estudos biológicos é comum que as hipóteses estejam relacionadas a frequências de eventos ou como diferentes amostras se relacionam entre si. Nesse contexto, é comum que se queira avaliar diferentes amostras e grupos, mas muitas vezes não há disponíveis os parâmetros de média ou desvio-padrão. Por isso, há um teste não paramétrico amplamente utilizado em bioestatística: . Adicionalmente,qui-quadrado temos uma ferramenta muito importante, chamada de , que permite a identificação dos feitos decorrelação interação das variáveis estudadas. Vamos aprender sobre esses testes? Acompanhe. 2.3.1 Qui-quadrado O teste qui-quadrado é um teste de hipótese do tipo não paramétrico. Sua principal característica é estabelecer um comparativo entre proporções, proporcionando uma análise de diferenças entre frequências observadas e esperadas (BALDI; MOORE, 2014; ANDRADE; OGLIARE, 2013). O objetivo é determinar os valores de dispersão entre amostras com variáveis categóricas nominais e indicar uma possível relação com variáveis numéricas. Para exemplificar, podemos relacionar a frequência que um geneestá descrito em uma população, e a relação com a quantificação de um fenótipo observado. De fato, a análise de qui-quadrado é um teste muito utilizado em análises genéticas. De modo geral, o teste serve para comparar frequências e proporções. (BUSSAB; MORETTIN, 2006). Apesar de ser um teste não paramétrico, é condicionado a algumas exigências (BALDI; MOORE, 2014): os grupos testados devem ser independentes e seus itens devem ser escolhidos aleatoriamente; os eventos observados devem ser quantificados em termos de frequência ou contagem; o n amostral não deve ser demasiadamente pequeno; e, por fim, cada item de observação/evento deve estar relacionado a uma única categoria. Inicialmente, devemos avaliar possíveis diferenças entre proporções observadas e esperadas, por meio da fórmula da média dos desvios: Onde = frequência observada para a classe, = frequência esperada para a classe. Em seguida, calculamos o qui-o e quadrado ( ):X² Analisando a fórmula, podemos perceber que quando os desvios forem grandes, ou seja, quando as frequências observadas e esperadas foram distantes entre si, o valor de X² será alto, e quando os desvios forem pequenos, e as frequências observadas e esperadas forem próximas entre si, o valor de X² será pequeno (POCINHO; FIGUEIREDO, 2004). Usualmente, os dados de testes X² são apresentados em forma de tabela, 2x2 no caso de duas amostras, ou 2xn, no caso de amostras. Veja um exemplo.n - -9 Tabela 1 - Exemplo de tabela 2x2 utilizada em testes X² Fonte: Fonte: MAIA; BEDAQUE; MELO, 2018, p. 72. #PraCegoVer: imagem traz uma tabela com dois títulos: exposição e incidência da doença. Para cada título há colunas com textos e representações de valores. Assim como observamos para outros testes, o teste de X² possui valores tabelados para determinados níveis de confiança, e para verificar se o valor obtido está nos limites críticos, deve-se consultar a tabela. Comparando os valores, é possível estabelecer se as hipóteses, nula ou alternativa, serão rejeitadas ou aceitas. A denotação do valor de X² sob nível crítico de confiança é X²c (POCINHO; FIGUEIREDO, 2004). O grau de liberdade também deve ser considerado na avaliação do X² tabelado. Ele é calculado pela diferença entre o número de determinações amostrais e o número de parâmetros estatísticos (MOORE, 2005). Assim, considerando os valores de X² calculados e tabelados, vamos rejeitar a hipótese nula quando o valor de X² for maior ou igual ao tabelado, e aceitar quando X² for menor (BALDI; MOORE, 2014). 2.3.2 Correlação A correlação é uma métrica estatística para comparação entre duas variáveis, visando compreender se entre elas há uma relação de dependência. É qualquer relação dentro de diversos conjuntos relacionais sobre duas amostras que são dependentes entre si. A principal métrica de uma análise de correlação é o , que indica avalor r força de uma correlação, ou seja, quão provável ela é. Ele varia entre -1 e 1, e é chamado de coeficiente de (BALDI; MOORE, 2014; BUSSAB; MORETTIN, 2006).correlação de Pearson Você quer ver? Os graus de liberdade são utilizados para análise das tabelas de valores dos testes. É um conceito simples, mas muito importante. No vídeo Graus de liberdade em 1 (2020), há uma rápida explicação sobre o conceito.minuto Acesse https://www.youtube.com/watch?v=RX-vvhCng48&ab_channel=ScimusEstat%C3%ADstica - -10 Quando o valor da correlação é negativo, indica uma correlação inversa, do tipo negativa, ou seja, quando uma das variáveis cresce, a outra diminui. Por outro lado, quando o valor é positivo, há uma correlação direta, a variação das variáveis é no mesmo sentido (BALDI; MOORE, 2014). A fórmula para o cálculo do coeficiente r, considerando as variáveis x e y, é: Onde = covariância de x e y, = desvio-padrão de x, = desvio-padrão de y.cov xy s x s y Aqui temos um conceito novo: a . A covariância é uma variância conjunta entre as variáveis; é umacovariância métrica que indica quão dependentes elas são entre si (ANDRADE; OGLIARE, 2013). É dada pela somatória da variância: Onde n = número de elementos amostrais, xi = valor da variável x na posição i, = média amostral de x, yi = valor da variável y na posição i, = média amostral de y. A representação da correlação é por meio de gráficos de dispersão, podendo ser de forma linear ou não linear. Observe exemplos de diferentes gráficos de correlação, considerando diferentes valores de r. Atente-se para a configuração da distribuição dos dados, e seu formato de distribuição. Lembre-se de que sempre haverá uma variável representada no eixo x e outra no eixo y (BUSSAB; MORETTIN, 2006). Figura 3 - Diferentes gráficos de dispersão para valores de r Fonte: Adaptada de YasDeep, Shutterstock, 2020. Você o conhece? Karl Pearson foi um estatístico britânico, nascido em 1857, em Londres. Foi o criador do primeiro departamento de estatística em uma universidade, e é considerado um dos maiores contribuidores do desenvolvimento da estatística em diversas áreas do conhecimento, incluindo estudos biológicos e epidemiológicos (SZWARCWALD; CASTILHO, 1992). - -11 #PraCegoVer: ilustração contendo cinco tipos de gráficos, em que os eixos x e y estão em branco e na área entre eles há bolinhas vermelhas. Para cada gráfico, as bolinhas estão representadas de uma maneira. Abaixo dos gráficos, uma seta azul com a palavra dependência e nas duas pontas a palavra forte. Observando a imagem, podemos concluir que quanto mais próximo de 1 ou -1, mais linear serão os dados, portanto eles indicarão uma forte dependência. No caso de r = 1, positiva, e no caso de r = -1, negativa. Porém, quanto mais próximo de zero, mais fraca é a relação. De fato, quando r = 0, as variáveis são independentes. Claramente, os dados de r devem ser avaliados como um todo, para que as relações possam ser generalizadas corretamente em relação ao grupo amostral e à população geral (POCINHO; FIGUEIREDO, 2004). A análise de correlação é uma das métricas mais utilizadas em bioestatística, pois, na ampla maioria dos estudos clínicos, o objetivo é a comparação de duas variáveis e a relação entre elas. Agora que já concluímos essa etapa, podemos avançar para outras métricas. 2.4 Intervalo de confiança e análises de sobrevivência: conceitos importantes em bioestatística Um teste estatístico tem como principal objetivo responder uma hipótese. Vimos os principais testes de hipóteses utilizados, e como você se atentou ao conteúdo, pôde perceber que há um parâmetro sempre citado: . Vimos que eles possuem valores usualmente padronizados, mas precisamosintervalos de confiança compreender um pouco mais sobre eles. Além disso, em bioestatística, há outras ferramentas que utilizam os conceitos anteriormente vistos, como análises de sobrevivência e como interpretar os dados em relação ao todo, ou seja, como de fato concluir que os dados obtidos ou apresentados são representativos da realidade (LOPES et ., 2014).al Caso O estudo do pesquisador Robert Matthews chama a atenção para um dado muito interessante: o autor afirma ser capaz de provar estatisticamente que as cegonhas entregam bebês. Para tanto, ele coletou dados sobre a taxa de nascimento de bebês, o número de pares de cegonhas, a área do local e o número de habitantes, em 17 países. Após os testes estatísticos de hipóteses (T- ), o autor chegou osstudent valores de p = 0,008, e de r = 0,62, afirmando que, estatisticamente, há uma probabilidade de 99.2% de cegonhas realmente entregarem bebês. Claramente, os dados não são condizentes com a realidade, e todos sabemos que os bebês não chegam pelas cegonhas. Mas o autor quis destacar que muitas vezes os estudos analisam variáveis como se tivessem correlação, quando de fato não tem. Por isso, o planejamento experimental e a correta seleção de variáveis e efeitos são tão importantes, pois os parâmetros estatísticos podem afirmar situações que não podem ser generalizadas para a realidade. O minucioso processo analítico e lógico é essencial. No estudo citado, a taxa de natalidadeera de fato maior em regiões onde as cegonhas eram mais frequentes, mas o motivo é que em regiões rurais, há um maior número de pássaros de modo geral, e uma maior cultura de múltiplas gestações (MATTHEWS, 2001). - -12 2.4.1 Aprofundando o conceito de confiança Um intervalo de confiança (IC) inclui um grupo de valores estimados em relação aos parâmetros de estudo envolvendo uma população. Assim, não é apenas um valor considerado, mas um conjunto de valores aceitos considerando um parâmetro populacional conhecido. Vimos que o símbolo de confiança é dado pela letra grega α, variando entre 0 e 1, equivalente a 0% e 100%. Veja mais sobre o intervalo de confiança. Intervalo d e confiança O intervalo de confiança indica a probabilidade de ocorrência a partir de um coeficiente, chamado de coeficiente de confiança, dado por 1 – α, considerando α ϵ (0,1) (MOORE, 2005). O IC é utilizado parar indicar o nível de confiabilidade de um conjunto de dados estimados, e quanto menor o IC, maior a confiabilidade daquela estimativa estar correta (PAGANO; GAUVREAU, 2006). É importante identificar que o intervalo de confiança não indica a probabilidade de um valor estar contido em um intervalo, e sim a confiabilidade das estimativas obtidas para determinado parâmetro. O nível de confiança é uma métrica associada à frequência de ocorrência de um parâmetro calculado e real durante a repetição de um estudo, considerando amostras aleatórias de uma população. A análise e os testes de intervalo de confiança também são métricas de inferência estatística (MAGALHÃES; LIMA, 2005). O nível de confiança é definido pelo pesquisador, mas há algumas indicações em literatura para padrões a serem seguidos. Em estudos de bioestatística, o IC mínimo é usualmente fixado em 95% (VIEIRA, 2008).A representação e o cálculo de um intervalo de confiança são baseados na tabela de valores de testes, como estatística Z ou T. Vamos exemplificar aqui o uso com a tabela Z, mas isso é válido para a estatística T (VIEIRA, 2008; LOPES ., 2014). O intervalo de confiança pode ser calculado em relação à estimativa de diferenteset al parâmetros estatísticos, sendo os mais utilizados a estimativa da média e da proporção. O cálculo do IC para a média é dado por: O cálculo acima considera estudo hipotético de distribuição normal, com o objetivo de estimar o parâmetro da média, quando é desconhecida, mas o desvio-padrão conhecido. A fórmula pode ser interpretada como a probabilidade de obter um valor da população de distribuição normal, considerando os parâmetros de média e desvio-padrão N ( , ), e este valor pertencer ao intervalo é igual a 1- %. Observe a figura a seguir, com as indicações dos valores que compõem o intervalo de confiança em uma distribuição normal padrão. - -13 Figura 4 - Gráfico de frequência versus valor de Z crítico Fonte: Fonte: FREIRE, 2020. #PraCegoVer: imagem traz um gráfico em formato de curva, em que nas duas extremidades há áreas em destaque, na cor laranja. O gráfico tem o título distribuição normal padrão. Agora que aprofundamos nosso conhecimento sobre confiança e intervalo de confiança, vamos conhecer outra ferramenta muito utilizada em bioestatística, que faz uso de diversos conceitos que exploramos até o momento. Será uma ótima oportunidade de e aplicar o que já estudamos. Vamos lá! 2.4.2 Análises de sobrevida Em bioestatística, um dos cálculos mais importantes em estudos clínicos é a análise de sobrevivência ou sobrevida. De modo geral, trata-se de um teste da durabilidade de um evento até seu encerramento. Vamos abordar a temática das análises de sobrevivência do ponto de vista biológico. Então, vamos iniciar com a compreensão do conceito de sobrevida, usualmente confundido com o termo mortalidade. De acordo com Ferreira e Patino (2016, p. 77), o conceito errôneo de que mortalidade e sobrevida são intercambiáveis vem do uso leigo dos termos. Porém, em bioestatística, sobrevida é um conceito derivado de um procedimento analítico específico, enquanto mortalidade é uma variável de desfecho dicotômica geralmente comparada entre dois ou mais grupos em um momento específico (por exemplo, em cinco anos). Sobrevida, por sua vez, constitui uma variável que relaciona tempo e evento: ela mede o tempo entre o início da observação até a ocorrência de um evento. A análise da sobrevida tem o objetivo de relacionar o tempo decorrido e os efeitos em relação à durabilidade - -14 A análise da sobrevida tem o objetivo de relacionar o tempo decorrido e os efeitos em relação à durabilidade /atividade de determinada variável, ou seja, avaliar as relações entre as variáveis de interesse e seu tempo de sobrevivência em relação a atividades ou riscos. É obtida por técnicas de probabilidade condicional, considerando a probabilidade de sobrevivência até determinado momento de tempo (t), para determinada variável que sofre alterações ao longo do tempo – podendo ser um medicamento, um princípio ativo, um paciente acometido por patologias, entre outros (FERREIRA; PATINO, 2016). Dentre os principais conceitos de análises de sobrevivência, destacam-se: , tabela de sobrevida,Hazard Ratio teste de Logrank e regressão de Cox (BUSTAMANTE-TEIXEIRA; FAERSTEIN; LATORRE, 2002). HazardRatio Utilizado para comparação entre grupos, utiliza a probabilidade da variável que não teve o evento estudado ter em determinado momento. É uma medida de associação. Por exemplo, em um estudo sobre os efeitos de uma patologia pulmonar, as chances de sobrevivência da população não fumante são dez vezes maiores comparada com a população fumante. Assim, o seria calculado em 10, indicando um risco maior para osHazard Ratio sujeitos fumantes. Teste deLogrank É um teste não paramétrico utilizado para comparar dados de distribuição das amostras, em análises univariadas. Sua utilização é indicada quando há dados censurados, aqueles que ocorrem quando há informação sobre o tempo de sobrevivência, mas não de modo exato, visto que a variável estudada não chegou ao evento de interesse no tempo de análise. É amplamente utilizado em ensaios clínicos, em especial na análise da eficácia de novos tratamentos. Regressãode Cox Assim como o teste de Logrank, é um teste de significância, com o objetivo de comparar grupamentos em análises multivariadas. É utilizado para análise das taxas de falha, quando os grupamentos iniciais não são iguais – em relação ao n amostral ou às características de interesse. É muito utilizado em ensaios com valor de n pequeno ou em estudos que necessitam de ajustes em relação a covariáveis que também interferem na análise de sobrevida. Essas são as principais ferramentas para análise de sobrevida, cada qual com uma aplicabilidade de acordo com o conjunto de dados e objetivo do estudo. A representação dos dados é usualmente feita por gráficos e tabelas. As formas mais conhecidas de representação são as curvas de Kaplan-Meier. As curvas de Kaplan-Meier são utilizadas para representar uma variável e seu efeito ao longo do tempo, ou seja, objetiva mostrar as alterações naquela população estudada, de modo visual, sob efeito temporal (VIEIRA, 2008). - -15 Observe a figura representando um gráfico de Kaplan-Meier de um estudo envolvendo a sobrevida de pacientes diagnosticados com câncer bucal. No eixo , temos a representação da frequência de óbitos para aquele grupo, ey no eixo , o tempo em meses (MONTORO ., 2008).x et al Figura 5 - Exemplo de gráfico de Kaplan-Meier Fonte: Fonte: MONTORO ., 2008, p. 863.et al Você sabia? Que há uma relação entre os testes estatísticos clássicos e os utilizados para análises de sobrevida? Por exemplo, os histogramas estão para as análises clássicas, assim como as curvas de Kaplan-Meier estão para as análises de sobrevida. Outras relações podem ser observadas no artigo Epidemiologia Explicada – análise de sobrevivência (BOTELHO; SILVA; CRUZ, 2009). Confira: https://apurologia.pt/wp-content/uploads /2018/10/epidem-explic.pdf. https://apurologia.pt/wp-content/uploads/2018/10/epidem-explic.pdf https://apurologia.pt/wp-content/uploads/2018/10/epidem-explic.pdf- -16 #PraCegoVer: imagem traz um gráfico, em que há uma curva decrescente. No eixo vertical, há valores que indicam frequência de sobrevivência, e no eixo horizontal, valores que indicam o tempo. Os dados de sobrevivência também podem ser representados de outras formas, com gráficos de barras ou dispersão, ou simplesmente em tabelas. E com isso finalizamos nossa segunda unidade, em que pudemos aprender diversos conceitos e conhecer ferramentas muito utilizadas em bioestatística. Você quer ler? Técnicas de Análises de Sobrevida Ano: 2002 Autores: Maria Teresa Bustamante-Teixeira, Eduardo Faerstein e Maria do Rosário Latorre Comentário: o artigo traz um estudo de revisão abordando as principais ferramentas e técnicas de análises de sobrevida, com diversos exemplos da prática em bioestatística. Os autores discutem a aplicabilidade e vantagens de diversas técnicas. Acesse https://www.scielo.br/pdf/csp/v18n3/9287.pdf - -17 Conclusão Finalizamos nossa unidade sobre conceitos e ferramentas em bioestatística. Vimos conceitos sobre testes de hipóteses, inferência, quando podemos confiar em dados representativos de grupos, intervalos de confiança e, para finalizar, os testes de sobrevida. Nesta unidade, você teve a oportunidade de: • compreender os conceitos de hipótese nula e alternativa; • compreender os principais testes estatísticos e quando rejeitar ou aceitar uma hipótese baseando-se nos valores de T, Z ou P; • diferenciar e reconhecer quando aplicar testes paramétricos e não paramétricos; • compreender o conceito de intervalo de confiança; Vamos Praticar! As análises de correlação são muito importantes em inferências estatísticas, tal como os testes de hipóteses. Muitas vezes, vários testes são realizados para que os resultados se tornem mais robustos e confiáveis, mais prováveis de serem representativos da realidade. Em estudos de bioestatística, é comum que os resultados sejam apresentados em termos de valor-p e de dados de correlação. Os dados de correlação são representados pelo coeficiente de correlação de Pearson r, e indicam relações entre duas variáveis. O estudo Correlação entre ansiedade e (SILVA; TUCCI, 2018) buscouconsumo de álcool em estudantes universitários correlacionar o consumo de álcool com a presença de ansiedade em estudantes universitários. Foram avaliados 42 estudantes de diferentes áreas, que relataram um padrão de consumo alcoólico e presença de ansiedade. Após o procedimento experimental inicial, obteve-se um coeficiente de correlação r = 0,63, em um intervalo de confiança = 0,40 e 0,78, considerando α = 0,05. SILVA, É. C.; TUCCI, A. M. Correlação entre ansiedade e consumo de álcool em estudantes universitários. : teoria e prática, São Paulo, v. 20, n. 2, p.Revista Psicologia 93-106, 2018. Disponível em: http://pepsic.bvsalud.org/pdf/ptp/v20n2 /pt_v20n2a04.pdf. Acesso em: 2 dez. 2020. Com base no estudo apresentado e nos dados obtidos: a) Interprete o valor de r (0,63) em relação à classificação (positiva/negativa) e faça um esboço do gráfico esperado de correlação para representar esse valor. b) Reflita sobre a conclusão do estudo, identificando qual a hipótese nula e qual a alternativa. c) Responda: foi encontrada uma correlação entre o consumo de álcool e o nível de ansiedade dos estudantes? Justifique sua resposta. • • • • http://pepsic.bvsalud.org/pdf/ptp/v20n2/pt_v20n2a04.pdf http://pepsic.bvsalud.org/pdf/ptp/v20n2/pt_v20n2a04.pdf - -18 • compreender o conceito de intervalo de confiança; • interpretar corretamente dados de probabilidade em relação à confiabilidade e concluir inferências e generalizações sobre populações; • compreender os testes de sobrevida, seus principais conceitos e ferramentas. Referências ANDRADE, D. F; OGLIARI, P. J. Estatística para as ciências agrárias : com noções de experimentação. Florianópolis: Editorae biológicas da UFSC, 2013. BALDI, B.; MOORE, D. S. A prática da estatística nas ciências da . 2. ed. Rio de Janeiro: LTC, 2014. E-Book.vida BOTELHO, F.; SILVA, C., CRUZ, F. Epidemiologia explicada – Análise de Sobrevivência. , Lisboa, v. 26, n. 4, p. 33-38, 2009. Acta Urológica Disponível em: https://apurologia.pt/wp-content/uploads/2018/10 . Acesso em: 23 nov. 2020./epidem-explic.pdf BUSSAB, W. O; MORETTIN, P. A. . 5. ed. São Paulo:Estatística Básica Editora Saraiva, 2006. BUSTAMANTE-TEIXEIRA, M. T.; FAERSTEIN, E.; LATORRE, M. do R. Técnicas de análise de sobrevida. Cad. Saúde , Rio de Janeiro, v. 18, n. 3, p. 579-594, 2002. Disponível em: Pública https://www.scielo.br/pdf/csp/v18n3 . Acesso em: 2 dez. 2020./9287.pdf CALLEGARI-JACQUES, S. M. : princípios e aplicações. Porto Alegre: Artmed, 2003.Bioestatística CAMPOS, G. M. Tipos de variáveis. : Departamento de Odontologia Restauradora. In Estatística prática para . Faculdade de Odontologia de Ribeirão Preto - Universidade de São Paulo, 2000.docentes e pós-graduandos Disponível em: . Acesso em: 12.http://www.forp.usp.br/restauradora/gmc/gmc_livro/gmc_livro_cap02.html nov. 2020. ESTATÍSTICA e Probabilidade - Aula 14 - Análise de Variância (ANOVA). 2018. São Paulo. 1 vídeo (13 min 23 s). Publicado no canal UNIVESP. Disponível em: https://www.youtube.com/watch? . Acesso em: 23 nov. 2020.v=1ceP2FL5fzE&ab_channel=UNIVESP FERREIRA, J. C.; PATINO, C. M. O que é análise de sobrevida e quando devo utilizá-la? , Brasília,J. Bras. Pneumol. v. 42, n. 1, p. 77, 2016. Disponível em: https://www.scielo.br/pdf/jbpneu/v42n1/pt_1806-3713-jbpneu-42-01- . Acesso em: 2 dez. 2020.00077.pdf FREIRE, S. M. . Rio de Janeiro: UERJ, 2020. E-book. Disponível em: Bioestatística Básica http://www.lampada. . Acesso em: 2 dez. 2020.uerj.br/arquivosdb/_book/bioestatisticaBasica.html GRAUS de Liberdade em 1 minuto. 2020. Belo Horizonte. 1 vídeo (1 min 2 s). Publicado no canal Scimus Estatística. Disponível em: https://www.youtube.com/watch?v=RX-vvhCng48&ab_channel=ScimusEstat%C3% . Acesso em: 23 nov. 2020.ADstica LOPES, B. . Bioestatísticas: conceitos fundamentais e aplicações práticas. , Rio deet al Rev. Bras. Oftalmol. Janeiro, v. 73, n. 1, p. 16-22, fev. 2014. Disponível em: http://www.scielo.br/pdf/rbof/v73n1/0034-7280-rbof- . Acesso em: 16 abr. 2020.73-01-0016.pdf • • • https://apurologia.pt/wp-content/uploads/2018/10/epidem-explic.pdf https://apurologia.pt/wp-content/uploads/2018/10/epidem-explic.pdf https://www.scielo.br/pdf/csp/v18n3/9287.pdf https://www.scielo.br/pdf/csp/v18n3/9287.pdf http://www.forp.usp.br/restauradora/gmc/gmc_livro/gmc_livro_cap02.html https://www.youtube.com/watch?v=1ceP2FL5fzE&ab_channel=UNIVESP https://www.youtube.com/watch?v=1ceP2FL5fzE&ab_channel=UNIVESP https://www.scielo.br/pdf/jbpneu/v42n1/pt_1806-3713-jbpneu-42-01-00077.pdf https://www.scielo.br/pdf/jbpneu/v42n1/pt_1806-3713-jbpneu-42-01-00077.pdf http://www.lampada.uerj.br/arquivosdb/_book/bioestatisticaBasica.html http://www.lampada.uerj.br/arquivosdb/_book/bioestatisticaBasica.html https://www.youtube.com/watch?v=RX-vvhCng48&ab_channel=ScimusEstat%C3%ADstica https://www.youtube.com/watch?v=RX-vvhCng48&ab_channel=ScimusEstat%C3%ADstica http://www.scielo.br/pdf/rbof/v73n1/0034-7280-rbof-73-01-0016.pdf http://www.scielo.br/pdf/rbof/v73n1/0034-7280-rbof-73-01-0016.pdf - -19 MAIA, F. G. S. da S.; BEDAQUE, H. de P.; MELO, M. Y. S. Estudos de Coorte. : BEDAQUE, H. de P.; BEZERRA, E. L.In M. (Orgs.). : uma abordagem prática da Medicina Baseada em Evidências. Natal: EditoraDescomplicando MBE Caule de Papiro, p. 63-77, 2018. Disponível em: http://cauledepapiro.com.br/files . Acesso em: 2 dez. 2020./08fcf3f89a1cefa768ef293b76a3a645add0d8f9.pdf MAGALHÃES, M. N.; LIMA, A. C. P. de. . 6. ed. São Paulo: Edusp, 2005.Noções de probabilidade e estatística MATTHEW R. Storks Deliver Babies ( = 0.008). , Brisbane, v. 22, p. 36-38, 2001. Disponívelp Teaching Statistics em: . Acesso em: 2 dez.https://www.researchgate.net/publication/227763292_Storks_Deliver_Babies_p_0008 2020. MONTORO, J. R. de M. C. . Fatores prognósticos no carcinoma espinocelular de cavidade oral. et al Rev. Bras., São Paulo, v. 74, n. 6, p. 861-866, 2008. Disponível em: Otorrinolaringol. https://www.scielo.br/pdf/rboto . Acesso em: 2 dez. 2020./v74n6/v74n6a08.pdf MOORE, D. S. . 3. ed. Rio de Janeiro: LTC, 2005.A estatística básica e sua prática PAGANO, M.; GAUVREAU, K. . 2. ed. São Paulo: Thomson, 2006.Princípios de Bioestatística POCINHO, M., FIGUEIREDO, J. P. . Coimbra: Madeira, 2004.Estatística e Bioestatística PORTAL ACTION. Erros cometidos nos testes de hipóteses. , São Carlos, 2020. Disponível em: Portal Action . Acesso em: 23 nov. 2020.portalaction.com.br/inferencia/511-erros-cometidos-nos-testes-de-hipoteses SILVA, É. C.; TUCCI, A. M. Correlação entre ansiedade e consumo de álcool em estudantes universitários. Revista : teoria e prática, São Paulo, v. 20, n. 2, p. 93-106, 2018. Disponível em: Psicologia http://pepsic.bvsalud.org/pdf . Acesso em: 2 dez. 2020./ptp/v20n2/pt_v20n2a04.pdf SZWARCWALD, C. L.; CASTILHO, E. A. de. Os caminhos da estatística e suas incursões pela epidemiologia. Cad. , Rio de Janeiro, v. 8, n. 1, p. 5-21, jan.-mar. 1992. Disponível em: Saúde Públ. https://www.scielo.br/pdf/csp . Acesso em: 2 dez. 2020./v8n1/v8n1a02.pdf VIEIRA, S. . 4. ed. Rio de Janeiro: Elsevier, 2008.Introdução à Bioestatística http://cauledepapiro.com.br/files/08fcf3f89a1cefa768ef293b76a3a645add0d8f9.pdf http://cauledepapiro.com.br/files/08fcf3f89a1cefa768ef293b76a3a645add0d8f9.pdf https://www.researchgate.net/publication/227763292_Storks_Deliver_Babies_p_0008 https://www.scielo.br/pdf/rboto/v74n6/v74n6a08.pdf https://www.scielo.br/pdf/rboto/v74n6/v74n6a08.pdf http://portalaction.com.br/inferencia/511-erros-cometidos-nos-testes-de-hipoteses http://pepsic.bvsalud.org/pdf/ptp/v20n2/pt_v20n2a04.pdf http://pepsic.bvsalud.org/pdf/ptp/v20n2/pt_v20n2a04.pdf https://www.scielo.br/pdf/csp/v8n1/v8n1a02.pdf https://www.scielo.br/pdf/csp/v8n1/v8n1a02.pdf Introdução 2.1 Compreendendo erros e testando hipóteses 2.1.1 Testes de hipóteses Você quer ler? 2.1.2 Principais testes de hipóteses utilizados – distribuição normal Teste seus conhecimentos 2.2 Testes paramétricos e não paramétricos Você quer ver? Teste de Wilcoxon para uma amostra Teste de Mann-Whitney Kruskal-Wallis Teste seus conhecimentos 2.3 Qui-quadrado e análise de correlação 2.3.1 Qui-quadrado Você quer ver? 2.3.2 Correlação Você o conhece? Caso 2.4 Intervalo de confiança e análises de sobrevivência: conceitos importantes em bioestatística 2.4.1 Aprofundando o conceito de confiança 2.4.2 Análises de sobrevida Você sabia? Você quer ler? Vamos Praticar! Conclusão Referências
Compartilhar