Prévia do material em texto
Autoria: Ana Paula Felizatti – Revisão técnica: Symara Rodrigues Antunes Bioestatística e Epidemiologia UNIDADE 1 - CONCEITOS ESSENCIAIS EM BIOESTATÍSTICA: COMO E QUANDO APLICÁ-LOS? Caro (a) estudante, nesta unidade, vamos abordar os principais conceitos em bioestatística e como aplicá-los em diferentes casos. A estatística é uma ciência amplamente utilizada em diversas áreas de conhecimento – exatas, humanas ou biológicas. Ela é essencial na solução de questões investigativas. Por exemplo, como medir a probabilidade de uma doença estar se alastrando em uma população de milhões de habitantes? Não é viável mensurar manualmente, coletando informações sobre cada um dos habitantes daquele local, não é mesmo? Por isso, a estatística torna-se uma ferramenta-chave, pois permite que dados sejam interpretados com confiança a partir de uma determinada população e uma condição ou característica de interesse. Você certamente já utilizou estatística em sua rotina ou se deparou com dados estatísticos em diversas situações. De fato, a estatística passou a ser um recurso multidisciplinar a partir do século XVII, quando aplicada nas áreas de investigação científica da saúde pública, indústria e comércio e para estudos demográficos. Já no século seguinte, XVIII, ela passou a ser aplicada em estudos meteorológicos, antropométricos, econômicos, sociais e biológicos. Na grande área das ciências biológicas, a estatística empresta suas ferramentas para a criação de uma subárea, chamada de bioestatística, utilizada para mensurar diversos problemas das áreas de saúde e ciências biológicas. Vamos a alguns exemplos da aplicação da bioestatística: como identificar efeitos colaterais de determinado medicamento em humanos? Como avaliar se os dados obtidos em uma pesquisa clínica são estatisticamente significantes ou não? É importante destacar que para os dados serem válidos é necessário não só a estatística, mas outros meios, principalmente o desenho experimental. Além disso, a bioestatística é um dos pilares do rastreamento de doenças, permitindo que informações sobre o nível de disseminação e contenção sejam avaliadas e utilizadas para o estabelecimento de medidas de prevenção. Vamos começar? Bons estudos! Introdução 1.1 Principais medidas e conceitos em bioestatística A bioestatística é a aplicação de ferramentas estatísticas na grande área das ciências biológicas. De modo geral, a estatística é uma ciência que objetiva extrair informações de um conjunto amostral, ou seja, sintetizar numericamente o que é de fato significativo em um conjunto observado. Expandindo o conceito para a bioestatística, temos que o objetivo desta ciência é justamente compreender o que um conjunto de dados biológicos está indicando (POCINHO; FIGUEIREDO, 2004). Assim, a bioestatística surge com uma ferramenta importantíssima para responder aos crescentes questionamentos científicos ao longo da evolução do conhecimento. Mas como os estudos utilizando bioestatística são iniciados? Primeiro, é necessário estabelecer a hipótese do estudo. Por exemplo, os sintomas de determinada doença são iguais em todas as faixas etárias? Uma vez definido o questionamento hipotético, inicia-se o desenho experimental e analítico para que ele seja respondido. Em seguida, é necessário determinar a população e o conjunto amostral que serão testados (ANDRADE; OGLIARE, 2013). A população pode ser definida como o somatório dos elementos interessantes ao estudo – no nosso exemplo, temos a população de diferentes faixas etárias acometida por uma determinada doença. A escolha da população pode se diferenciar em relação a: origem, natureza e tamanho. Conheça um pouco mais sobre esses elementos (VIEIRA, 2008). O canal Estatística Interativa aborda no vídeo (2018) o surgimento da bioestatística, discutindo sobre uma das estudiosas pioneiras da área, Florence Nightingale, e todo o contexto histórico que levou a aplicação da estatística em dados biológicos. Assista (https://www.youtube.com/watch? v=diM7gG7Z37c&ab_channel=Estat%C3%A) Você quer ver? https://www.youtube.com/watch?v=diM7gG7Z37c&ab_channel=Estat%C3%A User Realce User Realce User Realce User Realce User Realce User Realce User Realce Na maioria dos casos, é inviável analisar uma população completa dada sua complexidade e número de elementos. Por isso, para análises estatísticas, uma amostra é retirada para gerar um conjunto representativo. O processo de determinação da amostra é baseado em um plano de amostragem, em que o tamanho amostral e as características de interesse são previamente definidos para assegurar se, de fato, aquele conjunto será válido para representar a população geral (VIEIRA, 2008; BALDI; MOORE, 2014). Observe, a seguir, um exemplo do que seria a amostragem. #PraCegoVer: imagem traz um diagrama com três círculos concêntricos. O círculo maior é identificado com população geral; o do meio, com população-alvo; e o menor é identificado como amostra. Observe que uma amostra é selecionada a partir de uma população-alvo, que, por sua vez, faz parte de uma população geral. Podemos associar esse tipo de amostragem considerando como exemplo a população de uma cidade como sendo a população geral, as pessoas diabéticas dessa população como a população-alvo, e, por fim, a seleção de algumas pessoas diabéticas para determinado estudo como sendo a amostra. Origem É relativa aos elementos que compõem a população (pessoas ou animais, objetos, acontecimentos). 1 Natureza Diz respeito a sua existência (população real ou hipotética, existente ou não). 2 Tamanho É relativo à quantificação dos elementos, podendo ser um conjunto finito ou infinito de elementos. 3 Figura 1 - Exemplo de amostragem Fonte: Fonte: Elaborada pela autora, 2020. User Realce User Realce User Realce User Realce User Realce User Realce User Realce User Realce User Realce Em pesquisas clínicas é importante que a amostra considere não apenas a variável de interesse, mas também outros fatores que podem influenciar os resultados (BALDI; MOORE, 2014; LOPES et al., 2014). Continuando com nosso exemplo sobre sintomas de uma doença em diferentes grupos etários, neste caso, é preciso considerar se os pacientes possuem outras condições que podem influenciar os sintomas, como doenças crônicas. Outro ponto muito importante é estabelecer um grupo controle. O grupo controle terá as mesmas características da população, mas não será submetido ao teste de interesse. Uma das formas de obter um grupo controle é a utilização de placebo. Você sabe o que isso significa? Interessante, não é mesmo? Vale destacar que de acordo com a resolução nº 466/2012, que rege a pesquisa científica com seres humanos no Brasil, há diversas restrições e critérios éticos quanto ao uso de placebos em pesquisas clínicas. A regulação permite que sejam utilizados medicamentos comprovadamente eficazes e seguros frente à comparação com o novo medicamento, mas, casos em que não há medicamentos ou procedimentos em uso para o referido uso clínico, é liberado o teste com grupo controle utilizando placebo (BRASIL, 2012). As amostras podem ser retiradas de um conjunto populacional de diferentes formas, os chamados métodos de amostragem. Conheça os principais (LOPES et al., 2014; ANDRADE; OGLIARI, 2013). Pierre Charles Alexandre Louis (1787-1872) é considerado o pai da bioestatística, uma vez que foi um dos primeiros pesquisadores a aplicar métodos estatísticos em pesquisas clínicas. Formou-se em medicina e foi um notável pesquisador, com trabalhos embasados em estatística, inspirando gerações de estudiosos (HADAD FILHO, 2020). Você o conhece? Resolução nº 466/2012 Comentário: esta resolução federal aborda pesquisas clínicas com seres humanos e traz as normas e diretrizes necessárias para realização do estudo, incluindo todas as exigências bioéticas, de segurança e regulamentação em relação aos grupos de teste e controle. Acesse (https://bvsms.saude.gov.br/bvs/saudelegis/cns/2013/res0466_12_12_20 12.html) Você quer ler? Por conveniência Seleção deelementos mais acessíveis. Intencional Seleção subjetiva e com intencionalidade de escolha. Aleatória simples O placebo é uma forma neutra do agente de estudo, sem efeitos reais na amostra. Por exemplo, em testes de efeitos medicamentosos, seria uma pílula de açúcar ou qualquer composto inerte. O grupo controle recebe o placebo, que não fará efeito nenhum, e assim, é possível controlar os efeitos psicossomáticos de uma possível aplicação/ingestão medicamentosa (CALLEGARI- JACQUES, 2003). O que é placebo https://bvsms.saude.gov.br/bvs/saudelegis/cns/2013/res0466_12_12_2012.html User Realce User Realce User Realce User Realce User Realce O tamanho amostral deve ser suficiente para assegurar a representatividade da amostra, considerando diversos fatores, como estatísticos (erro, confiança) ou não estatísticos (infraestrutura, custos, acessibilidade), garantindo o menor erro possível. Agora, vamos compreender conceitos que influenciam no cálculo do tamanho amostral e são essenciais em bioestatística, como medidas de dispersão, tendência, cálculo de erro e nível de confiança. 1.1.1 Conceitos para o cálculo do tamanho amostral Dois conceitos aqui são importantes: erro e nível de confiança. O erro sempre estará presente em análises estatísticas, uma vez que a estatística é uma ferramenta de estimativa e síntese. Todavia, o erro deve ter margens aceitáveis para que a análise seja válida. Por definição, a margem de erro (E) é considerada a diferença máxima provável entre a amostra e a verdadeira população. É calculada a partir do desvio-padrão das médias amostrais (MAGALHÃES; LIMA, 2005). Vamos às explicações de alguns termos essenciais. A média é uma medida de tendência central, ou seja, representa o ponto de equilíbrio de uma amostra. A medida da tendência central pode ser obtida pela média aritmética, mediana ou moda (ANDRADE; OGLIARE, 2013; BUSSAB; MORETTIN, 2006). A média aritmética é obtida pela razão da somatória dos valores de todos os componentes da amostra, pelo número de elementos daquela amostra: Onde: = média, x = elementos da amostra, n = número de elementos (tamanho amostral). Já a mediana é obtida pela organização dos dados em ordem crescente ou decrescente e seleção do valor central (ANDRADE; OGLIARE, 2013; BUSSAB; MORETTIN, 2006). Por exemplo, em uma listagem de valores de 1,3,4,4,4,5,6, a mediana será 4, pois ela está na posição central da listagem. Por fim, moda é a representação do valor mais frequente, ou seja, reflete o número de vezes que determinado valor está presente em uma lista (ANDRADE; OGLIARE, 2013; BUSSAB; MORETTIN, 2006). Utilizando o mesmo exemplo da mediana, na lista apresentada, a moda será 4, pois está presente três vezes. Em alguns estudos, os valores das variáveis podem ter Seleção randômica, cada elemento tem a mesma probabilidade de ser selecionado. Sistemática Amostras selecionadas em intervalos de tempo. Estratificada Divisão da população em grupos e seleção a partir dos grupos/estratos. Por aglomerados Unidade amostrar formada por grupos de elementos. Multiestágios Uso de diferentes métodos de amostragem. Teste seus conhecimentos (Atividade não pontuada) User Realce User Realce User Realce User Realce User Realce User Realce User Realce User Realce User Realce User Realce pesos diferentes no resultado, por isso aplica-se a média ponderada, em que cada valor é multiplicado pelo seu peso, e a somatória desses valores é dividida pela soma dos pesos (ANDRADE; OGLIARE, 2013; BUSSAB; MORETTIN, 2006). Já o desvio-padrão é uma medida de dispersão, refletindo a uniformidade de uma amostra (ANDRADE; OGLIARE, 2013; BUSSAB; MORETTIN, 2006). Assim, quanto menor seu valor, mais uniformes são os dados e próximos da média (tendência central). É representado pela letra grega sigma (σ), e o cálculo dado por: ² Onde: σ = desvio-padrão, Xi = valor do elemento, = média dos elementos, n = número de elementos (tamanho amostral). Uma vez obtidos os valores da média e do desvio-padrão, é possível calcular o erro amostral, em diferentes níveis de confiança. Um nível de confiança representa a probabilidade daquele intervalo estar dentro dos dados reais de uma população (PAGANO; GAUVREAU, 2006). Usualmente, em estudos científicos, o valor de confiança utilizado é de 95%, ou seja, há uma certeza de 95% dos dados analisados estarem inseridos em um intervalo de valores definidos e conhecidos de uma população (LOPES et al., 2014; VIEIRA, 2008). Por exemplo, se em uma pesquisa hipotética, identificássemos que 10% dos jovens com a doença de interesse apresentaram dores de cabeça, com uma margem de erro de 2% e nível de confiança de 95%, estaríamos concluindo que a cada 100 jovens, teremos, com certeza de 95%, entre 8 e 12 jovens (considerando 10% ± 2% de erro) com dores de cabeça. Ainda não vimos como calcular a margem de erro, pois, antes, precisávamos compreender os fatores que o compunham, como um conceito adicional: a tabela Z. A tabela Z reúne valores padrão para cada nível de confiança e é utilizada em diversos testes estatísticos, sendo encontrada facilmente em livros e páginas on-line voltadas para estatística (BUSSAB; MORETTIN, 2006). Agora, finalmente, podemos calcular a margem de erro: Onde e = margem de erro, z = valor de z (z-escore), σ = desvio-padrão, n = tamanho da amostra. Pronto, você já sabe os primeiros passos para estruturar uma pesquisa clínica: determinar a população e a amostra, calcular a tendência central e de dispersão, conhecer e calcular a margem de erro. Também viu itens importantes, como a tabela Z e o nível de confiança. Com esses conceitos esclarecidos, vamos aprofundar um pouco mais nossos conhecimentos, conhecendo outras métricas. Acompanhe! Tabelas de probabilidade Comentário: os valores de Z são pré-definidos, para cada nível de confiança de interesse. No link a seguir, do Instituto de Matemática da Universidade Federal do Rio de Janeiro, você poderá consultar tabelas de probabilidades com os valores de Z. Acesse (http://www.im.ufrj.br/probest/Tabelas_de_probabilidade.pdf) Você quer ler? 1.2 Tamanho e distribuição amostral e o uso de histogramas Os estudos clínicos/científicos utilizam ferramentas estatísticas para serem validados e projetados em populações maiores. É muito importante que os dados obtidos sejam de fato representativos de uma população de interesse, evitando, assim, interpretações errôneas. Por isso, o estabelecimento prévio do tamanho adequado de uma amostra é parte essencial para um estudo em bioestatística, evitando que sejam coletados dados exageradamente ou dados sem uma representatividade suficiente. Além disso, a representação dos dados é um dos conceitos mais importantes em análises estatísticas, visto que auxilia na interpretação dos resultados de modo mais rápido. Vamos aprender sobre o cálculo do tamanho das amostras em diferentes condições e as ferramentas de visualização e análise de dados. 1.2.1 Calculando o tamanho de uma amostra http://www.im.ufrj.br/probest/Tabelas_de_probabilidade.pdf User Realce User Realce User Realce User Realce User Realce Um dos principais objetivos de uma análise em bioestatística é conseguir uma resposta válida, com o menor erro possível, para um questionamento inicial. Ou seja, é necessário colocar uma lupa sobre determinada amostra para que dados sobre toda a população sejam coletados. #PraCegoVer: imagem traz três pinos nas cores verde, vermelho e azul. Eles estão sob folhas de papel contendo gráficos com barra verticais. Uma lupa foca os três pinos, destacando-os na imagem. Nos conceitos iniciais, vimos que a amostra deve ser representativa da população geral. Mas como garantir que isso aconteça? Podemos utilizar cálculos estatísticos para estabelecer o número de elementos necessários para que a amostra seja válida estatisticamente. Assim, evita-se que sejam coletadas amostras muito grandes, o que pode gerar desperdício de recursos, ou muito pequenas, gerando problemas como resultados não representativos da realidade. Em uma análisede uma população temos dois cenários: populações finitas e infinitas. As populações infinitas são aquelas muito grandes, em que seria impossível quantificar exatamente. Já as finitas são aquelas que representam valores menores, de até 5% da população geral. Os testes de tamanho amostral devem considerar dois parâmetros: se está sendo testada a média populacional ou a proporção populacional. A média populacional (µ) testa parâmetros que envolvem toda uma população, ao passo que os testes com a proporção populacional (p) envolvem apenas uma parcela (ANDRADE; OGLIARE, 2013; BUSSAB; MORETTIN, 2006). Para o cálculo do tamanho da amostra infinita, em testes de média populacional, temos: Onde: n = tamanho da amostra, = valor crítico de Z para o intervalo de confiança, = desvio-padrão, E = margem de erro. Você deve ter percebido novos elementos na equação, o valor α (alfa) r valor de . Vamos conhecer um pouco mais sobre eles. O valor α é chamado de nível de significância em estatística. O nível de significância é a medida de a certeza sobre uma hipótese ser de fato real ou não. Ou seja, quando temos α = 0,05, estamos dizendo que há uma probabilidade de 5% do dado obtido não ser representativo da realidade. Assim, o valor de é definido como um valor crítico para aquele nível de significância, obtido da mesma forma que o valor de Z, por meio de uma tabela, de acordo com o nível de significância escolhido (ANDRADE; OGLIARE, 2013; BUSSAB; MORETTIN, 2006). Você deve estar se perguntando: como saber o valor do desvio-padrão ou calcular a margem de erro, quando o tamanho da amostra está sendo definido? Faz sentido esse questionamento, não é? Para isso, temos duas soluções. A primeira é realizar um pré-teste chamado de estudo-piloto. Assim, é possível estabelecer um n aleatoriamente, e obter os dados necessários. Outra alternativa é utilizar um valor padrão para , fixado em amplitude/4. A amplitude considera a subtração entre o maior e o menor valor que podem ser obtidos (BUSSAB; MORETTIN, 2006). Por exemplo, para medir o QI de uma população, utiliza-se como amplitude o maior e o menor valor possível de QI. Como já vimos, pode haver estudos que não consideram a população de modo geral. Nestes casos, utiliza-se a proporção populacional (p), obtida por: Onde: n = tamanho da amostra, = valor crítico de Z para o intervalo de confiança, p = proporção populacional do grupo de interesse, q = proporção populacional do grupo que não há interesse, E = margem de erro. Em muitos casos, os valores de p e q podem ser obtidos na literatura, principalmente em estudos clínicos. Caso sejam valores desconhecidos, por padrão, pode-se considerar ambos em 0,5, e o valor de Z crítico passa a ser multiplicado por 0,25 (BUSSAB; MORETTIN, 2006). Já vimos os cálculos para populações infinitas. Agora, vamos considerar estudos em que a população é finita, ou seja, é possível saber o número de elementos que a compõem (N). Em casos de teste de média populacional, calcula-se da seguinte forma: Onde n = tamanho da amostra, N = tamanho da população finita, = valor crítico de Z, E = margem de erro, = desvio- padrão. Já em casos de proporção populacional, calcula-se por: Figura 2 - Determinação do tamanho de uma amostra Fonte: Fonte: Maddas, Shutterstock, 2020. Onde n = tamanho da amostra, N = tamanho da população finita, = valor crítico de Z, E = margem de erro, = valor amostral da proporção da população finita de interesse, = valor amostral da proporção da população finita fora do grupo de interesse. Lembre-se de um ponto: os valores não conhecidos podem ser substituídos por valores padrão, como já discutimos. De fato, um dos cálculos mais importantes em bioestatística é o número amostral, principalmente em estudos clínicos. Outro fator é compreender como os dados se distribuem e variam dentro desse espaço amostral. Este é o nosso próximo tópico. Acompanhe! 1.2.2 Distribuição amostral, variabilidade e representações gráficas Para compreender o que uma coleta de dados está indicando sobre determinado conjunto amostral, é necessário compreender como as amostras se distribuem e variam entre si. Para isso, são utilizadas ferramentas para o cálculo e a representação de variabilidade e distribuição. A variabilidade de uma amostra reflete quão espalhados ou agrupados estão determinados dados, ou seja, quão próximos ou distantes eles estão entre si. Vimos uma das medidas de variabilidade, o desvio-padrão. Outra métrica muito importante é a medida da variância, usualmente representada por δ² (LOPES et al., 2014) e calculada tanto a nível amostral como populacional, pelas seguintes fórmulas, respectivamente. Amostral: ² ² Onde: X1 = valor do primeiro elemento, = média calculada, Xn = valor do enésimo elemento, n = número de elementos. Populacional: ² ² Onde: X1 = valor do primeiro elemento, = média calculada, Xn = valor do enésimo elemento, n = número de elementos. Você provavelmente notou que o símbolo de variância é igual ao símbolo do desvio- padrão, certo? Assim, para obter o desvio-padrão a partir da variância, basta obter sua raiz quadrada. Outra ferramenta amplamente utilizada em bioestatística para analisar a distribuição dos dados amostrais é a frequência, a medida do número de vezes que determinado evento ocorreu. A maneira mais utilizada para representar a distribuição de frequências é por meio dos histogramas. É uma ferramenta amplamente utilizada em bioestatística e pode refletir a tendência central e as medidas de dispersão de uma amostra. Observe os histogramas representativos de um estudo sobre doenças oculares. #PraCegoVer: imagem com dois histogramas, A, à esquerda, e B, à direita. Os histogramas contêm barras verticais e uma curva em formato de sino. Observe que no gráfico A temos um histograma em formato de sino, ao passo que no gráfico B não temos esse padrão. O que isso nos diz? No gráfico A, a maioria dos elementos amostrais estão distribuídos próximos às médias, ou seja, há uma maior frequência de indivíduos com valores próximos à média que se agrupam na região central do gráfico, e uma menor frequência de indivíduos em valores mais distantes da média que se espalham nas extremidades do gráfico. Já no gráfico B, a maioria dos indivíduos está agrupado nos valores iniciais, mais distantes dos valores centrais da média. Aqui temos dois conceitos a destacar: o gráfico A mostra um histograma de distribuição normal, e o gráfico B de distribuição não normal (LOPES et al., 2014). Figura 3 - Exemplos de histogramas de pesquisa com doenças oculares Fonte: Fonte: LOPES et al., 2014, p. 17. Os histogramas são definidos matematicamente como uma função para contagem do número de observações intervaladas em um conjunto de dados. São representados por gráficos de barras agrupados, em que cada barra é representativa de uma classe de dados (LOPES et al., 2014). O que são histogramas Observe atentamente o gráfico a seguir. Estão representativos os valores esperados para uma distribuição normal, em que a maioria dos valores (68.2%) se concentra ao redor da média (μ), e os demais se espalham nas extremidades, considerando a dispersão do desvio-padrão ( ). #PraCegoVer: gráfico traz uma curva, de cor vermelha, formada por sete pontos do eixo horizontal. A área formada por essa curva está destacada na cor laranja. Três valores de porcentagem estão marcados no gráfico, na área acima da curva. Além de informações sobre a distribuição, o gráfico apresentado também ilustra as medidas de média, mediana e moda em sua curvatura, fornecendo uma representação gráfica da tendência central (MOORE, 2005). Veja como esses parâmetros são representados em diferentes tipos de distribuição amostral. #PraCegoVer: ilustração com quatro tipos de gráficos de distribuição, destacando a média, a moda e a mediana na curvatura. Os dois gráficos na parte superior têm a curva de distribuição não assimétrica; os dois na parte inferior têm a curva simétrica. Cabe destacar que os histogramas são apenas uma das formas de representar a distribuição deuma amostra. Em alguns casos são necessários testes estatísticos específicos para determinar se a amostra segue ou não uma distribuição normal. Por exemplo, em amostras muito amplas, torna-se necessária a aplicação de um teorema, chamado de Limite Central, para análise da normalidade da distribuição, ao passo que em amostras muito pequenas, pode-se utilizar outros testes, como Shapiro-Wilk (LOPES et al.,2014; ANDRADE; OGLIARE, 2013; BUSSAB; MORETTIN, 2006). Em bioestatística, a distribuição normal, simétrica, é muito importante para validação dos dados. Além da distribuição amostral e métricas estatísticas principais, as variáveis também são conceitos essenciais em bioestatística e em alguns estudos podem existir milhares delas. Vamos compreender um pouco melhor sobre isso no próximo tópico. Acompanhe! Distribuição normal É também chamada de distribuição Gaussiana e representa dados em que os elementos estão concentrados na região da média, ou seja, há uma maior densidade de probabilidade de os valores estarem próximos das tendências centrais e de dispersão. Os dados se agrupam ao redor do centro, ficando menos frequentes nos pontos de inflexão à direita e à esquerda. Distribuição não normal A probabilidade de os valores estarem próximos das tendências centrais e de dispersão é menor, visto que a densidade de probabilidade está mais distante dos valores de tendência central e por apresentar maior frequência nos pontos de inflexão. Figura 4 - Gráfico de valores da distribuição normal Fonte: Fonte: Peter Herman Furian, Shutterstock, 2020. Figura 5 - Gráficos de distribuição amostral Fonte: Fonte: Iamnee, Shutterstock, 2020. 1.3 Variáveis categóricas e numéricas Uma variável é definida como uma característica de interesse que está sendo monitorada em determinado estudo. Ela é um parâmetro estatístico que pode variar entre os diferentes elementos da amostra e população. De modo geral, a variável de um estudo é aquilo que está submetido à variância, ou seja, que se altera em condições determinadas. As variáveis representam características e podem ser medidas em termos quantitativos ou qualitativos. As variáveis quantitativas são aquelas que podem ser representadas numericamente; também são chamadas de variáveis numéricas. Elas podem ser expressas em unidades matemáticas de medida. Por outro lado, nem todas as características podem ser expressas em termos numéricos, e essas variáveis são chamadas de qualitativas ou categóricas, pois expressam uma qualidade da amostra/população ou uma categoria (VIEIRA, 2008). As variáveis numéricas ainda podem ser do tipo discretas ou contínuas. No primeiro caso, são as variáveis que podem assumir valores únicos, inteiros, finito ou infinito, e costumam refletir contagens (PAGANO; GAUVREAU, 2006). Já nas variáveis contínuas, os valores estão contidos em escalas e podem ser fracionários. São exemplos de variáveis contínuas: peso, tempo, idade, medidas de distância, entre outras métricas dependentes de instrumentos. As variáveis qualitativas são classificadas em nominais e ordinais. Nas nominais, a ordenação é ausente ou não importante, ao passo que nas ordinais, uma ordem é necessária e influencia a variável (PAGANO; GAUVREAU, 2006). Como exemplos de variável categórica nominal, podemos citar cor da pele, presença ou ausência de características – como sardas ou pintas, nacionalidade, logradouro, entre outros. Já como exemplos das ordinais, podemos citar graduações de coloração (claro, escuro), meses e níveis (1º, 2º, 3º). Veja um resumo dos tipos de variáveis e suas subdivisões. #PraCegoVer: diagrama traz a palavra “variável”, que se divide em dois itens: numérica (quantitativa) e categórica (qualitativa). O item “numérica (quantitativa) se divide em dois outros itens: contínua e discreta; e “categórica (qualitativa)” também se divide em dois outros itens: nominal e ordinal. O tipo de variável influencia diretamente no tipo de coleta e de representação gráfica utilizada. Certos tipos de gráficos só admitem variáveis numéricas, enquanto outros são mais indicados para variáveis categóricas. Adicionalmente, o número de variáveis coletadas também será um fator determinante na escolha de um gráfico. Um estudo sempre envolverá uma contagem, mesmo que da frequência de ocorrência de uma variável qualitativa (MOORE, 2005). Veja alguns exemplos de gráficos e como as variáveis se distribuem. #PraCegoVer: ilustração dividida em cinco partes, com diferentes tipos de gráficos: coluna/barras, pizza, linhas, áreas e dispersão. Cada parte tem itens em texto, com suas principais características, também a representação gráfica. Os gráficos de barra e coluna são utilizados majoritariamente para ilustrar variáveis distintas, de modo quantitativo. Todavia, nem sempre representam unicamente variáveis numéricas. No exemplo trazido na imagem, temos uma medida de efeitos colaterais, em que as variáveis qualitativas nominais são os sintomas apresentados, contrastados com o número de pessoas coletadas que apresentaram tal sintoma. Os mesmos dados no gráfico de pizza mostram uma noção de proporção, em que concluímos rapidamente que a maior parte dos indivíduos não teve sintomas. Já os gráficos de linha são mais indicados para ilustrar variáveis numéricas discretas ou contínuas, pois indicam uma sequência de acontecimentos, em que a variável passa a crescer ou diminuir. O mesmo ocorre para o gráfico de área, uma alternativa de representar os dados de linha, com maior destaque para a área formada pela sequência avaliada. Por fim, o gráfico de dispersão utiliza-se duas variáveis contrastantes, quantitativas, para identificar relações entre elas (MOORE, 2005). Vimos neste tópico conceitos básicos e essências para uma análise em bioestatística, sobre a determinação da amostra, os cálculos principais de dispersão e tendências, variabilidade, distribuição amostral, variáveis e principais representações gráficas. A seguir, vamos aprender um elemento muito importante para validar os dados obtidos em estudos e pesquisas: o valor-p. Vamos lá! Figura 6 - Diferentes tipos de variáveis Fonte: Fonte: Elaborada pela autora, 2020. Figura 7 - Principais tipos de gráficos e suas finalidades Fonte: Fonte: Elaborada pela autora, 2020. É possível atribuir graduações de valores a variáveis qualitativas, para que elas possam ser quantificadas e representadas graficamente. Esse método é chamado de atribuição de escores, e as novas variáveis passam a ser chamadas de subjetivas. Por exemplo, é possível atribuir um escore de 1 para uma dor fraca, e 10 para uma dor forte, ou mesmo atribuir escores numéricos para variáveis do tipo visual, como graduação de cores (CAMPOS, 2000). Você sabia? 1.4 Valor- p Como vimos, a bioestatística é usada para resolução de hipóteses, ou seja, utiliza-se as ferramentas de estatística aplicadas a estudos biológicos/clínicos, para analisar um conjunto de dados e retornar uma síntese numérica de conclusões acerca daquele conjunto e sua população de origem. Mas como ter certeza de que a conclusão está correta? Vamos exemplificar. Imagine que você está trabalhando em uma pesquisa em que uma vacina contra uma doença está sendo testada. A vacina foi aplicada em 100 pessoas, e outras 100 receberam o placebo, uma vez que não há nenhum medicamento ou vacina já comprovados disponível para tal doença. Observou-se uma quantificação de anticorpos superior no grupo vacinado. Como afirmar, com certeza, que a resposta no grupo vacinado é de fato devido à vacina, e não ao acaso, ou pelo contato prévio com o agente causador? E como afirmar, com certeza, que o grupo placebo não produziu anticorpos devido ao não recebimento da vacina, e sim devido a alguma falha fisiológica ou defeito no sistema imune? As ferramentas estatísticas nos auxiliam chegar às respostas. Aqui, atribuímos um valor, chamado de valor-p, que irá nos dizer sobre a probabilidade do resultado observado ser de fato devido ao tratamento de interesse ou ao acaso. O valor-p também é chamado de nível descritivo e probabilidadede significância e auxilia a esclarecer questões sobre as hipóteses levantadas em um método científico. Observe, a seguir, o delineamento das fases de um estudo científico. #PraCegoVer: infográfico ilustrado tem como título “método científico” e traz, no lado esquerdo, dois personagens, um masculino e um feminino, vestidos de jaleco, com lupas nas mãos e com balão de fala escrito “por quê?”; no lado direito, há um fluxograma indicando as etapas da pesquisa: observação, questionamento, hipóteses, experimentação, análises e conclusão. Segundo Ferreira e Patino (2015, p. 485), o valor-p é definido como “a probabilidade de se observar um valor da estatística de teste maior ou igual ao encontrado”. O valor-p nos fornece uma quantificação probabilística sobre o valor testado, indicando as chances deste valor estar no intervalo esperado. Note que as autoras citam em sua definição a estatística de testes. E o que isso significa? A estatística de teste é, de modo resumido, uma ferramenta para testar se uma hipótese é real ou nula. No nosso exemplo, a hipótese principal é “a produção de anticorpos é resultado da aplicação da vacina”. Temos que testar se essa hipótese é real ou nula (neste caso, a produção de anticorpos seria igual em ambos os grupos, estatisticamente). O teste é realizado de acordo com o tipo de dado, variável e distribuição da amostra (MOORE, 2005). Veremos sobre teste de hipóteses em outra oportunidade, mas saiba que uma vez realizado o teste de hipótese com a estatística de teste apropriada, pode-se calcular o valor-p. O valor-p em bioestatística é usualmente utilizado no limiar de 0,05 (LOPES et al., 2014). Você já deve ter visto essa informação em artigos e estudos. E o que isso significa? A probabilidade de um valor extremo ser encontrado fora do grupo- alvo pode ser de até 5%. Voltando ao nosso exemplo, alguém com níveis altos de anticorpos no grupo placebo poderia aparecer em até 5% da amostra. É importante destacar que o valor-p indica a probabilidade de um valor extremo estar fora do grupo tratado, e não necessariamente indica que foi a vacina a causadora do efeito. Para afirmar isso, outros testes estatísticos mais complexos são necessários (VIEIRA, 2008; FERREIRA; PATINO, 2015). Figura 8 - Fases do método científico Fonte: Fonte: Becris, Shutterstock, 2020. Testes estatísticos simples no Excel (parte 1 – Teste T e Quiquadrado) Comentário: o cálculo do valor-p é uma importante etapa na validação de dados. Você pode calcular manualmente, ou utilizar softwares. Veja um tutorial para aprender a calcular testes de estatística simples no software Excel, incluindo o valor-p no link a seguir. Acesse (https://posgraduando.com/testes-estatisticos-simples-no- excel-parte-1-teste-t-e-quiquadrado/) Você quer ler? https://posgraduando.com/testes-estatisticos-simples-no-excel-parte-1-teste-t-e-quiquadrado/ User Realce User Realce User Realce User Realce User Realce O estudo de um novo medicamento para enxaqueca considerou 200 participantes: metade tomou o novo medicamento (ENXAKILL), e outra metade, outro comprimido já em uso no mercado (FREEENXAQ). O objetivo era observar se havia uma melhora significativa no grupo ENXAKILL. Ao realizar os testes, foi verificado uma distribuição normal, e o valor de p calculado em 0,1. Um dos pesquisadores afirmou categoricamente que o medicamento não tinha efeito contra enxaqueca, pois o valor de p estava superior a 0,05. Rapidamente, o bioestatístico o corrigiu, dizendo que aquilo não poderia ser afirmado, pois o que havia sido observado é que cerca de 10% do grupo FREENXAQ poderia apresentar a mesma melhora observada em quem tomou ENXAQUIL, mas havia um problema na pesquisa: não havia um grupo controle, sem ingestão de medicamentos, assim, não era possível saber se as melhoras observadas eram de fato referente aos medicamentos. Com isso, uma nova coleta foi desenhada para atender aos parâmetros estatísticos necessários. O valor-p é uma ferramenta para análises de efeitos biológicos/fisiológicos e em saúde de modo geral. Vale destacar que ele deve ser avaliado em conjunto com outros testes, uma vez que sozinho indica informações sobre os extremos, e não sobre a importância dos efeitos. Pode-se obter um valor de p baixo, mas que o resultado na prática não seja significativo (FERREIRA; PATINO, 2015). Utilizando nosso exemplo, pode ser que a quantidade de anticorpos produzidos pelo grupo vacinado não seja suficiente para combater a doença. Assim, embora o valor-p seja um dos mais importantes em pesquisas científicas, ele não deve ser considerado sozinho. Além de indicar a significância dos dados obtidos, o valor-p explicita se há ou não diferença entre os grupos, afinal, se houver um valor-p calculado em um valor muito alto, há um forte indicativo de que os grupos comparados não apresentam tendência de diferença. Um valor-p menor, todavia, indica que há uma pequena probabilidade de os grupos serem iguais e, portanto, uma maior tendência de diferença (FERREIRA; PATINO, 2015; MOORE, 2005). O valor-p estará presente na maioria dos estudos envolvendo as ciências biológicas, sendo considerado uma das métricas mais importantes em bioestatística. Por isso, sua compreensão é essencial, pois certamente os profissionais em saúde irão se deparar com esse valor ao analisar ou elaborar um estudo. Caso Teste seus conhecimentos (Atividade não pontuada) As ferramentas estatísticas são essenciais para a pesquisa clínica e para todas as áreas do conhecimento. Pode meio delas, pode-se obter dados numéricos e confiáveis acerca de estudos e hipóteses. Vamos considerar a seguinte situação: você está trabalhando em um laboratório de pesquisa clínica e é responsável pelas análises do teste-piloto. Sua função é fornecer os relatórios contendo as medidas de tendência central e de dispersão, e um gráfico representativo desses dados. A pesquisa envolve o uso de óleo essencial de Jojoba (Simmondsia chinensis) no crescimento de cabelo. Para isso, foram utilizados camundongos geneticamente modificados para apresentarem um fenótipo de redução de pelo. Você recebe os seguintes dados, já tabulados pelo técnico responsável pela coleta de dados. Tabela 1 – Dados do uso do óleo essencial de Jojoba Vamos Praticar! Fonte: Elaborada pela autora, baseada em JI; MIN; YOUNG, 2014. #PraCegoVer: tabela com o título “variável: porcentagem de área com pelugem”, tem cinco colunas: a primeira está dividida em duas datas (dia 0 e dia 30); a segunda está dividida em duas partes, com o título “indivíduo tratamento” e valores de 1 a 10; a terceira traz o título “tratamento” e valores em porcentagem; a quarta coluna tem o título “controle” e valores em porcentagem; e a quinta coluna está dividida em duas partes, com o título “indivíduo controle” e valores de 1 a 10 junto com a letra C. Temos que o estudo envolveu a aplicação de óleo de jojoba em uma concentração em 10 indivíduos (1-10) durante 30 dias. Como grupo controle, aplicou-se apenas o diluente do óleo essencial em 10 indivíduos (1C-10C). Como resposta, calculou-se a porcentagem de pelugem recobrindo os camundongos. Com esses dados, responda: 1) Qual a média e o desvio-padrão do grupo tratado e do grupo controle? O que você conclui com essas informações? 2) Represente graficamente os dados da média e do desvio-padrão. 3) Após realizar os testes, você obteve um valor-p de 0,055, sendo que o nível de significância necessário era de 0,05. Inclua em seu relatório a orientação para continuar ou não os estudos baseados nesse resultado. Clique aqui para ver a resolução do exercício (sections/pdf/SAU_BIOEST_21_Resolucao_U01.pdf) . Assim, finalizamos nossa unidade sobre os principais conceitos em bioestatística, em que pudemos conhecer ferramentas essenciais para a metodologia científica e pesquisa clínica. Ao final dessa unidade, você é capaz de criar um planejamento para um estudo, incluindo algumas métricas estatísticas para análise dos dados obtidos. Nesta unidade, você teve a oportunidade de: Conclusão compreender como a bioestatísticaé importante em pesquisas clínicas; diferenciar população geral, população-alvo, amostra e planejamento amostral; reconhecer os diferentes meios de amostragem; identificar e calcular medidas de tendência central; compreender e calcular as principais medidas de dispersão e variabilidade; calcular o valor ideal de uma amostra; interpretar um histograma, gráficos de distribuição normal e não-normal; https://catalogcdns3.ulife.com.br/content-cli/SAU_BIOEST_21/unidade_1/ebook/sections/pdf/SAU_BIOEST_21_Resolucao_U01.pdf determinar o melhor tipo de gráfico para diferentes tipos de dados; compreender a diferença entre variáveis numéricas e categóricas; compreender o conceito do valor-p e sua importância em pesquisas científicas. ANDRADE, D. F; OGLIARI, P.J. Estatística para as ciências agrárias e biológicas: com noções de experimentação. Florianópolis: Editora da UFSC, 2013. BALDI, B.; MOORE, D. S. A prática da estatística nas ciências da vida. 2. ed. Rio de Janeiro: LTC, 2014. E-Book. BRASIL. Conselho Nacional de Saúde. Resolução nº 466, de 12 de dezembro de 2012. Brasília, DF: Conselho Nacional de Saúde, 2012. Disponível em: https://bvsms.saude.gov.br/bvs/saudelegis/cns/2013/res0466_12_12_2012.html (https://bvsms.saude.gov.br/bvs/saudelegis/cns/2013/res0466_12_12_2012.html). Acesso em: 19 nov. 2020. BUSSAB, W. O; MORETTIN, P. A. Estatística Básica. 5. ed. São Paulo: Editora Saraiva, 2006. CALLEGARI-JACQUES, S. M. Bioestatística: princípios e aplicações. Porto Alegre: Artmed, 2003. CAMPOS, G. M. Estatística prática para docentes e pós-graduandos. Departamento de Odontologia Restauradora, Faculdade de Odontologia de Ribeirão Preto - Universidade de São Paulo, 2000. Disponível em: http://www.forp.usp.br/restauradora/gmc/gmc_livro/gmc_livro_cap02.html (http://www.forp.usp.br/restauradora/gmc/gmc_livro/gmc_livro_cap02.html). Acesso em: 12. nov. 2020. COMO surgiu a Bioestatística (Florence Nightingale) - Bioestatística 02 #154. Belém. 2018. 1 vídeo (2 min 34 s). Publicado no canal Estatística Interativa. Disponível em: https://www.youtube.com/watch? v=diM7gG7Z37c&ab_channel=Estat%C3%A (https://www.youtube.com/watch? v=diM7gG7Z37c&ab_channel=Estat%C3%A). Acesso em: 19 nov. 2020. FERREIRA, C. J.; PATINO, C. M. O que realmente significa o valor-p? J. Bras. Pneumol., Brasília, v. 41, n. 5, p. 485, 2015. Disponível em: https://www.scielo.br/pdf/jbpneu/v41n5/pt_1806-3713-jbpneu-41-05-00485.pdf (https://www.scielo.br/pdf/jbpneu/v41n5/pt_1806-3713-jbpneu-41-05-00485.pdf). Acesso em: 12. nov. 2020. HADAD FILHO, A. Pierre-Charles-Alexandre Louis e o método numérico em medicina. In: O’LERY , M. de las M.; FEDERICO, L.; ARIZA, Y. Filosofía e Historia de la Ciencia em el Cone Sur: Selección de Trabajos del XI Encuentro. São Carlos; Buenos Aires: AFHIC, 2020, p. 407-416. Disponível em: http://www.afhic.com/wp- content/uploads/2020/04/407_AFHIC_Seleccion-AFHIC-1.pdf (http://www.afhic.com/wp- content/uploads/2020/04/407_AFHIC_Seleccion-AFHIC-1.pdf). Acesso em: 19 nov. 2020. INSTITUTO DE MATEMÁTICA. Tabelas de probabilidade. Rio de Janeiro, 2020. Disponível em: http://www.im.ufrj.br/probest/Tabelas_de_probabilidade.pdf (http://www.im.ufrj.br/probest/Tabelas_de_probabilidade.pdf). Acesso em: 12. nov. 2020. JI, Y. O.; MIN, A. P.; YOUNG, C. K. Peppermint oil promotes hair growth without toxic signs. Toxicol. Res., Seul, v. 30, n. 4, p. 297-304, 2014. Disponível em: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4289931/pdf/toxicr-30- 297.pdf (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4289931/pdf/toxicr-30-297.pdf). Acesso em: 23 nov. 2020. LOPES, B. et al. Bioestatísticas: conceitos fundamentais e aplicações práticas. Rev. Bras. Oftalmol., Rio de Janeiro, v. 73, n. 1, p. 16-22, fev. 2014. Disponível em: http://www.scielo.br/pdf/rbof/v73n1/0034-7280-rbof-73-01-0016.pdf (http://www.scielo.br/pdf/rbof/v73n1/0034-7280-rbof-73-01-0016.pdf). Acesso em: 16 abr. 2020. MAGALHÃES, M. N.; LIMA, A. C. P. de. Noções de probabilidade e estatística. 6. ed. São Paulo: Edusp, 2005. MOORE, D. S. A estatística básica e sua prática. 3. ed. Rio de Janeiro: LTC, 2005. PAGANO, M.; GAUVREAU, K. Princípios de Bioestatística. 2. ed. São Paulo: Thomson, 2006. POCINHO, M., FIGUEIREDO, J. P. Estatística e Bioestatística. Coimbra: Madeira, 2004. PÓS-GRADUANDO. Testes estatísticos simples no Excel (parte 1 – Teste T e Quiquadrado). Pós-Graduando, [S. l], 2017. Disponível em: https://posgraduando.com/testes-estatisticos-simples-no-excel-parte-1-teste-t-e- quiquadrado/ (https://posgraduando.com/testes-estatisticos-simples-no-excel-parte-1-teste-t-e-quiquadrado/). Acesso em: 19 nov. 2020. SILVA, L. F. da; WEIBLEN, R.; FLORES, E. F. Imunogenicidade de vacinas comerciais inativadas contra o herpesvírus bovino tipo 1. Ciência Rural, Santa Maria, v. 37, n. 5, p. 1471-1474, set./out. 2007. Disponível em: https://www.scielo.br/pdf/cr/v37n5/a42v37n5.pdf (https://www.scielo.br/pdf/cr/v37n5/a42v37n5.pdf). Acesso em: 19 nov. 2020. VIEIRA, S. Introdução à Bioestatística. 4. ed. Elsevier: Rio de Janeiro, 2008. Referências https://bvsms.saude.gov.br/bvs/saudelegis/cns/2013/res0466_12_12_2012.html http://www.forp.usp.br/restauradora/gmc/gmc_livro/gmc_livro_cap02.html https://www.youtube.com/watch?v=diM7gG7Z37c&ab_channel=Estat%C3%A https://www.scielo.br/pdf/jbpneu/v41n5/pt_1806-3713-jbpneu-41-05-00485.pdf http://www.afhic.com/wp-content/uploads/2020/04/407_AFHIC_Seleccion-AFHIC-1.pdf http://www.im.ufrj.br/probest/Tabelas_de_probabilidade.pdf https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4289931/pdf/toxicr-30-297.pdf http://www.scielo.br/pdf/rbof/v73n1/0034-7280-rbof-73-01-0016.pdf https://posgraduando.com/testes-estatisticos-simples-no-excel-parte-1-teste-t-e-quiquadrado/ https://www.scielo.br/pdf/cr/v37n5/a42v37n5.pdf