Prévia do material em texto
BIOESTATÍSTICA AULA 1 Prof. Michael Pereira da Silva 2 CONVERSA INICIAL Nesta aula, você terá contato inicial com a estatística e sua aplicação na resolução de problemas de pesquisa nas ciências biológicas, conhecida como bioestatística. Teremos a oportunidade de discutir aspectos importantes do planejamento adequado para realização de coletas e organização de bancos de dados, bem como o conhecimento sobre a estatística descritiva e inferencial, suas diferenças e complementariedades e aplicação em estudos científicos. TEMA 1 – ESTATÍSTICA E BIOESTATÍSTICA E SUA APLICAÇÃO NAS CIÊNCIAS BIOLÓGICAS A estatística está mais presente em nosso dia a dia do que imaginamos. Muitas vezes, criamos o conceito de que ela é uma ferramenta exclusiva de cientistas e composta por cálculos matemáticos extremamente complexos, que a tornam distante do nosso conhecimento e mesmo da nossa capacidade de utilizá-la. No entanto, ela é mais comum do que percebemos. De fato, a estatística é utilizada para nos fornecer informações importantes há muito tempo (por exemplo, há cerca de 3.000 anos a.C., os povos babilônicos, egípcios e chineses já utilizavam essa ferramenta para a realização de censos populacionais) (Lirani; Oziecki, 2020). A palavra estatística deriva do termo neolatim statisticum collegium (conselho do estado) e da palavra italiana statista (homem de Estado) e denota em seu início a utilização como fonte de informação estratégica para o estado e seus governantes (Selvamuthu; Das, 2018; Lirani; Oziecki, 2020). A utilização da estatística como fonte de informações para o Estado continua sendo uma ferramenta essencial para o conhecimento de seu povo, dos problemas e dos avanços obtidos ao longo do tempo. As figuras apresentadas a seguir são um bom exemplo da utilização da estatística como fonte de informação ao Estado. 3 Figura 1 – População residente no Brasil por cada sexo no Censo Demográfico 2010. Dados em milhões de habitantes Fonte: Instituto Brasileiro de Geografia e Estatística (IBGE), 2010. Figura 2 – Taxa de desmatamento acumulado na Amazônia Legal por cada estado. Dados em km² Fonte: Instituto Nacional de Pesquisas Espaciais (INPE), [S.d.]. 1.1 Definindo a estatística A estatística que conhecemos atualmente não é direcionada exclusivamente a produzir informações para o Estado. Ela é aplicada a uma infinidade de áreas do conhecimento, ofertando meios de responder diversas perguntas e resolver demandas que favorecerão o desenvolvimento dessas áreas, e a aplicação dos métodos estatísticos de forma adequada produzirá informações valiosas para a tomada de decisões. Diante disso, a definição de estatística mais adequada aos tempos atuais pode ser verificada no Quadro 1, a seguir: 4 Quadro 1 – Definição de estatística Fonte: Heumann; Shalabh; Schomaker, 2016; Pinto; Silva, 2020. 1.2 Definindo a bioestatística Como dissemos anteriormente, a estatística é uma ciência aplicada nas diversas áreas do conhecimento e quando é utilizada para o entendimento de fenômenos biológicos é comumente conhecida como bioestatística. A bioestatística tem grande importância para o avanço das ciências biológicas em especial ao entendimento de fatores relacionados à saúde da população (Kirkwood; Sterne, 2003). TEMA 2 – PLANEJAMENTO E REALIZAÇÃO DE COLETA DE DADOS A dúvida precede a pesquisa científica. Por mais óbvia quer possa parecer tal afirmação, contempla um aspecto extremamente importante a ser considerado quando pensamos na realização de estudos científicos. Quais são as perguntas a serem respondidas e como faremos para responder essas perguntas são pontos-chave para o sucesso de uma investigação científica. A aplicação do método científico é o caminho mais adequado para esse propósito, pois ele fornece um conjunto de regras básicas dos procedimentos que produzem o conhecimento científico (Vieira; Hossne, 2020). Veremos a seguir alguns aspectos importantes para o planejamento e realização de coletas de dados de forma a melhor responder nossas perguntas de pesquisa. 2.1 Visão geral do planejamento de pesquisa Como já abordamos, a dúvida é o principal estimulante para a investigação científica é a partir dela que nos movemos em direção às demais etapas de processo. Após a formulação do problema de pesquisa, criamos hipóteses a serem testadas, delineamos o estudo e coletamos dados para a A estatística é a ciência que tem por objetivo orientar: O A coleta de dados; O A organização dos dados; O A apresentação dos dados; O A análise dos dados; O A interpretação dos dados. 5 obtenção dos resultados que responderão nossa pergunta inicial e muitas vezes criarão novas dúvidas, fomentando assim novas pesquisas. A Figura 3 apresenta uma visão geral desse processo. Figura 3 – Visão geral do planejamento de pesquisas científicas Fonte: Silva, 2021. No tópico a seguir, veremos esse processo de forma mais detalhada visando aprofundar seu conhecimento. 2.2 Visão detalhada do planejamento de pesquisas científicas Dando continuidade ao entendimento do planejamento de pesquisas científicas, a Figura 4 a seguir apresenta esse processo de forma detalhada. Figura 4 – Fluxograma do processo de desenvolvimento de pesquisa científica Fonte: Elaborado com base em Kothari, 2004. A definição do problema de pesquisa é dependente de diversos aspectos, como conhecimento prévio sobre a temática, vivência do pesquisador Hipóteses Delineamento do estudo Resultados Problema? Definição do problema de pesquisa Revisão de conceitos e teorias Revisão de achados prévios Formulação de Hipóteses Delineamento do estudo Coleta de dados (Execução) Analise de dados (Testar as hipóteses) Interpretar e reportar os achados 6 e principalmente conhecimento da literatura publicada acerca do tema, visando identificar lacunas a serem preenchidas por novas pesquisas científicas. A formulação de hipóteses baseia-se no resultado esperado pelo pesquisador ao formular o problema. O delineamento do estudo refere-se à escolha adequada dos métodos de obtenção de dados com intuito de garantir a capacidade de testar as hipóteses formuladas. A coleta de dados é o momento de execução e obtenção dos dados da pesquisa. Essa etapa pode ocorrer de forma direta, quando o pesquisador vai a campo e coleta os dados necessários para sua pesquisa (dados primários), ou de forma indireta, quando o pesquisador utiliza dados já coletados por outras pessoas ou entidades (dados secundários) (por exemplo, IBGE). A análise de dados é o momento em que o pesquisador utiliza dos métodos estatísticos visando testar as hipóteses formuladas no início da pesquisa. A fase de interpretação de reportar os achados é o momento em que o pesquisador oferta indícios para aceitar ou recusar a hipótese formulada e contrastar seus achados com a literatura ou modelo teórico já existente (Thomas; Nelson; Silverman, 2012). TEMA 3 – MONTAGEM E ORGANIZAÇÃO DE BANCOS DE DADOS Durante a fase de coleta de dados, colhemos diversas informações sobre o fenômeno que queremos pesquisar. A forma como organizamos essas informações é de suma importância para a garantia de um tratamento e análise estatística mais facilitados e para que assim consigamos responder nossa pergunta de pesquisa. Veja a seguir algumas informações importantes sobre a obtenção e organização desses dados. 3.1 Fonte dos dados Os dados coletados durante uma pesquisa podem ser provenientes de diversas fontes. Os dados podem ter sido obtidos por meio de questionários de autorrelato, entrevistas ou mesmo medidas realizadas pelo próprio pesquisador (testes físicos, exames clínicos etc.). No caso de a coleta de dados ser realizada de forma indireta (dados secundários), esses dados já forampreviamente coletados por terceiros e se encontram em documentos como prontuários médicos, ou mesmo em base de dados virtual. É importante ressaltar que muitas vezes esses dados secundários já são disponibilizados em um formato 7 adequado para o tratamento e análise estatística. Veremos a seguir características dessa organização do banco de dados. 3.2 Organização do banco de dados Após o término da coleta de dados devemos fazer a entrada desses dados em uma planilha. Essa fase é conhecida como tabulação dos dados (Barros et al., 2012). Para a construção dessa planilha você tem à disposição inúmeros softwares que ofertam essa funcionalidade, tais como Excel, LibreOffice, Epi- info, Bioestat, Jasp, IBM SPSS, dentre outros. Alguns cuidados dever ser tomados nesse momento. Primeiro, em pesquisas com seres humanos, é primordial que a identidade do participante seja preservada. Diante disso, ao fazer a tabulação dessa informação, crie identificações numéricas ou alfanuméricas para cada participante. Veja o exemplo no quadro a seguir. Quadro 2 – Exemplo de criação de identificação individual dos participantes de uma pesquisa científica Nome do participante no questionário Identificação do participante no banco de dados José Silva Id001 Maria Souza Id002 João Pereira Id003 ... ... Fonte: Silva, 2021. É muito importante que a entrada (digitação) desses dados na planilha seja feita da forma mais cuidadosa o possível. Erros de digitação podem causar sérios problemas na hora de fazer a análise estatística desses dados. Veja o exemplo a seguir. 8 Quadro 3 – Exemplo de um banco de dados com erros de digitação Identificação do participante no banco de dados Altura em metros Id001 1,75 Id002 1,68 Id003 189 ... ... Fonte: Silva, 2021. Nesse caso, o participante Id003 apresenta uma altura de 189 metros de altura. Algo impossível de acontecer. Para evitar esses problemas, revise o banco de dados antes do início da análise estatística, visando identificar e corrigir possíveis erros de digitação. Outra dica extremamente importante: “sempre faça cópias do arquivo de banco de dados e salve em outro local que não seja somente o seu computador”. Isso garantirá que, em caso de problemas com seu computador, você sempre tenha cópias de segurança do seu banco de dados em outra máquina ou mesmo hospedado em nuvens de arquivamento de dados (por exemplo, Google Drive, One Drive, Dropbox etc.). Após ler as informações que apresentamos, você ainda deve estar se perguntando: “qual o formato da planilha de dados básica para fazer essa tabulação?”. A Figura 5 apresenta as características básicas dessa planilha. Figura 5 – Características da planilha de tabulação de dados Crédito: Silva, 2021. 9 A planilha básica possui em cada coluna uma variável, na primeira linha o nome dessas variáveis e nas demais linhas digitamos as informações de cada participante. TEMA 4 – CONCEITOS BÁSICOS EM BIOESTATÍSTICA Um dos principais conceitos básicos em bioestatística refere-se ao entendimento da formulação de hipóteses estatísticas (Barros et al., 2012). Conhecer esse aspecto é de suma importância para uma utilização adequada da estatística inferencial (discutida no tópico seguinte). Além disso, precisamos conhecer os principais erros que podem ocorrer ao testarmos essas hipóteses. Você verá mais informações sobre essas questões nos subtópicos a seguir. 4.1 Formulando hipóteses Em estudos científicos, normalmente os pesquisadores buscam verificar diferenças entre grupos ou relações entre variáveis. Por exemplo, nos estudos de testes de vacina para determinada doença, os pesquisadores procuram verificar a eficácia de proteção da vacina comparando a ocorrência da doença entre os indivíduos que tomaram a vacina e aqueles que não tomaram a vacina (placebo). Tal comparação é realizada por meio de testes estatísticos que visam testar hipóteses. O Quadro 4 apresenta a lógica de formulação de hipóteses baseada no exemplo do estudo para o teste de vacina. Quadro 4 – Hipóteses estatísticas para um estudo de teste de vacinas Hipótese nula (H0): a incidência da doença é igual entre os grupos de vacinados e não vacinados. Hipótese alternativa (H1): a incidência da doença é diferente entre os grupos de vacinados e não vacinados. Fonte: Silva, 2021. A hipótese nula (H0) é normalmente mais conservadora e assume a inexistência do resultado esperado (Barros et al., 2012; Heumann; Shalabh; Schomaker, 2016; Pinto; Silva, 2020). No exemplo do Quadro 4, a H0 indica a ausência de diferenças entre os grupos. Já a hipótese alternativa (H1) é formulada como alternativa a H0 quando temos evidências suficientes de que essa hipótese nula não é verdadeira (Barros 10 et al., 2012; Heumann; Shalabh; Schomaker, 2016; Pinto; Silva, 2020). No caso do exemplo, caso o teste estatístico forneça evidência suficiente de que a incidência da doença não é igual entre os grupos, adotamos H1 como resultado de nosso estudo. 4.2 Erros do Tipo I e Tipo II Existem dois tipos de erros que podemos cometer ao testarmos hipóteses estatísticas. O erro do Tipo I, que ocorre quando rejeitamos H0 quando ela é verdadeira. E o erro do Tipo II, que ocorre quando aceitamos H0 como verdadeira quando na verdade ela é falsa (Barros et al., 2012; Heumann; Shalabh; Schomaker, 2016; Pinto; Silva, 2020). Utilizaremos o exemplo das hipóteses formuladas do estudo de teste de vacinas (Quadro 4) para melhor explicar esses erros. Nesse exemplo, o erro do Tipo I ocorre quando concluímos que a incidência da doença foi diferente entre o grupo de vacinados e o de não vacinados, quando na realidade (na população) a incidência era igual entre os grupos. Em estudos científicos normalmente se aceita a probabilidade de ocorrência desse erro em no máximo 5%, representando também o nível de significância estatística representada pelo valor “p” (Barros et al., 2012; Heumann; Shalabh; Schomaker, 2016; Pinto; Silva, 2020). O erro do Tipo II ocorre quando concluímos que a incidência da doença foi igual entre o grupo de vacinados e o de não vacinados, quando na realidade (população) ela foi diferente. A probabilidade máxima aceitada de ocorrência desse erro é de 20% (Barros et al., 2012; Heumann; Shalabh; Schomaker, 2016; Pinto; Silva, 2020). TEMA 5 – ESTATÍSTICA DESCRITIVA E INDUTIVA (INFERENCIAL) Como visto anteriormente neste material, a estatística compreende uma série de técnicas voltadas a uniformizar a coleta, organização, descrição e análise de dados (Barros et al., 2012). Esta, por sua vez, é subdividida em dois tipos: a estatística descritiva e a estatística indutiva, também conhecida como inferencial (Figura 6). 11 Figura 6 – Divisões da estatística Crédito: Silva, 2021. Nos subtópicos a seguir, essas características serão descritas e exemplos de sua aplicação em estudos nas ciências biológicas serão fornecidos para facilitar a compreensão. 5.1 Estatística descritiva A estatística descritiva compreende procedimentos adotados com objetivo de organizar a coleta, tabulação e descrição de dados (Barros et al., 2012). Para melhor entendimento, imagine a seguinte situação, descrita no Quadro 5. Quadro 5 – Exemplo de um estudo utilizando a análise descritiva Objetivo Forma de coleta das informações Resultados Verificar a quantidade de pessoas infectadas pela bactéria causadora de cólera (Vibrio cholerae) Análise dos prontuários dos participantes fornecidos pela Unidade Básica de Saúde. Dos 500 moradores analisados, 100 apresentaram a infeção por Vibrio cholerae, totalizando 20% da amostra. Fonte: Silva, 2021. Obs.: dados fictícios. Ao organizar, coletar e apresentar os resultados, fazemos uso da análise descritiva indicando que 20% dos participantesusuários das Unidades Básicas de Saúde apresentavam a infecção por Vibrio cholerae. Vamos avançar ao próximo tópico para conhecer a estatística indutiva (inferencial). Estatística Descritiva Inferencial 12 5.2 Estatística indutiva (inferencial) A estatística indutiva (inferencial) tem como objetivo testar hipóteses e estimar características populacionais com base em uma amostra (Barros et al., 2012). Com ela nós criamos hipóteses visando entender melhor a ocorrência de determinados fenômenos. Vamos retomar o exemplo do estudo utilizado no Quadro 5. Não seria interessante conhecer quais fatores explicam a ocorrência de infeção de 20% dos usuários pela bactéria Vibrio cholerae? Será que as condições de saneamento básico nas quais essas pessoas vivem estão influenciando a ocorrência dessa infeção? Ao fazermos essas perguntas criamos hipóteses a serem testadas. Vamos acompanhar então o exemplo do uso da estatística inferencial no Quadro 6. Quadro 6 – Exemplo de um estudo utilizando a estatística inferencial Objetivo Hipótese Forma de coleta das informações Resultados Verificar fatores que explicam a ocorrência de infeção de 20% dos usuários pela bactéria Vibrio cholerae. Pessoas que vivem em locais sem saneamento básico estão se infectando mais. 1. Análise dos prontuários dos participantes fornecidos pela Unidade Básica de Saúde. 2. Verificação se no local de residência desses participantes existe a presença de coleta de esgoto e água tratada. Dos 400 participantes sem infeção, 10 viviam em locais sem saneamento básico (2,5%). Dos 100 participantes com infecção, 98 viviam em locais sem saneamento básico (98,0%). Valor de p (significância estatística) para comparação = 0,001. Fonte: Silva, 2021. Obs.: dados fictícios. 13 Ao realizarmos um teste estatístico verificamos que essa diferença (2,5% vs. 98,0%) foi estatisticamente significativa, indicando que a falta de saneamento pode ser um fator de risco para a infecção por Vibrio cholerae, e poderíamos inferir esse resultado para os demais moradores dessas regiões da cidade sem saneamento básico. Obs.: informações sobre os testes estatísticos serão discutidas nas aulas posteriores. NA PRÁTICA A estatística descritiva e a inferencial são duas ferramentas que se complementam. Ao lermos ou realizarmos estudos científicos nos depararemos com a utilização dessas duas formas de análise de dados. É possível que em algum momento de sua vida você se depare com um estudo que apenas apresenta dados descritivos, no entanto, estudos utilizando a análise inferencial devem sempre ser precedidos pela análise descritiva. Veja um exemplo a seguir de uma tabela contendo a utilização de ambas as análises descritivas e inferenciais. Figura 7 – Exemplo da utilização da estatística descritiva e inferencial na apresentação de resultados de pesquisas científicas Fonte: Silva et al., 2020. 14 Nessa tabela, os autores da pesquisa utilizam a estatística descritiva para descrever a prevalência (%) de ocorrência de diversos comportamentos (atividade física, consumo de cigarro etc.) em adolescentes da cidade de Curitiba (PR) para todos os adolescentes (total) e para cada sexo (meninos e meninas). Adicionalmente, eles utilizam a estatística inferencial visando testar a hipótese de diferenças nessas prevalências entre os sexos utilizando um teste estatístico conhecido como qui-quadrado e indicando o p-valor que dá suporte à rejeição ou não da hipótese nula dessa comparação. FINALIZANDO Nesta aula sobre introdução à bioestatística, foi possível discutirmos sobre conceitos básicos da bioestatística, destacando aspectos importantes do planejamento de pesquisas científicas e da organização e montagem de bancos de dados. Avançamos o conhecimento sobre a estatística ao entender o processo de formulação de hipóteses e os erros inerentes a ele, além de conhecer as divisões da estatística (descritiva e inferencial) e como elas podem ser aplicadas em estudos científicos. 15 REFERÊNCIAS BARROS, M. V. G. et al. Análise de dados em saúde. 3. ed. Londrina, PR: Midiograf, 2012. HEUMANN, C.; SCHOMAKER, M.; SHALABH. Introduction to Statistics and Data Analysis. Cham: Springer International Publishing, 2016. KIRKWOOD, B. R.; STERNE, J. A. C. Essentials of medical statistics. 2nd. ed. London: Blackwell Scientific Publications, 2003. KOTHARI, C. R. Research Methodology: methods and techniques. 2nd. ed. New Delhi: New Age International Limited Publisher, 2004. LIRANI, L. da S.; OSIECKI, A. C. V. Bioestatística. 1. ed. Curitiba: Intersaberes, 2020. SELVAMUTHU, D.; DAS, D. Introduction to statistical methods, design of experiments and statistical quality control. 1. ed. Singapore: Springer, 2018. SILVA, M. P. et al. Association between physical activity practice and clustering of health risk behaviors in adolescents. Revista Paulista de Pediatria, v. 38, 2020. THOMAS, J. R.; NELSON, J. K.; SILVERMAN, S. J. Métodos de pesquisa em atividade física. 6. ed. Porto Alegre: 2012. VIEIRA, S.; HOSSNE, W. S. Metodologia científica para a área da saúde. 2. ed. Rio de Janeiro, RJ: Guanabara Koogan, 2020.