Prévia do material em texto
UNIVERSIDADE FEDERAL DO PARÁ FACULDADE DE MEDICINA E CIRURGIA DO PARÁ DISCIPLINA DE FORMAÇÃO CIENTÍFICA VII APOSTILA FORMAÇÃO CIENTÍFICA VII E VIII: COMPREENSÃO E DESENVOLVIMENTO BÁSICO DE BANCO DE DADOS E SUAS ANÁLISES Karoline Moraes Guedes Maria Eduarda Dias Barbosa Orientação: Drª Rosana Feio Libonati Belém 2024 SUMÁRIO RELEMBRANDO CONCEITOS IMPORTANTES 3 PERGUNTA DE PESQUISA 3 TIPO DE ESTUDO 3 VARIÁVEIS DE INTERESSE 5 ESTATÍSTICA ANALÍTICA 6 TESTES 7 NORMALIDADE E TESTES PARAMÉTRICOS 7 TESTES DE HIPÓTESES 7 REVISÃO DE BANCO DE DADOS 8 TABELA DE FREQUÊNCIA - BIOESTAT 12 COMBINAÇÃO DE VARIÁVEIS 14 VARIÁVEL INDEPENDENTE: QUALITATIVA NOMINAL 14 1 - Qualitativa nominal e qualitativa nominal 14 2 - Qualitativa nominal e qualitativa ordinal 19 3 - Qualitativa nominal e quantitativa (com distribuição normal ou não) 21 VARIÁVEL INDEPENDENTE: QUALITATIVA ORDINAL 28 1 - Qualitativa ordinal com qualitativa nominal 28 2 - Qualitativa ordinal com qualitativa ordinal 33 3 - Qualitativa ordinal com quantitativa (com distribuição normal ou não) 35 TABELAS E GRÁFICOS 36 GRÁFICOS 36 Gráfico Box-Plot 36 Gráfico de Setor 38 Gráfico de Linha (curva) 39 COLUNA 41 Simples 41 Justapostas 42 Superpostas 43 DIAGRAMAS 44 Diagrama de dispersão 44 Diagrama pontual 45 Histograma/polígono de frequência 45 REFERÊNCIAS 47 3 RELEMBRANDO CONCEITOS IMPORTANTES A bioestatística é a aplicação das ferramentas estatísticas em problemas relacionados às ciências da vida e da saúde, como medicina, biologia, etc. Uma população é a totalidade de elementos que compõem um determinado conjunto, enquanto a amostra é o subconjunto dos elementos que compõem a população. PERGUNTA DE PESQUISA Uma pergunta de pesquisa é a declaração de uma indagação específica que o pesquisador deseja responder para abordar o problema de pesquisa. Ela deve orientar os dados a serem coletados e o tipo de estudo a ser desenvolvido. Deve conter os participantes (situação clínica), as intervenções (comparações feitas entre os grupos), os desfechos clínicos de interesse (variáveis estudadas) e o tipo de estudo em questão. A Prática Baseada em Evidências (PBE) propõe a elaboração da pergunta de pesquisa através da organização via estratégia PICO (Paciente, Intervenção, Comparação e Outcomes ou desfecho). Esses 4 elementos são fundamentais para a elaboração da pergunta norteadora e sua utilização para a busca bibliográfica de literatura e evidências. TIPO DE ESTUDO Podemos dividir os estudos clínicos em 5 tipos diferentes, abordando quatro diretrizes principais: diagnóstico, tratamento, prognóstico ou prevenção. ● Relatos de caso: são descrições detalhadas de um ou alguns casos clínicos, apresentando evento clínico raro ou nova intervenção. ● Série de casos: estudos em geral com mais de dez pacientes, podendo ser retrospectivos ou prospectivos. Por não terem grupo de comparação, podem gerar conclusões errôneas. ● Estudo ecológico: é um tipo de estudo descritivo observacional útil para gerar hipóteses. Aqui as unidades de análise são grupos de pessoas ao invés de indivíduos. Os estudos ecológicos também podem ser feitos comparando populações em diferentes lugares ao mesmo tempo ou a mesma população em diferentes tempos, como é o caso de uma série temporal. Entretanto, apesar de fáceis de realizar, são de difícil 4 interpretação; raramente é possível encontrar explicações para os dados obtidos pois a relação entre exposição e efeito a nível indivudual não é possível com a unidade de análise sendo um grupo populacional. ● Estudo de caso-controle: estudo onde dois grupos semelhantes são selecionados a partir de uma população em risco. A diferença entre os grupos é a presença ou ausência de doença. Estudo retrospectivo, onde o pesquisador busca localizar os fatores de risco a que essa amostra com a doença foi exposta anteriormente. Indicado para a identificação de fatores de risco. ● Estudo coorte: estudo longitudinal, prospectivo e observacional, onde um grupo definido de pessoas é acompanhado durante um período de tempo, e os desfechos são comparados a partir da exposição ou não a uma intervenção ou a outro fator de interesse. Desenho de estudo mais adequado para descrição de incidência e história natural de uma doença. ● Estudo clínico controlado: Nesse tipo de estudo o pesquisador planeja e intervém ativamente nos fatores que influenciam a amostra minimizando assim a influência dos fatores de confusão. A alocação pode ser feita de forma aleatória (randomizada) ou não. Estudos controlados não randomizados perdem a qualidade em evidência científica pois na maioria das vezes os grupos não são homogêneos e os resultados podem ser enviesados. Outro ponto importante para o controle de vieses é o mascaramento, o qual garante que determinadas partes do estudo não saibam a que grupo (intervenção ou controle) os participantes são. Existem alguns tipos de mascaramento: ➔ Mascaramento simples: apenas os participantes não sabem se estão recebendo a intervenção ou o placebo. Muito utilizado quando o viés por parte do participante pode influenciar muito nas respostas aos tratamento, como na percepção de dor ou resultados de tratamentos. ➔ Mascaramento duplo: os participantes e os pesquisadores não sabem qual grupo recebe a intervenção e qual recebe o placebo. É o mascaramento mais utilizado. ➔ Mascaramento triplo: os participantes, pesquisadores e também os responsáveis pelas análises não sabem a qual grupo cada indivíduo pertence. Busca evitar vieses na análise estatística dos dados. 5 Existe também a ensaios randomizados sem cegamento e é considerado um estudo aberto. Nesse caso, tanto os pacientes como a equipe sabem a qual grupo o participante pertence. É um estudo que está mais suscetível a vieses e geralmente é utilizado quando a ética ou a logística impede o mascaramento, um exemplo são cirurgias. Por fim, além desses estudos, existem as revisões sistemáticas da literatura, as quais são estudos secundários, que reúnem de forma organizada resultados de pesquisas clínicas de boa qualidade, podendo ou não ser acompanhadas de metanálise (método estatístico somatório dos resultados de dois ou mais estudos primários). VARIÁVEIS DE INTERESSE Variáveis constituem elementos de uma população - condições ou características que podem ser observadas, contadas ou medidas. As variáveis podem ser classificadas em dois tipos: ● Qualitativas - quando os dados são distribuídos em categorias. 1. Qualitativa nominal: não existe ordenação entre as categorias. Exemplo: sexo, religião, cor dos olhos, doente/sadio, etc. 2. Qualitativa ordinal: existe ordenação entre as categorias. Exemplo: estágio da doença (inicial, intermediário, terminal), mês de observação (janeiro, fevereiro, etc), escolaridade (1º, 2º, 3º grau completo). ● Quantitativas - quando os dados são expressos por números, ou seja, podem ser medidos em escala de quantidade. 1. Quantitativa discreta: quando representa uma contagem assumindo valores inteiros. Exemplo: número de filhos, número de bactérias por litro de leite, número de cigarros fumados por dia, etc. 2. Quantitativa contínua: quando representa uma medição, podendo assumir valores fracionários. Normalmente, podem ser medidas através de algum instrumento. Exemplo: peso, altura, tempo, pressão arterial, idade, etc. 6 Atenção: Apesar de não indicado, uma variável originalmente quantitativa, dependendo da pesquisa, pode ser coletada de forma qualitativa. Por exemplo: a variável idade, medida em anos completos, é quantitativa (contínua); mas, se for informada apenas a faixa etária (0 a 5 anos, 6 a 10 anos, etc...), é qualitativa (ordinal). Além disso, nem sempre uma variável representada por números é quantitativa. Por vezes, se usa denúmeros para classificar uma variável qualitativa (como sexo, dividindo em 1 = masculino e 2 = feminino), especialmente para utilização dos dados em programas (o BioEstat, por exemplo, não aceita dados escritos em palavras). Isso não torna a variável quantitativa. ESTATÍSTICA ANALÍTICA É dividida em duas partes: descritiva e inferencial. A descritiva representa um conjunto de métodos que descreve os dados coletados e assim, faz com que sejam melhor compreendidos, para isso pode-se usar tabelas, gráficos e medidas que resumem os dados. Já a estatística inferencial é um conjunto de métodos que nos permitem tirar conclusões sobre a população com base em uma amostra. Para observar relações ou diferenças entre dois grupos é preciso identificar estas duas variáveis como independente e a outra como dependente. Fonte 1 - (Alves, 2021) 7 TESTES Para definir qual teste estatístico deve ser usado é preciso caracterizar as variáveis. A variável independente (X) representa a que causa o efeito e a variável dependente (Y), sofre o efeito. A independente também é conhecida como explicativa, ou preditora, e a dependente é conhecida como variável resposta. NORMALIDADE E TESTES PARAMÉTRICOS Em uma distribuição normal (ou Gaussiana) os valores da variável posicionam-se principalmente no meio e os demais valores distribuem-se de forma simétrica em volta desse valor central. A análise de distribuição de uma amostra é muito importante, afinal, a escolha de análises estatísticas inferenciais depende da distribuição. Assim, em uma análise estatística dita paramétrica, existe o pré-requisito de um conjunto de dados com distribuição normal. Caso não a normalidade não aconteça, recomenda-se o uso de análises não-paramétricas, pois estas não têm a normalidade como pré-requisito. Para casa análise paramétrica há uma não paramétrica equivalente. TESTES DE HIPÓTESES ● Hipótese nula: na população, não há diferença estatística entre os dois grupos. ● Hipótese alternativa: na população, existe diferença estatística entre os dois grupos ● Valor-P: definido como a probabilidade de se observar um valor da estatística de teste maior ou igual ao encontrado. Podemos pensar, caso a hipótese nula seja verdadeira, isto é, se não houver diferença entre os dois grupos na população, qual a chance de obter esse resultado, em uma amostra, somente pelo acaso? 8 REVISÃO DE BANCO DE DADOS O primeiro passo ao trabalhar com a planilha de dados será fazer uma vistoria geral para verificar se há algum erro. Após isso, verificar o formato em que a planilha está salva. É importante que ela seja salva no formato .xlsx pois só assim ela poderá ser aberta no JAMOVI. No JAMOVI, clicar no canto superior direito da tela, e abrir a planilha que foi salva nos documentos do computador. 9 Com a planilha aberta no JAMOVI, a primeira coisa a se fazer é verificar se as variáveis estão classificadas corretamente. Caso não estejam, é essencial que mudemos pois somente assim podemos fazer os testes adequados a elas. No exemplo abaixo, a variável “idade” está como variável nominal, mas sabemos que idade é uma variável quantitativa, por isso deve ser alterada, clicando 2 vezes em cima da variável. No Jamovi, as variáveis quantitativas, sejam discretas ou contínuas, são alocadas como contínuas (sinal da régua). 10 Com variáveis ordinais, sempre é importante lembrar que os níveis devem estar ordenados em ordem crescente de cima para baixo. Essa mudança deve ser feita por meio das setas e nunca mudando o nome de cada nível, somente seu lugar. Sendo determinadas as variáveis, podemos realizar, portanto, o desenvolvimento de uma estatística descritiva de frequência no JAMOVI. No JAMOVI, devemos abrir a aba de Exploração, onde teremos a opção de realizar a estatística descritiva: Feito isso, devemos agora delimitar a normalidade do dado a ser avaliado, para dessa 11 maneira determinar que fator se utilizará para realizar a análise de frequência. Para esta análise, utilizaremos as variáveis Idade e IMC. Para a adequada análise, realiza-se o teste de Shapiro Wilk para avaliação da normalidade dos dados: Desse modo, podemos concluir que: 1) A idade possui distribuição normal, já que o valor de p foi p > 0.05. Desse modo, para analisar a frequência dessa variável, se usa média e desvio padrão. 12 2) O IMC não possui distribuição normal, já que o valor de p foi pe coloque as contagens esperadas. Nestas variáveis apresentadas, a frequência esperada possui valores menores que 5, significando ser uma amostra muito pequena. Nesse caso, o melhor teste a ser aplicado é o teste Exato de Fisher. 17 3) O teste de hipóteses para o teste Exato de Fisher é: Hipótese Nula (H₀) - p > 0.05: Não há associação entre as duas variáveis categóricas. Em outras palavras, as proporções observadas nas categorias são iguais às esperadas por acaso. Hipótese Alternativa (H₁) - p 0,05: Não há associação entre as duas variáveis categóricas. As proporções observadas nas categorias são iguais às esperadas por acaso. Hipótese Alternativa (H₁) - p 0,05: Não há diferença significativa entre as distribuições das duas amostras independentes. As medianas das amostras são iguais. ● Hipótese Alternativa (H₁) - p 0,05: Não há diferença significativa entre as médias das duas amostras independentes. As médias das amostras são iguais. Hipótese Alternativa (H₁) - pprocede-se para testar a homogeneidade de variâncias pelo teste de Levene. 4) Como no teste de Levene o valor de p foi 0,037, há evidências para rejeitar a hipótese de homogeneidade de variâncias, indicando que as variâncias entre os grupos são diferentes. Nesse caso, aplica-se o teste t de Welch, que é mais adequado quando as variâncias não são homogêneas. 26 5) O teste de hipóteses para o Teste t de Welch é: Hipótese Nula (H₀) - p > 0,05: Não há diferença significativa entre as médias das duas amostras independentes. As médias das amostras são iguais. Hipótese Alternativa (H₁) - p 0,05: Não há diferença significativa entre as distribuições das duas amostras independentes. As medianas das amostras são iguais. Hipótese Alternativa (H₁) - pcom média e desvio padrão. Aqui representamos com a variável “Escore”. 38 Gráfico de Setor Utilizado com variáveis qualitativas, com o objetivo de comparar várias parcelas com o total. Utiliza-se de um círculo em setores, cada um correspondendo de modo proporcional às categorias da variável. No BioEstat, para gerar esse tipo de gráfico, colocamos os dados necessários e selecionamos a opção de Setor. 39 Na janela do gráfico, podemos abrir as configurações e selecionar se desejamos valores absolutos ou percentuais, além de alterar cores, fontes, destaque de elementos específicos, entre outros. Gráfico de Linha (curva) Normalmente utilizamos este gráfico para representar uma série histórica (temporal). Um exemplo a ser utilizado é o de quantidade de casos de malária ao longo dos anos. Na área de gráficos, clicamos em Linha (Curva) para gerar a distribuição. 40 Como trata-se de um gráfico com colunas que formam pares ordenados, marcamos ‘sim’ diante dessa pergunta. 41 COLUNA Servem para comparar escores de diferentes categorias usando retângulos da mesma largura, com alturas proporcionais aos valores representados. Os dados podem ser de escalas nominal, ordinal ou numérica discreta. O BioEstat disponibiliza modelos de colunas simples (destacar uma única variável), justapostas (comparações diretas) e superpostas (mostrar a relação entre diferentes categorias empilhando os valores, facilitando a visualização de partes de um todo). Simples Destacam uma única variável, organizando os dados em uma série vertical, ideal para apresentar informações isoladas. Para gerar, acessamos o BioEstat, selecionando em ‘Gráficos’ a opção de Colunas Simples. 42 É possível gerar este tipo de coluna também no Jamovi. Para isso, baixa-se o módulo de Survey Plots. Em exploração, selecionamos esta opção e em seguida a variável que se deseja retratar. Justapostas Permitem comparações diretas entre diferentes categorias, colocando-as lado a lado para facilitar a análise comparativa. No BioEstat, podemos gerar esse gráfico através da opção direta de “Colunas Justapostas”, localizada na lista de gráficos disponíveis. 43 Superpostas Esses gráficos mostram a relação entre diferentes categorias empilhando os valores e facilitando a visualização de partes que formam um todo. Podemos gerar este tipo de gráfico tanto no Jamovi, na opção de Survey Plots, quanto no BioEstat, pela opção de Colunas Superpostas. 44 DIAGRAMAS Diagrama de dispersão É um gráfico utilizado para duas variáveis mensuradas de maneira simultânea (X e Y), como é feito nos testes de correlação e regressão. Faremos o exemplo no Jamovi, utilizando IMC e Idade. Além disso, no Jamovi, podemos separar por grupos, como no exemplo por “sexo”. . 45 Diagrama pontual Esse tipo de diagrama é utilizado para visualizar duas ou mais amostras, sendo o limite 7 amostras. O exemplo abaixo mostra a parasitemia, separada entre sexo masculino e feminino, o diagrama pontual permite a fácil comparação de amostras do mesmo tipo de variável. Histograma/polígono de frequência O gráfico tipo histograma já foi apresentado aqui quando feita a tabela de frequência da idade. Pode ser feito no Jamovi, mas recomendamos no Bioestat por todas as informações fornecidas da amostra. 46 47 REFERÊNCIAS 1. Alves, A. (2021). Estatística Aplicada: Análise de Dados (Volume I - Análises). 180p.: Aprender Estatística Fácil. 2. ANVISA. (2019). Diretrizes para a condução de ensaios clínicos. Agência Nacional de Vigilância Sanitária. 3. Ayres, M., Ayres, D.L, Ayres, M. J. & Santos, A. S. (2007). BioEstat 5.0: Aplicações Estatísticas nas Áreas das Ciências Biomédicas. Belém: Sociedade Civil Mamirauá. 4. Beiguelman, B. 1996. Curso de Bioestatística Básica. 4ed. Ribeirão Preto: Sociedade Brasileira de Genética. 5. Bonita, R., Beaglehole, R., & Kjellström, T. (2010). Epidemiologia básica (2ª ed.). Organização Mundial da Saúde. 6. Ferreira, J. C., & Patino, C. M. (2015). O que realmente significa o valor-p? Jornal Brasileiro de Pneumologia, 41(5):485-485. 7. Oliveira, D. A. (2011). Práticas clínicas baseadas em evidências. Especialização em saúde de família. UNA-SUS: UNIFESP. 8. Santos, C. M. da C., Pimenta, C. A. de M., & Nobre, M. R. C.. (2007). The PICO strategy for the research question construction and evidence search. Revista Latino-americana De Enfermagem, 15(3), 508–511. 9. Santos, M. P. & Costa Neto, S. B. (2019). Metodologia de Ensaios Clínicos: Conceitos e Diretrizes para a Pesquisa Clínica. Editora Atheneu. 10. The jamovi project (2024). jamovi (Version 2.5) [Computer Software]. Retrieved from https://www.jamovi.org RELEMBRANDO CONCEITOS IMPORTANTES PERGUNTA DE PESQUISA TIPO DE ESTUDO VARIÁVEIS DE INTERESSE ESTATÍSTICA ANALÍTICA TESTES NORMALIDADE E TESTES PARAMÉTRICOS TESTES DE HIPÓTESES REVISÃO DE BANCO DE DADOS TABELA DE FREQUÊNCIA - BIOESTAT COMBINAÇÃO DE VARIÁVEIS VARIÁVEL INDEPENDENTE: QUALITATIVA NOMINAL 1 - Qualitativa nominal e qualitativa nominal 2 - Qualitativa nominal e qualitativa ordinal 3 - Qualitativa nominal e quantitativa (com distribuição normal ou não) VARIÁVEL INDEPENDENTE: QUALITATIVA ORDINAL 1 - Qualitativa ordinal com qualitativa nominal 2 - Qualitativa ordinal com qualitativa ordinal 3 - Qualitativa ordinal com quantitativa (com distribuição normal ou não) TABELAS E GRÁFICOS GRÁFICOS Gráfico Box-Plot Gráfico de Setor Gráfico de Linha (curva) COLUNA Simples Justapostas Superpostas DIAGRAMAS Diagrama de dispersão Diagrama pontual Histograma/polígono de frequência REFERÊNCIAS