Prévia do material em texto
Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 1 Universidade Federal de Mato Grosso do Sul Instituto Integrado de Saúde - Inisa Profa. Dra. Elenir Rose Jardim Cury Texto de apoio Nome do aluno: __________________________________________ Agosto, 2020 Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 2 ÍNDICE Bloco I Métodos empregados em Epidemiologia 3 Estudo de casos 3 Pesquisa populacional 4 Objetivo do estudo 4 Tipo de estudo epidemiológico 5 Informações adicionais 10 Exercícios 12 Bloco II População / Amostra / Amostragem População 16 Amostra 16 Amostragem 16 Técnicas de amostragem probabilísticas 16 Técnicas de amostragem não probabilísticas 18 Exercícios do bloco I e II 19 Bloco III Análise exploratória de dados 23 Variáveis 23 Exercícios 24 Análise univariada 24 Medidas de posição central 24 Medidas de dispersão 26 Intervalo de confiança 27 Exercícios 30 Tabelas, quadros e gráficos 32 Análise bivariada 34 Testes estatísticos 34 Escolha / Hipóteses 34 Tipos 35 Relação entre duas variáveis categóricas 36 Relação entre variável quantitativa (intervalar) e categórica 38 Relação entre variáveis quantitativa (tendência central e dispersão) e categórica 38 Relação entre duas variáveis quantitativas 40 Análise multivariada 41 Testes diagnósticos 42 Exercício 44 Bibliografia 45 Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 3 Bloco I - MÉTODOS EMPREGADOS EM EPIDEMIOLOGIA Dois enfoques para pesquisar um tema: Enfoques Tipo de estudo Unidade de observação Análise Individual Estudo de casos Indivíduo Medidas individuais Coletivo Pesquisa populacional Estudo ecológico Indivíduo Grupo de indivíduos Medidas individuais Medidas agrupadas 1 Estudo de casos • Observação de um ou poucos indivíduos com uma mesma doença ou evento e, para a partir da descrição dos respectivos casos, traçar um perfil das suas principais características. • É um enfoque qualitativo e exploratório, embora muitas facetas possam ser quantificadas. Exemplo Schellini, Silvana Artioli et al. Canaliculites: apresentação de série de casos atendidos na Faculdade de Medicina de Botucatu-UNESP - com ênfase no tratamento realizado. Rev. bras.oftalmol., Dez 2011, vol.70, no.6, p.400-403. A canaliculite é uma afecção rara da via lacrimal. Os autores apresentam uma série de cinco casos tratados na Faculdade de Medicina de Botucatu-UNESP, comentam os achados à luz da literatura pertinente e tecem considerações sobre o tratamento efetuado, ressaltando que a canaliculotomia pode ter bons resultados mesmo que o canalículo não receba suturas ou moldes. Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 4 2 Pesquisa populacional 2.1 Qual o objetivo do estudo ? Descritivo: Informam sobre a distribuição de um evento, em termos quantitativos, na população. Analítico: subordinação a uma ou mais questões científicas. Busca por fatores associados com o aparecimento das doenças. • Hipóteses: exposição – doença (efeito) Obesidade Diabetes Fumo Câncer Toxoplasmose Anomalia Congênita Vacina Prevenção Medicamento Cura Figura 1 – Modelo com ilustrações da relação investigada em estudos epidemiológicos analíticos Tabela padrão Exposição ao fator Doença Total Sim Não Sim a b a + b Não c d c + d Total a + c b + d N a = número de indivíduos expostos e doentes b = número de indivíduos expostos e sadios c = número de indivíduos não-expostos e doentes d = número de indivíduos não-expostos e sadios N = número total de pessoas (a + b + c + d) Exposição Doença (o efeito) conhecer a freqüência de algum evento ou doença. Exemplo: identificar a prevalência de Hepatite B entre os cirurgiões-dentistas. responder a um questionamento científico. Exemplo: quais são os fatores de risco associados à ocorrência de Hepatite B em cirurgiões-dentistas, será que há maior prevalência de casos dentre os profissionais que têm maior contato com sangue? ou Sem grupo controle Descritivo Com grupo controle Analítico Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 5 2.2 Tipo de estudo epidemiológico O tipo de estudo varia conforme são estudadas a exposição e a doença. Tipo Exposição X Doença Características principais Transversal ou seccional Ao mesmo tempo Descritivo ou analítico Os dados podem ser do passado, presente ou futuro, mas serão observados apenas uma vez (como se fosse uma fotografia) Estimam prevalência (casos existentes – medida estática). Exceção: quando houver certeza que se trata da ocorrência do primeiro episódio da doença, estima-se a incidência, como por exemplo, no casos de doenças infecciosas que conferem imunidade ou de notificação compulsória. Caso-controle Já conhece o efeito, busca a exposição Analítico Há pareamento entre casos e controles Retrospectivos: há a utilização de dados do passado sobre o evento a ser estudado. Coorte Conhece a exposição, espera pelo efeito Analítico Há pareamento entre expostos e não expostos Os elementos são analisados em mais de uma ocasião (como se fosse um filme) Prospectivos: há a conotação de “seguimento”, do presente ao futuro (exceção: coorte retrospectivo, também há seguimento, só que do passado para o presente) Estimam incidência (casos novos - medida dinâmica) Investigação de situações que ocorrem naturalmente Experimental Provoca a exposição, espera pelo efeito Analítico Os elementos são analisados em mais de uma ocasião (como se fosse um filme) Prospectivos há a conotação de “seguimento”, do presente ao futuro Estimam incidência Há intervenção do pesquisador Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 6 2.2.1 Estudo transversal ou seccional 2.2.1.1 Descritivo • = investigações epidemiológicas. • Informam sobre a distribuição de um evento, em termos quantitativos, na população. • Traçar perfil de um tema, através da determinação de freqüências (tabelas e gráficos) Exemplos: 1) Prevalência de hepatite B entre os voluntários a doação de sangue. 2) Características demográficas e socioeconômicas de pessoas que fumam. 3) Tendência do coeficiente de mortalidade por tuberculose, de uma cidade, nos últimos anos. 2.2.1.2 Analítico • Há uma dúvida, um questionamento científico • “exposição” e “efeito” são detectados simultaneamente. • Exemplo: associação entre migração e doença mental. Migração Doença mental Total Sim Não No. % No. % No. % Migrante 18 6,0 282 94,0 300 30,0 Não-migrante 21 3,0 679 97,0 700 70,0 Total 39 3,9 961 96,1 1.000 100,0 RP = razão de prevalências = 6/3 = 2 Intervalo de confiança 95% para a RP: 1,08 – 3,70 (realmente é mais prevalente nos migrantes, pois o intervalo de confiança para a RP não inclui o “1”, isto é, o limite inferior 1,08 é > que 1) Interpretação: a prevalência de doença mental é duas vezes maior entre os migrantes em relação aos não-migrantes. Como no exemplo é um estudo transversal ou seccional, seguindo a tabela padrão da epidemiologia que na 1a. coluna tem a exposição e nas seguintes o desfecho (doença ou resultado), a porcentagem é feita por linha (dá 100%→ 6,0% + 94,0% e 3,0% + 97,0%). Raciocínio errado: de 39 pessoas com doença mental, 18 (46,2%) eram migrantes e 21 (53,8%) eram não-migrantes. Raciocínio certo:de 300 migrantes, 18 (6,0%) tinham doença mental e de 700 não- migrantes, 21 (3,0%) tinham doença mental. Se 18 está para 300, quanto está para 100% ? R.: 1800/300 = 6,0 e assim por diante ..... Prevalência nos expostos RP = Prevalência nos não expostos Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 7 2.2.2 Coorte (analítico) • Parte das “exposições” para chegar ao “efeito” • Sem intervenção do pesquisador, que só observa. • Exemplo: associação entre exercício físico e coronariopatia. Atividade física Óbitos Total Sim Não No. % No. % No. % Sedentário 400 8,0 4.600 92,0 5.000 71,4 Não-sedentário 80 4,0 1.920 96,0 2.000 28,6 Total 480 6,9 6.520 93,1 7.000 100,0 RR = risco relativo = 8/4 = 2 Intervalo de confiança 95% para a RR: 1,58 – 2,53 (intervalo não inclui o 1, isto é, 1,58 que é o limite inferior > 1). Interpretação: o risco de ocorrer óbito por coronariopatia é duas vezes maior entre os sedentários em relação aos não-sedentários. Obs. 1: é a mesma fórmula da razão de prevalência, no entanto, usa taxas de incidência. Obs. 2: As porcentagens também são por linha (8,0 + 92,0 e 4,0 + 96,0), seguindo a tabela padrão da epidemiologia que na 1a. coluna tem a exposição e nas seguintes o desfecho (doença ou resultado). Raciocínio errado: de 480 óbitos por coronariopatia, 400 (83,3%) eram sedentários e 80 (16,7%) eram não sedentários. Raciocínio certo: de 5.000 sedentários, 400 (8,0%) morreram por coronariopatia e de 2.000 não sedentários, 80 (4,0%) morreram por coronariopatia. 2.2.3 Estudo experimental (analítico) • Parte das “exposições” para chegar ao “efeito” • Com intervenção do pesquisador. • Em muitos casos, tem que ser realizado, primeiramente, em animais. • Vários tipos: por exemplo o Ensaio clínico randomizado duplo cego. • Exemplo: comparação do efeito de uma vacina e um placebo. Se 400 está para 5.000, quanto está para 100 ? R.: 40.000/5.000 = 8 e assim por diante ..... Incidência nos expostos RR = Incidência nos não expostos Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 8 Grupos Doença Total Sim Não No. % No. % No. % Vacinados 20 2,0 980 98,0 1.000 50,0 Não-vacinados 100 10,0 900 90,0 1.000 50,0 Total 120 6,0 1.880 94,0 2.000 100,0 RR = risco relativo = 2/10 = 0,2 (quando é menor do que 1, quer dizer que o fator é de proteção, isto é, ser vacinado protege); Intervalo de confiança 95% para a RR: 0,1 – 0,3 (intervalo não inclui o 1). Interpretação: o grupo vacinado apresenta um risco relativo de contrair doença de 0,2 em relação ao controle. Eficácia da vacina = (1- RR) X 100 = (1 – 0,2) X 100 = 0,8 X 100 = 80% Obs. 1: usa RR como no estudo de coorte. Obs. 2: As porcentagens também são por linha (2,0 + 98,0 e 10,0 + 90,0), seguindo a tabela padrão da epidemiologia que na 1a. coluna tem a exposição e nas seguintes o desfecho (doença ou resultado). Raciocínio errado: de 120 doentes, 20 (16,7%) eram vacinados e 100 (83,3%) eram não vacinados. Raciocínio certo: de 1.000 vacinados, 20 (2,0%) eram doentes e de 1.000 não vacinados, 100 (10,0%) eram doentes. 2.2.4 Estudo caso-controle (analítico) • Parte do “efeito” para chegar às “exposições” • Exemplo: associação entre toxoplasmose e debilidade mental. Sorologia positiva para toxoplasmose Doença mental Sim (casos) Não (controles) No. % No. % Sim 45 15,0 15 5,0 Não 255 85,0 285 95,0 OR = odds ratio = razão de produtos cruzados (mede a razão entre o produto das caselas concordantes com o produto das caselas discordantes)= (45 x 285) / (15 X 255) = 3,35 Se 20 está para 1.000, quanto está para 100 ? R.: 2.000/1.000 = 2 e assim por diante ..... Incidência nos expostos RR = Incidência nos não expostos Esperado OR = Inesperado Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 9 Intervalo de confiança 95% para a OR: 1,76 – 6,46 (intervalo não inclui o 1). Interpretação: a chance de ocorrência de doença mental é três vezes maior entre as crianças de mães com sorologia positiva para toxoplasmose em relação às com sorologia negativa. Obs.: As porcentagens são por coluna (15,0 + 85,0 e 5,0 + 95,0), seguindo a tabela padrão da epidemiologia que na 1a. coluna tem a exposição e nas seguintes o desfecho (doença ou resultado). Não é necessário incluir uma linha ou coluna de total. Raciocínio errado: de 60 com sorologia positiva, 45 (75,0%) eram casos e de 540 com sorologia negativa, 255 (47,2%) eram casos. Raciocínio certo: de 300 casos, 45 (15,0%) tinham sorologia positiva e de 300 controles, 15 (5%) tinham sorologia positiva. Cuidado com as denominações: • Risco – grau de probabilidade de ocorrência de um determinado evento • Probabilidade – compara o número de casos favoráveis com o de casos possíveis Sair cara ½ Sair 6 no dado 1/6 • Chance – compara o número de casos favoráveis com o de casos desfavoráveis Sair cara 1/1 Sair 6 no dado 1/5 2.2.5 Estudos ecológicos • A unidade de observação é um grupo de indivíduos ou população, que geralmente pertence a uma área geográfica definida, como por exemplo, um país, um estado, um município ou um setor censitário. Todas as variáveis são medidas agrupadas. • Pode-se saber quantas pessoas foram expostas dentro de cada grupo e quantas apresentavam o efeito, mas não quantas das expostas o apresentavam. • Exemplos: a) relação entre a venda de álcool líquido 96o e a incidência de queimaduras graves, em diversos países. b) relação entre a venda de bebidas alcoólicas e incidência de acidentes de trânsito nas regiões brasileiras. Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 10 Informações adicionais: 1) Interpretação do Intervalo de confiança para as medidas epidemiológicas: Tipo de estudo por ordem hierárquica Questão central Análise dos dados Experimental Quais são os efeitos da intervenção? Incidência do efeito em expostos x não-expostos Coorte Quais são os efeitos da exposição ao fator de risco? Incidência do efeito em expostos x não-expostos Caso-controle Quais são as causas do agravo à saúde? Proporção de expostos em casos x controles Transversal ou seccional Quais são as freqüências dos eventos? Estão a exposição e a doença associadas ? Prevalência do efeito em expostos x não-expostos ☺ Esta interpretação também se aplica à razão de prevalência e odds ratio. ☺ Toda vez que o intervalo de confiança incluir o 1, há ausência de associação. Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 11 Tipo ALGUMAS técnicas bioestatísticas utilizadas (há uma infinidade de possibilidades, olhar artigos similares ao seu estudo) Caso ou série de casos Tabelas e figuras (quadros, fotografias etc.) Transversal ou seccional Tabelas Razão de prevalência Teste Qui-quadrado ou teste de Fisher Regressão de Poisson ou Cox (modelo de risco proporcional) Caso-controle Tabelas Odds ratio Teste Qui-quadrado ou teste de Fisher Regressão logística Coorte Tabelas e Figuras Risco Relativo Teste Qui-quadrado ou teste de Fisher Regressão de Poisson ou Cox (modelo de risco proporcional) Kaplan-Meier Atuarial (ou tábua de vida) Teste de logrank Experimental Tabelas e figuras Comparação entre médias ou medianas (2 grupos pareados): Teste t pareado, Wilcoxon Comparação entre médias ou medianas (2 grupos não pareados): Teste t, Mann Whitney Comparação entre médias ou medianas (3 ou mais grupospareados): ANOVA com dados repetidos, Friedman Comparação entre médias ou medianas (3 ou mais grupos não pareados): ANOVA, Kruskal Wallis Ecológico Tabelas e gráficos (Séries temporais) Taxas de prevalência e de incidência Regressão linear simples Regressão linear múltipla Análise espacial dos dados (geoprocessamento) Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 12 Exercícios 1) Em um hospital universitário foi feito um estudo para verificar a associação entre o trauma mamilar e variáveis relacionadas ao puerpério. Foram incluídas na investigação, 40 mulheres com trauma mamilar (grupo 1) e 40 sem este trauma (grupo 2). No grupo 1 5 mulheres fizeram preparação prévia do mamilo durante a gestação, e no grupo 2, 33 fizeram a preparação prévia do mamilo. Como pode ser classificado este estudo? Arme uma tabela 2 X 2 e calcule a medida epidemiológica apropriada. 2) Uma investigação realizada em um hospital universitário, observou-se o seguinte: de 100 pacientes submetidos à cirurgia, e que utilizaram cateter central, 43 apresentaram infecção hospitalar, e de 200 pacientes que não utilizaram cateter central pós-cirurgia, 17 apresentaram infecção hospitalar. Os pacientes foram acompanhados pelo período de 50 dias a partir da internação. Como pode ser classificado este estudo? Arme uma tabela 2 X 2 e calcule a medida epidemiológica apropriada. Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 13 3) Uma investigação foi realizada para verificar a eficácia de um complemento nutricional para recém-nascidos (RN) de baixo peso. Foram selecionados 60 recém-nascidos com peso <1.500g e ≤34 semanas de gestação, que foram aleatorizados em dois grupos: G1(leite humano puro) e G2 (leite humano com aditivo nutricional). Após 30 dias de acompanhamento, de 30 RN do G1, 21 tiveram um ganho ponderal de ≥ a 700g/mês e no G2, isto foi observado em 23 RN. Como pode ser classificado este estudo? Arme uma tabela 2 X 2 e calcule a medida epidemiológica apropriada. 4) Foi realizado um levantamento sobre a composição corporal e fatores associados à obesidade, em uma aldeia indígena composta de 256 adultos. De 131 indígenas do sexo feminino, 67 apresentavam circunferência abdominal aumentada, e de 125 indígenas do sexo masculino, 49 apresentavam circunferência abdominal aumentada. Como pode ser classificado este estudo? Arme uma tabela 2 X 2 e calcule a medida epidemiológica apropriada. Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 14 5) O objetivo do presente estudo foi investigar os efeitos do treinamento combinado (TC) sobre os níveis de grelina total em indivíduos obesos de meia-idade. O TC consistiu em treinamento aeróbico (50-85% do VO2pico) e resistência (6-10 RM) realizado três vezes por semana, 60 min por sessão por 24 semanas. Quarenta e dois homens obesos de meia idade (49,32 ± 5,74 anos; índice de massa corporal: 30,88 ± 1,64 kg / m²) foram aleatoriamente designados para um grupo de treinamento combinado (GTC, n = 22) ou um grupo controle (GC, n = 20). No GTC, 4 indivíduos apresentaram diminuição do nível de grelina e no GC, 3 indivíduos apresentaram diminuição do nível de grelina. 6) Foi realizado um estudo a fim de comparar o desenvolvimento neuropsicomotor de recém-nascidos (RN) prematuros, com e sem displasia broncopulmonar, pareados por sexo e idade gestacional. Os recém-nascidos foram acompanhados pelo período de um ano, e observou-se o seguinte: de 20 RN(s) com displasia broncopulmonar, 9 RN(s) apresentaram maior atraso no desenvolvimento neuropsicomotor e no grupo controle, sem displasia broncopulmonar (n=20), apenas 2 RN(s) apresentaram maior atraso no desenvolvimento neuropsicomotor. Como pode ser classificado este estudo? Arme uma tabela 2 X 2 e calcule a medida epidemiológica apropriada. . Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 15 7) Foi realizado um estudo com o objetivo de estimar a prevalência de aumento dos níveis pressóricos em pré-adolescentes e adolescentes e relacionar esses níveis pressóricos com a presença de história familiar de hipertensão. Foram examinados 157 estudantes com idade entre dez e dezenove anos. De 90 adolescentes sem antecedente familiar de hipertensão, 5 apresentaram pressão arterial elevada, e de 67 adolescentes com antecedente familiar, 14 apresentaram pressão arterial elevada. Como pode ser classificado este estudo? Arme uma tabela 2 X 2 e calcule a medida epidemiológica apropriada. 8) Foi realizada uma investigação em um hospital universitário com o objetivo de estudar os fatores associados à ocorrência de retinopatia de prematuridade (ROP). Foram selecionados 40 pré-termos com ROP e 40 sem ROP. Todos os recém-nascidos (RN) com peso de nascimento (PN) de 1.500 gramas e/ou idade gestacional (IG) de 32 semanas. De 40 RN(s) com ROP, 17 foram submetidos à ventilação mecânica e de 40 RN(s) sem ROP, 5 utilizaram ventilação mecânica. Como pode ser classificado este estudo? Arme uma tabela 2 X 2 e calcule a medida epidemiológica apropriada. Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 16 BLOCO II População Amostra 1 População ou universo: no sentido geral, é um conjunto de elementos com pelo menos uma característica comum. Características da escolha da população: a característica comum deve delimitar claramente quais os elementos que pertencem à população e quais os que não pertencem. a escolha da população irá depender da finalidade principal do estudo que se tem em vista. A população pode ser finita ou infinita (toda população que apresenta um número muito grande de elementos) 2 Amostra: é um subconjunto de uma população, necessariamente finito que mantém as características da população. O seu tamanho é habitualmente expresso pela letra n (minúscula). População n1 verdade n2 . . . ni FIGURA 1 – Extração de amostras de uma população. 2.1 Amostragem Pode ser probabilística não-probabilística 2.1.1 Técnicas de amostragem probabilística 2.1.1.1 Amostra casual simples: é composta por elementos retirados ao acaso da população. Então todo elemento da população tem igual probabilidade de ser escolhido para a amostra. Todos os elementos da população devem ser listados e numerados, a fim de se sortear aqueles que farão parte da amostra. Tal sorteio pode ser feito com urnas, com a utilização de tabelas com números aleatórios ou com programas de computação específicos. Exemplo: sorteio de alunos de uma escola. Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 17 Propriedades: Não há repetição de nenhum elemento na amostra sorteada. Isto significa que um dado elemento será sorteado apenas uma vez, não ocorrendo amostras do tipo (F, F) ou (A, B, F, A). A ordem dos elementos na amostra não é considerada. Logo a amostra composta dos elementos (A, B) é igual à amostra compostade elementos (B, A). 2.1.1.2 Amostra sistemática: os elementos são escolhidos não por acaso, mas por um sistema. Exemplo: em um fichário de um hospital, de cada dez fichas clínicas, retira-se a décima. Precaução: o início tem que ser aleatório, então, sorteia-se um prontuário dentre os dez primeiros, e a partir deste primeiro selecionado, aplica-se o sistema estabelecido. 2.1.1.3 Amostra estratificada: é composta por elementos provenientes de todos os estratos da população. Dentro de cada estrato os elementos são bastante homogêneos entre si e os estratos são heterogêneos entre si, em relação à variável de estudo. Exemplo: suponha um levantamento para estimar o número médio de dentes cariados em uma população de escolares de primeiro grau. Lembrando que a distribuição do número de dentes cariados é diferente quando se considera a idade e o sexo das crianças, é recomendável que esta população seja estratificada segundo estas características, antes da aplicação do processo de sorteio da amostra. Pode ser: proporcional e uniforme. Uniforme: amostragem do mesmo número de elementos em cada estrato. Proporcional: depende do tamanho de cada estrato. Razões para estratificar: Deseja-se aumentar a precisão da estimativa global, partindo-se do conhecimento de que a variabilidade da característica estudada é grande. Quanto maior a variabilidade, maior tem que ser o número de elementos amostrados. Deseja-se controlar o efeito de alguma característica na distribuição da variável que está sendo avaliada. O efeito da escolaridade sobre o estado nutricional de crianças menores de cinco anos, pode ser controlado pela composição de uma amostra que contenha os diversos níveis de escolaridade dos chefes de família da população estudada. 2.1.1.4 Amostra por conglomerados: quando a população está dividida em pequenas unidades, as quais reúnem todas as características a serem amostradas, amostraremos várias unidades (conglomerados). Os elementos dentro de um mesmo conglomerado são heterogêneos entre si e os conglomerados são homogêneos entre si, em relação à variável em estudo. Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 18 Exemplo: no exemplo anterior – levantamento de cárie dentária - seriam as escolas de um determinado bairro, os bairros de um determinado distrito sanitário, os distritos sanitários de uma determinada cidade, e cidades num determinado país. 2.1.2 Técnicas de amostragem não-probabilística 2.1.2.1 Amostra de conveniência: seleção de um determinado grupo de estudo, quando o objetivo é descrever as características principais do mesmo, não sendo possível generalizar conclusões. Exemplos: pessoas voluntárias em participar de determinada pesquisa, usuários de determinada unidade de saúde, pacientes de determinado hospital, respondentes a um questionário de revista ou qualquer outro meio de comunicação etc. 2.1.2.2 Amostra por julgamento: os elementos são selecionados segundo critérios de inclusão/exclusão estabelecidos pelo pesquisador, de modo a formar um grupo representativo da população que se deseja estudar. Exemplo: num estudo de caso-controle, a seleção de mulheres de 14 a 44 anos de idade com artrite reumatóide como casos, e como controles, mulheres da mesma faixa etária, sem a doença em questão. 2.1.2.3 Amostra por cotas: neste tipo de amostragem o tamanho da amostra é pré- determinado por cálculo amostral, no entanto, os elementos da pesquisa não são selecionados através de sorteio, mas pela disponibilidade no momento da pesquisa. São formados diversos estratos, geralmente baseados em características como sexo, idade, classe social etc. A cota de elementos geralmente é proporcional ao tamanho do estrato. Uma vantagem neste tipo de amostragem é que sempre pode entrevistar outra pessoa, em caso de recusa, e também não há o problema de não achar um determinado elemento amostral selecionado, como acontece nas amostras probabilísticas. No entanto, há limitação na credibilidade dos resultados, pois não é possível avaliar os vieses de seleção e de não-resposta, nem a precisão das estimativas. Exemplo: pesquisas de opinião pública e de mercado, o pesquisador vai a campo, e tem que entrevistar, por exemplo: dez mulheres brancas de 20 anos, dez mulheres negras de 20 anos, dez homens brancos de 20 anos etc. ... PARA SER PROBABILÍSTICA: população for finita e totalmente acessível elementos enumeráveis sorteio dos elementos regras bem definidas todos os elementos da população tiverem probabilidade conhecida, e diferente de zero, de pertencer à amostra (sorteio em todos os estágios da amostragem) Apresenta fórmula matemática Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 19 EXERCÍCIOS 1) Classifique os seguintes resumos de artigos, em relação a: Tipo de estudo epidemiológico: transversal ou seccional; caso controle; coorte; experimental e ecológico. Amostra: probabilística (casual simples / sistemática / estratificada / por conglomerados) e não probabilística (por conveniência / por julgamento / por cotas). Quando não se tratar de amostra, é um censo 1.1) Conhecimento sobre nutrição e qualidade de vida em universitários da UFMS. Objetivo: levantar aspectos do conhecimento sobre nutrição e qualidade de vida dos universitários da UFMS. Metodologia: a amostra foi composta de aproximadamente 1.789 estudantes matriculados na UFMS, no ano letivo de 2016, que aceitaram participar voluntariamente do estudo. Tipo de estudo: _____________________________________________________________ Amostra: __________________________________________________________________ 1.2) Levantamento dos pacientes com hanseníase, atendidos pelo Hospital São Julião, no período de 2013 a 2016. Objetivo: avaliar as características pessoais, físicas e clínicas de pacientes com hanseníase. Metodologia: foram estudados, descritivamente, 836 pacientes atendidos pelo Hospital São Julião, de janeiro de 2013 a dezembro de 2016. Foram estudados todos os pacientes, com diagnóstico de hanseníase, estabelecido a partir de critérios clínicos e laboratoriais. Tipo de estudo: _____________________________________________________________ Amostra: __________________________________________________________________ 1.3) Traumatismo dental em escolares de 6 a 12 anos de Campo Grande, MS, 2015. Objetivo: estimar a prevalência de traumatismo dental em escolares de 6 a 12 anos de idade em Campo Grande –MS, em 2015. Metodologia: Para o cálculo da amostra utilizou-se dos dados disponíveis do município, com um nível de significância de 5 % e um erro de 15 %. Foram considerados os distritos da cidade, de onde foram sorteadas 52 escolas, obedecendo a proporcionalidade entre escolas públicas e particulares, levando-se em conta a idade e sexo. Obteve-se uma amostra total de 1600 escolares. Os escolares foram selecionados através de sorteio sistemático, tomando-se a precaução de atingir a quantidade determinada segundo idade e sexo. Tipo de estudo: _____________________________________________________________ Amostra: __________________________________________________________________ Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 20 1.4) Hipertensão em usuários do Programa Saúde da Família, Dourados/MS, 2015. Objetivo: estimar a prevalência de hipertensão em usuários do programa Saúde da Família, em Dourados/MS, em 2015. Metodologia: Para o cálculo da amostra utilizou-se dos dados disponíveis de hipertensão para o município, com um nível de significância de 5 % e um erro de 10 %. Foram considerados os distritos da cidade, de onde foram sorteadas 8 áreas cobertas pelas equipes do referido Programa.Obteve-se uma amostra total de 1234 pessoas. Fizeram parte da amostra, as pessoas que estavam nos domicílios, por ocasião das visitas de rotina efetuadas pelas equipes, tomando-se a precaução de atingir a quantidade determinada segundo idade e sexo. Tipo de estudo: _____________________________________________________________ Amostra: __________________________________________________________________ 1.5) Fatores associados à prematuridade do recém-nascido. Objetivo: avaliar retrospectivamente recém-nascidos, a fim de identificar possíveis fatores associados à ocorrência de prematuridade. Metodologia: foi realizada uma triagem de recém-nascidos de uma instituição hospitalar de ensino, durante o ano de 2016, tendo sido selecionados 120 recém-nascidos prematuros e a mesma quantidade de bebês não prematuros, a fim de possibilitar comparações entre os grupos. Tipo de estudo: _____________________________________________________________ Amostra: __________________________________________________________________ 1.6) Remoção de placa dentária com uso de dentifrício à base de própolis. Objetivo: o presente trabalho propôs avaliar a eficácia do dentifrício à base de própolis na remoção de placa dentária. Metodologia: dois grupos pareados pelo sexo e idade foram comparados após a utilização de um dentifrício com própolis e outro sem esta substância. Foram avaliadas as seguintes variáveis: quantidade de placa dentária, localização na superfície dentária, dentre outras. Tipo de estudo: _____________________________________________________________ Amostra: __________________________________________________________________ 1.7) Desidratação em crianças após quadro de diarréia. Objetivo: verificar a associação entre diarréia e desidratação. Metodologia: crianças atendidas com diarréia, em um hospital, foram colocadas em categorias, em função da presença, no início do episódio, de determinados sinais e sintomas. A subsequente vigilância dos prontuários dos pacientes, Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 21 complementada com visitas domiciliares, permitiu estimar a incidência de desidratação nas diversas categorias. Tipo de estudo: _____________________________________________________________ Amostra: __________________________________________________________________ 1.8) Mortalidade por câncer de estômago no Estado do Rio Grande do Sul, no período de 2014 a 2017. Objetivo: verificar a associação entre consumo de carne vermelha e ocorrência de câncer de estômago. Metodologia: usando dados secundários, constatou-se que no período citado houve aumento na mortalidade por câncer de estômago. Esta elevação manteve relação direta com o aumento do consumo per capita de carne vermelha e inversamente proporcional ao preço da arroba de bovinos – que decresceu no mesmo período. Tipo de estudo: _____________________________________________________________ Amostra: __________________________________________________________________ 1.9) Efeitos tardios da desnutrição aguda intra-uterina. Objetivo: verificar a associação entre desnutrição aguda intra-uterina e os indicadores de saúde física e mental pesquisados entre os sobreviventes ao episódio de fome. Metodologia: durante a Segunda Guerra Mundial, uma parte da população passou privações. Tal episódio ficou delimitado no tempo (1945) e espaço (Roterdam – Holanda). Os pesquisadores conseguiram colher dados referentes a consumo alimentar, estatísticas vitais e serviços de saúde, para épocas imediatamente anterior e posterior ao episódio. Puderam assim compor grupos de pessoas geradas antes, durante e após o episódio de fome. A circunstância de que, aos 18 anos, na época de alistamento militar, o holandês é submetido a exame médico padronizado fez com que fosse possível obter os resultados destes exames, referentes a cerca de 120 mil jovens do sexo masculino, dos quais um terço tinha sido exposto à desnutrição durante a fase intra- uterina. Desta maneira, os pesquisadores conseguiram obter, vasculhando arquivos, informações sobre a exposição ao fator de risco, a fome, e sobre diversos efeitos objetos de exames clínico e laboratorial de rotina. A análise dos dados, comparando-se expostos e não- expostos à fome, mostrou que não havia diferença de agravos à saúde. Tipo de estudo: _____________________________________________________________ Amostra: __________________________________________________________________ Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 22 2) Deseja-se realizar um estudo, que tenha com objetivo principal, estimar numa população de 5.000 pessoas, o grau de satisfação no tocante a um produto lançado no mercado. Tendo-se a priori o conhecimento de que sexo e o grau de instrução são variáveis influentes neste nível de satisfação, como você distribuiria uma amostra de 200 entrevistas (Tabela 2), levando em consideração as informações constantes na Tabela 1? Tabela 1 – Moradores do Bairro X segundo o sexo e o grau de instrução, Campo Grande – 2016. Grau de instrução Masculino Feminino Total Alfabetizado 2.000 1.000 3.000 Primeiro Grau 500 500 1.000 Segundo Grau 300 400 700 Superior 100 200 300 Total 2.900 2.100 5.000 Tabela 2 – Moradores do Bairro X (distribuição da amostra) segundo o sexo e o grau de instrução, Campo Grande – 2016. Grau de instrução Masculino Feminino Total Alfabetizado Primeiro Grau Segundo Grau Superior Total Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 23 Bloco III – Análise exploratória dos dados 1) Variáveis: características (dados) que serão estudados em uma população ou amostra. Nominal Qualitativa Ordinal Variável Discreta Quantitativa Contínua FIGURA 2 – Classificação de variáveis. Variável qualitativa: quando possíveis valores que assume representam atributos e/ou qualidades. Pode ser ordinal ou nominal. Qualitativa ordinal – quando as variáveis têm uma ordenação natural, indicando intensidades crescentes de realização. Exemplos: População: luvas cirúrgicas de certas marcas e tipos Variável: tamanho (pequeno, médio, grande) População: pessoas residentes em uma cidade Variável: classe social (baixa, média, alta) Qualitativa nominal – quando não é possível estabelecer uma ordem natural entre os valores da variável. Exemplos: População: freqüência de cárie dentária numa determinada cidade Variável: sexo (feminino e masculino) População: óbitos em um hospital, nos últimos cinco anos Variável: causa mortis (moléstias cardiovasculares, cânceres, moléstias do aparelho digestivo etc.) Variável quantitativa – quando seus valores forem expressos em números. Pode ser discreta ou contínua. Quantitativa discreta – quando assume valores em pontos da reta real, o conjunto de valores é finito ou enumerável. ☺ é tudo que pode ser contado, assume em geral, valores inteiros Exemplo: População: casais residentes em uma cidade Variável: número de filhos População: freqüência de cárie dentária numa determinada região Variável: número de dentes cariados, perdidos e obturados Quantitativa contínua – quando pode assumir teoricamente qualquer valor num certo intervalo da reta real. ☺ é tudo que pode ser medido, assume em geral, valores decimais Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 24 Exemplo: População: casais residentes em uma cidade Variável: peso e estatura População: escolares de uma determinada região Variável: volume de saliva em ml / min EXERCÍCIO Classifique cadauma das variáveis abaixo em qualitativa (nominal / ordinal) ou quantitativa (discreta / contínua): a. Ocorrência de hipertensão pré-natal em grávidas com mais de 35 anos (sim ou não são as possíveis respostas para esta variável). b. Intenção de voto para presidente (possíveis respostas são os nomes dos candidatos, além de não sei). c. Perda de peso (em gramas) de maratonistas na Corrida São Silvestre. d. Intensidade da perda de peso de maratonistas na Corrida São Silvestre (leve, moderada, forte). e. Grau de satisfação da população brasileira com relação ao trabalho de seu Presidente (valores de 0 a 5, com 0 indicando totalmente insatisfeito e 5 totalmente satisfeito). 2) Análise Univariada – é um dos primeiros passos para análise de um conjunto de dados. Consiste na exploração da informação existente em cada variável separadamente, através da síntese de cada variável. Utiliza-se dentre outros recursos: medidas de tendência central, medidas de dispersão, intervalos de confiança, tabelas, quadros e gráficos. 2.1) Medidas de tendência central (dão uma idéia de onde se localiza o centro, o ponto médio de determinado conjunto de dados) •Média aritmética: é a soma de cada um dos valores de uma determinada variável, dividido pelo total de valores. Exemplo: notas 7, 8, 8, 9 média = (7 + 8 + 8 + 9) / 4 = 8 •Moda: é o valor de maior freqüência. Exemplo: 3,4,5,7,7,7,9 e 9, a moda é 7, pois ocorre maior número de vezes 3,4,5,7,7,7,9,9 e 9, tem duas modas 7 e 9 3,3,4,4,7,7,9 e 9, não tem moda, pois ocorrem igual número de vezes. Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 25 •Mediana: é uma medida de centro de um conjunto de dados, que divide este conjunto em duas partes de igual número de observações É o valor que fica no centro dos dados ordenados, quando a distribuição é ímpar. Quando a distribuição é par, é a média aritmética dos dois valores que ficam na posição central dos dados ordenados. Olhar gráfico pg. 33. Exemplo: 1, 2, 3, 5 e 9, a mediana é o 3 1, 2, 3, 4, 7 e 9, a mediana é 3,5 (média aritmética dos números 3 e 4) A mediana é conhecida como 2o. quartil, pois 50% das observações do conjunto terão valores abaixo da mediana, e os outros 50% terão valores acima da mediana). Abaixo da mediana, tem o 1o. quartil, que separa 25% das observações abaixo dele e 75% acima. Acima da mediana, tem o 3o. quartil, que separa 75% das observações abaixo dele e 25% acima. Exemplo: Amostra: 6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36 Amostra ordenada: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49 Q1 = 15 Q2 (mediana) = 40 Q3 = 43 Média ou mediana? Distribuição normal – média Distribuição não normal - mediana Altura de alunos universitários 0 10 20 30 40 50 1, 40 1, 48 1, 52 1, 56 1, 60 1, 64 1, 68 1, 72 2, 00 altura (m) N ú m er o d e al u n o s Renda per capita em salários mínimos 0 100 200 300 400 500 600 1 2 3 4 5 6 7 8 9 10 20 Renda (em SM) N ú m er o d e h ab it an te s Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 26 2.2 Medidas de dispersão (como os dados se posicionam ao redor do ponto central. Uma população é dita homogênea quando a dispersão é pequena) TABELA 1 – Notas de quatro alunos em cinco provas Aluno Notas Média Antônio 5 5 5 5 5 5 João 6 4 5 4 6 5 José 10 5 5 5 0 5 Pedro 10 10 5 0 0 5 Amplitude: é a diferença entre o maior e menor valor do conjunto de dado. Antônio = 5 – 5 = 0 João = 6 – 4 = 2 José = 10 – 0 = 10 Pedro = 10 – 0 = 10 Variância: Notas da Maria 0, 4, 6, 8, 7 Média = 5 0 – 5 = -5 4 – 5 = -1 6 – 5 = 1 8 – 5 = 3 7 – 5 = 2 0 (dá sempre zero, isto é chamado de desvio médio) Dados (x) (x – Média) (x – Média)2 0 -5 25 4 -1 1 6 1 1 8 3 9 7 2 4 n = 5 Σ (x – X) = 0 Σ (x – X)2 = 40 Fórmula da variância Variância = Σ (x – Média)2 n - 1 Variância = 40 / 4 = 10 Desvio padrão (DP) ou standard deviation (SD ou s): é a raiz quadrada da variância DP = √ 10 = 3,16 Por que usa n-1? É um ajuste matemático, no qual diminuindo 1 do denominador calcula-se um valor mais adequado do desvio-padrão, tornando-o mais próximo do seu valor real na população. Isto porque a dispersão dos dados na amostra é menor que a dispersão dos mesmos na população onde o aparecimento de valores extremos é muito mais fácil de ocorrer. A influência deste decréscimo torna-se desprezível à medida que cresce o tamanho da amostra. Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 27 Coeficiente de variação: mede a dispersão em relação à média. Quanto menor for o CV, mais homogênea a amostra (corte teórico: CV ≤ 20% distribuição normal). DP CV = * 100 Média CV = 100%, o que significa ? DP = Média CV < 100% DP < Média CV > 100% DP > Média Vamos supor dois grupos de pessoas: No grupo A, as pessoas têm idades: 3, 1, 5 No grupo B, as pessoas têm idades: 55, 57, 53 Média = 3 anos Desvio padrão = 2 anos CVA = 2 x 100 = 66,7 % 3 Média = 55 anos Desvio padrão = 2 anos CVB = 2 x 100 = 3,6 % 55 Um DP=2 é maior para uma média 3 ou para uma média 55? É maior para uma média 3. Quanto < CV < o DP em relação à média. 2.3) Intervalo de confiança Quando trabalhamos com uma amostra e calculamos, por exemplo, a média da altura (1,60cm numa amostra de 300 acadêmicos). Será que esta estimativa (a média amostral) representa bem a altura da população estudada (15.000 acadêmicos)? Resposta: a média calculada para uma amostra dificilmente será igual à média (real) da população, estaremos mais seguros se dissermos que na população a altura vai de 1,55cm a 1,65cm (estimativa por intervalo), do que dizer que é 1,60cm (estimativa pontual). Um intervalo de confiança muito grande sugere que a média da amostra encontrada é pouco representativa da média (verdadeira) da população. Estimativa por intervalo para uma média → Intervalo de confiança → IC = X ± erro IC = X ± Z S √n Erro padrão da média → EPM = S √n Uma variável quantitativa Distribuição normal Distribuição não normal Média + desvio padrão Mediana e quartis Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 28 Erro padrão da média: mede a dispersão das médias das diferentes amostras de mesmo tamanho, extraídas de uma mesma população, em torno da média das médias, isto é, em torno da média verdadeira da população estudada. População - N FIGURA 1 – Extração de amostras de uma população n1 n2 ni . . . Verdade X = 1,60 cm X = 1,59 cm X = 1,61 cm Estatística Z: baseia-se na curva normal. Mede quanto um determinado resultado (valor) afasta-se da média em unidades de desvio-padrão. Mostra uma curva normal e a porcentagem de dados envolvidos à medida que são incluídos um, dois ou três desvios-padrão para os ambos lados da média. Três desvios- padrão para mais ou para menos incluem 99,7% (praticamente 100%) da amostra estudada. Qual seria o valor de Z que concentra 95% dos dados referentes à amostra estudada? 95% = 0,95 para curva toda 0,95 dividido por 2 = 0,475 para metade da curva Olhar a tabela normal reduzida (a seguir). Os números centrais ( 0,0000 a 0,4990), representam a metade da porcentagem que se deseja, convertida em número com quatro casas decimais. A primeira coluna (0,0 a 3,0) mais o último dígito (0 a 9) formam o valor de Z. Então de -1,96 a 1,96 concentra95% do total da amostra estudada. Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 29 Pode-se calcular intervalo de confiança (IC) para várias medidas, por exemplo: média, prevalência, Razão de prevalência, incidência, Risco relativo, Odds ratio etc. Então o IC demonstrará o limite mínimo e máximo da medida em questão, considerando que o verdadeiro valor está dentro desse intervalo, e essa afirmação será feita com 95% ou 99% de certeza (confiança), portanto podemos estar errando 5% ou 1% (erros adotados na bioestatística). Na tabela normal reduzida, para cálculo do IC com 95% de confiança usamos Z = 1,96 e para 99% de confiança, Z = 2,57. Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 30 Exemplo 1: Seja x a variável aleatória que representa a pressão sangüínea sistólica em indivíduos com idade entre 20 e 25 anos. Essa variável tem distribuição aproximadamente normal. Suponha que, com base em uma amostra de 100 indivíduos, foi obtida a média X = 123 mm de mercúrio e o desvio padrão DP = 8 milímetros de mercúrio. Determine o intervalo de 95 % de confiança para . I.C. = X ± Z S I.C. = 123 ± 1,96 * 0,8 √n I.C. = 123 ± 1,568 I.C. = 123 ± 1,6 I.C. = 123 ± 1,96 8 √100 121,4 mmHg - µ - 124,6 mmHg Vamos supor duas situações: 121,4 mmHg - µ - 124,6 mmHg homens 121,7 mmHg - µ - 127,9 mmHg mulheres Exercícios 1) Pacientes foram examinados em relação à perda de peso, utilizando dois tipos diferentes de tratamento para emagrecer, e foram encontrados os seguintes valores: Sexo Feminino (n=80) Masculino (n=80) Média de perda de peso ± DP 4 ± 3,7 6,5 ± 3,9 Mediana 3,5 5 1o. quartil 2,5 3 3o. quartil 4,5 6 Moda 2 4 Coeficiente de variação (%) 92,5% 60,0% Intervalo de confiança para µ 3,1 – 4,9 5,6 – 7,4 Responda as perguntas abaixo: a) Qual o sexo que apresenta maior perda de peso para metade dos pacientes? Por quê? ____________________________________________________________________ ____________________________________________________________________ b) Compare os sexos, e faça uma análise em relação à perda de peso. Quando há intersecção dos intervalos de confiança, as médias são semelhantes. 121,4 mmHg - µ - 124,6 mmHg homens 125,0 mmHg - µ - 127,0 mmHg mulheres Quando não há intersecção dos intervalos de confiança, as médias são diferentes. Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 31 ____________________________________________________________________ ____________________________________________________________________ c) Complete com V ou F ( ) Os valores da perda de peso tem uma distribuição normal, para ambos os sexos. ( ) O intervalo de confiança demonstra que a média da perda de peso para o sexo masculino, com 95% de certeza, pode variar para mais ou para menos, 3,7. ( ) Os valores da perda de peso para o sexo masculino, podem variar, em média, para mais ou para menos, 3,7. ( ) A média de perda de peso não é representativa para ambos os sexos. ( ) No sexo masculino, 75% perderam 6 quilos ou mais. 2) Pacientes foram examinados em relação à perda de peso, utilizando dois tipos diferentes de tratamento para emagrecer, e foram encontrados os seguintes valores: Sexo Feminino (n=80) Masculino (n=80) Média de perda de peso ± DP 7 ± 1,3 6,5 ± 0,9 Mediana 5,5 5 1o. quartil 3,5 3 3o. quartil 6,5 6 Moda 5 4 Coeficiente de variação (%) 18,6% 13,8% Intervalo de confiança para µ 6,7 – 7,3 6,3 – 6,7 a) Compare os sexos, e faça uma análise em relação à perda de peso. ____________________________________________________________________ ____________________________________________________________________ 3) Doença periodontal e fatores de risco associados Objetivo: analisar os fatores de risco associados à ocorrência de doença periodontal. Metodologia: Foram estudados dois grupos de pacientes adultos (doença periodontal presente e ausente). Resultado: No sexo masculino, a média do índice CPI (± DP) foi de 2 ± 1 (1,5 – 2,5 95%IC / CV 18%) e para o sexo feminino 1,5 ± 0,6 (0,5 – 2,0 IC 95% / CV 14%). Há diferença entre as médias do índice CPI entre homens e mulheres: sim ou não? Por que? ___________________________________________________________________________________ ___________________________________________________________________________________ 4) Em Botucatu, município de São Paulo foi encontrada uma prevalência de tracoma de 11,9% (10,3 – 13,8 IC95%) em pré-escolares e escolares, de escolas públicas e privadas. Em Guaraci, outro município, há relatos na literatura de uma prevalência de 10,5%. Compare os dois municípios em relação à prevalência de tracoma. 5) Em estudo longitudinal, observou-se que o risco relativo (RR) de nascimento de prematuros era de 5,4 (4,0 – 6,8 IC95%) de gestantes fumantes em relação a gestantes não-fumantes. Interprete esse resultado. Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 32 2.3) Tabelas, quadros e gráficos • As tabelas apresentam dados submetidos a tratamento matemático ou estatístico, dispostos sob a forma de uma distribuição de freqüências (absoluta e percentual). Devem ser usadas quando é importante a apresentação dos valores, já os gráficos são úteis para a apresentação de distribuições, tendências ou relacionamento entre variáveis. • O quadro, diferentemente da tabela, contem elementos numéricos ou nominais não tratados estatisticamente, apresentados de modo discursivo. • As tabelas não possuem margens laterais, ao contrário dos quadros que são fechados. • Ao invés de fazer uma tabela para cada variável, podemos juntar várias tabelas numa só. Exemplo a seguir. Tabela 2 – Número e porcentagem de mulheres segundo variáveis referentes à cirurgia plástica, Campo Grande – 2017 (n=128) Cirurgia plástica No. % Faria no futuro Sem informação 18 14,1 Sim 65 50,8 Não 45 35,1 Parte do corpo (1) Não se aplica 63 49,2 Abdômen 47 36,7 Seios 39 30,5 Nariz 26 20,3 Orelhas 9 7,0 (1) cada entrevistada podia citar uma ou mais partes do corpo. Obs.: neste caso, o “não se aplica” na variável “parte do corpo” é a soma das categorias “sem informação” e “não” da variável “faria no futuro”. As porcentagens de cada variável são relativas ao total da amostra “128”. Ou poderia ser de outro jeito, como a seguir Tabela 2 – Número e porcentagem de mulheres segundo variáveis referentes à cirurgia plástica, Campo Grande – 2009 Cirurgia plástica n No. % Faria no futuro 128 Sem informação 18 14,1 Sim 65 50,8 Não 45 35,1 Parte do corpo (1) 65 Abdômen 47 72,3 Seios 39 60,0 Nariz 26 40,0 Orelhas 9 13,8 (1) cada entrevistada podia citar uma ou mais partes do corpo. Obs.: neste caso foi acrescentada uma coluna com o número de entrevistadas para cada pergunta (n), assim a porcentagem para cada variável foi feita em relação a cada (n). Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 33 Gráficos Dentre os principais tipos de gráficos utilizados na análise univariada, destaca-se: Setores ou pizza: permite a visualização da participação de cada categoria em relação ao todo, pois a soma dos percentuais de cada categoria é 100% (não pode ser utilizado quando é possível uma ou mais respostas, o que faz que a soma dos percentuais ultrapasse 100%, neste caso pode-se usar gráfico de colunas). Linha: apresenta observações feitas ao longo do tempo (séries temporais), em intervalos iguais ou não, mostrando “movimento” no tempo, como tendênciaou periodicidade. Box Plot: apresenta a posição da mediana, 1o e 3o quartis, além da posição de valores discrepantes em relação ao conjunto de dados. Pode ser feito também com a média e desvio padrão. Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 34 Fonte: RIBEIRO, Andressa F et al . Associação entre incidência de dengue e variáveis climáticas. Rev. Saúde Pública, São Paulo, v. 40, n. 4, ago. 2006 . 3) Análise bivariada: estuda a relação entre as variáveis de estudo (estatística analítica – uso de testes estatísticos). Testes estatísticos 1) Escolha do teste depende: 1.1) tipo de variável: categórica (nominal), ordinal ou quantitativa 1.2) distribuição normal (gaussiana) ou não normal (não gaussiana) 1.3) amostras pareadas (emparelhadas) ou não pareadas (independentes) Exemplo: amostras pareadas (antes e depois no mesmo paciente) amostras independentes (masculino e feminino) 2) Em todo teste há a formação de duas hipóteses: Ho (nula): não há diferença entre os grupos estudados Ha (alternativa): há diferença entre os grupos estudados Decisão tomada com base em evidências amostrais Situação verdadeira desconhecida Ho falsa Ho verdadeira Rejeitar Ho Decisão correta (1 – ß) Poder do teste Erro tipo I α Nível de significância do teste Não rejeitar Ho Erro tipo II ß Decisão correta (1 – α) Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 35 Nível de significância: probabilidade de rejeitar a hipótese de que os grupos são iguais, quando são iguais. Poder do teste: probabilidade de rejeitar a hipótese de que os grupos são iguais, quando são diferentes. O que se quer do teste? Baixo nível de significância e Poder elevado Quanto > dispersão dos dados e < tamanho da amostra < poder do estudo Tamanho das amostras •Amostras grandes: n > 100 •Amostras médias: n > 30 •Amostras pequenas: n < 30 •Amostras muito pequenas: n < 12 Valor de p •p > 0,05 – aceito Ho Diferença não significativa Não há associação entre variáveis Independência •p ≤ 0,05 – rejeito Ho Diferença significativa Há associação entre variáveis Dependência 3) Testes estatísticos mais usados: Duas variáveis categóricas (amostras independentes) Uma quantitativa intervalar e uma categórica Verificar associação entre as variáveis Qui-quadrado ou Fisher + Uso de medidas da epidemiologia Razão de Prevalência Risco Relativo Odds ratio Duas variáveis categóricas (amostras pareadas) Teste do sinal ou Teste de McNemar Kappa Aceito HO Rejeito HO p>0,5 Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 36 3.1) Relação entre duas variáveis categóricas Variável independente (fator de exposição), por exemplo: rubéola na gestação Dependente (desfecho, efeito), por ex.: recém-nascido normal ou defeituoso Tabela de dupla entrada Tabela 3 – Número e porcentagem de recém-nascidos segundo a época do ataque de rubéola na gestante e a ocorrência de malformações fetais, Hospital X - 2017 Rubéola Malformações fetais Total p RP (IC 95%) Sim Não No. % No. % No. % Até o 3o. mês 14 28,0 36 72,0 50 48,1 0,005 5,0 (1,5 – 16,5) Depois do 3o. mês 3 5,6 51 94,4 54 51,9 Total 17 16,3 87 83,7 104 100,0 - - Nota: se p ≤ 0,05 – diferença estatisticamente significativa. Teste Qui-quadrado corrigido por Yates. Raciocínio errado: de 17 recém-nascidos com malformações fetais, 14 (82,4%) tinham mães que tiveram rubéola até o 3o. mês da gestação e 3 (17,6%) depois do 3o. mês. Raciocínio certo: foram identificados 14 (28,0%) recém-nascidos com malformações fetais de 50 mães que tiveram rubéola até o 3o. mês de gestação e 3 (5,6%) de 54 mães que tiveram rubéola depois do 3o. mês. Gráfico de colunas Variável independente (fator de exposição – na abscissa): rubéola na gestação Dependente (desfecho, efeito – na legenda): recém-nascido com ou sem malformações fetais Tipo de variáveis Distribuição normal Distribuição não normal Independentes Pareado Independentes Pareado Uma quantitativa e uma categórica (dois grupos) Teste t Teste t pareado Mann-Whitney Wilcoxon Uma quantitativa e uma categórica (três grupos ou mais) ANOVA ANOVA com dados repetidos Kruskall Wallis Friedman Duas quantitativas Correlação de Pearson Regressão Correlação intra-classe Correlação de Spearman Regressão Kappa ponderado Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 37 Figura 3 – Número de recém-nascidos segundo a época do ataque de rubéola na gestante e a ocorrência de malformações fetais, Hospital X - 2017 (n=104) • Teste Qui-quadrado (2): compara a frequência observada com a esperada. Só pode ser utilizado quando a amostra tem mais de 20 elementos, e quando a amostra tem 20 < n 40 somente quando todas as freqüências esperadas > 1 e freqüências esperadas < 5, em menos do que 20 % do total das caselas, p. ex.: na tabela 2 x 2, que tem 4 caselas, não pode ocorrer freqüência esperada < 5 em nenhuma casela, pois 1 casela corresponde a 25% (100% dividido por 4); na tabela 3 X 2, tem 6 caselas, pode ocorrer freqüência esperada < 5 em 1 casela, pois corresponde a 16,7% (100% dividido por 6), e não pode ocorrer em 2 caselas, pois corresponderia a 33,4%. • Quando não são preenchidos os requisitos para o cálculo do 2, é utilizado o Teste de Fisher quando a tabela é 2 x 2. Quando a tabela não é 2 X 2 pode-se agrupar categorias. • Numa tabela 2 x 2, quando a amostra é pequena (20 < n 40), mas preenche os requisitos para o cálculo do 2, recomenda-se o 2 corrigido por Yates. • Um bom programa para o cálculo do 2 é o Statcalc (Epi-Info), pois apresenta na mesma janela, o Teste de Fisher e as medidas de associação (RP, RR e OR) com os respectivos intervalos de confiança. Cálculo da freqüência esperada: multiplicação dos totais marginais dividido pelo total geral da tabela. Na tabela 4 seria: a=17*50/104=8,2 b=87*50/104=41,8 c=17*54/104=8,8 d=87*54/104=45,2 Freqüência observada: 14, 36, 3 e 51. Rubéola Malformações fetais Total Sim Não No. % No. % No. % Até o 3o. mês (a) 14 28,0 (b) 36 72,0 50 48,1 Depois do 3o. mês (c) 3 5,6 (d) 51 94,4 54 51,9 Total 17 16,3 87 83,7 104 100,0 Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 38 3.2) Relação entre variáveis quantitativa (intervalar) e categórica 3.2.1) através de tabela de dupla entrada, apresentando a variável quantitativa em intervalos de classes, por exemplo faixa etária. Tabela 4 – Número e porcentagem de recém-nascidos segundo a faixa etária (em anos) das gestantes e a ocorrência de malformações fetais, Hospital X - 2017 Faixa etária Malformações fetais Total p RP (IC 95%) Sim Não No. % No. % No. % De 41 a 50 7 38,9 11 61,1 18 17,3 0,003 1 De 31 a 40 8 15,7 43 84,3 51 49,0 2,5 (1,1- 5,9) De 21 a 30 2 5,7 33 94,3 35 33,7 6,8 (1,6 – 29,5) Total 17 16,3 87 83,7 104 100,0 - - Nota: se p ≤ 0,05 – diferença estatisticamente significativa. Teste Qui-quadrado de tendência. Raciocínio errado: de 17 recém-nascidos com malformações fetais, 7 (41,2%) tinham mães na faixa etária de 41 a 50 anos, 8 (47,0%) de 31 a 40 anos e 2 (11,8%) de 21 a 30 anos. Raciocínio certo: foram identificados 7 (38,9%) recém-nascidos com malformações fetais de 18 mães na faixa etária de 41 a 50 anos, 8 (15,7%) de 51 mães na faixa etária de 31 a 40 anos, e 2 (5,7%) de 35 mães na faixa etária de 21 a 30 anos. Obs1.: gráfico de colunas similar ao da figura 3.Obs2.: quando uma das variáveis está em intervalos (faixa etária) usa-se o 2 de tendência (cálculo no Bio Estat). Na tabela 4, a medida que diminuiu a faixa etária materna houve uma tendência decrescente da prevalência de recém-nascidos com malformações fetais. 3.2.2) Relação entre variáveis quantitativa (demonstrada através de medidas de tendência central e dispersão) e categórica. Tabela 5 – Estatística descritiva da idade materna (em anos) e número de consultas no pré-natal e a ocorrência de malformações fetais, Hospital X – 2017 Variáveis Malformações fetais p Sim (n=17) Não (n=87) Média ± DP Mediana Média ± DP Mediana Idade materna (em anos) 44,5± 2,8 44 29,6± 5,5 30 (1)<0,001 Número de consultas no pré-natal 3,1± 1,4 2 9,2± 2,1 8 (2)<0,001 Nota:se p ≤ 0,05 – diferença estatisticamente significativa. (1) Teste t. (2) Teste Mann Whitney. Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 39 Figura 4 – Média e desvio padrão da idade materna (em anos) segundo a ocorrência de malformações fetais, Hospital X – 2017 (n=107) Figura 5 – Mediana e quartis do número de consultas de pré-natal segundo a ocorrência de malformações fetais, Hospital X – 2017 (n=107) Obs.: quando se deseja comparar três ou mais médias de amostras independentes, o teste indicado é a Análise de Variância (ANOVA) para distribuições normais e Kruskal Wallis para distribuições não normais. Obs.: quando a distribuição é normal (CV ≤ 20%), usa-se Teste t para comparação entre médias de amostras independentes e Box plot usando a média e o desvio padrão. Obs.: quando a distribuição não é normal (CV > 20%), usa-se Teste Mann Whitney para comparação entre médias de amostras independentes e Box plot usando a mediana e quartis. Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 40 3.3) Relação entre duas variáveis quantitativas 3.3.1) Correlação: estuda o comportamento conjunto de duas variáveis, com relação de dependência ou não. ►Procedimentos: Diagrama de dispersão e Coeficiente de correlação Coeficiente de correlação de Pearson -1 ≤ r ≤ 1 ►Valor 1 – correlação perfeita positiva ►Valor 0 – correlação nula ►Valor -1 – correlação perfeita negativa Figura 6 – Correlação linear de Spearman entre a idade materna (em anos) e número de consultas de pré-natal, Hospital X – 2007 (n=107) Interpretação: houve correlação negativa de 33%, estatisticamente significativa, isto é, idade materna e número de consultas apresentaram-se inversamente proporcionais, a medida que aumentou a idade, diminuiu o número de consultas. 3.3.2) Regressão: estuda o comportamento conjunto de duas variáveis com relação de dependência entre elas, quando se deseja prever o valor de uma variável em função da outra. No cálculo da Regressão obtém-se o coeficiente de determinação ajustado (R2), que expressa o quanto da variável dependente é explicada pela variável preditiva. Por exemplo, pode-se estudar a quantidade de procaína hidrolisada no plasma humano, em função do tempo decorrido após sua administração. Neste caso, o tempo seria a variável independente (x) e a quantidade de procaína hidrolisada, a variável dependente (y). r = - 0,33 p < 0,001 Se pelo menos uma das variáveis envolvidas for ordinal, ou mesmo para variáveis numéricas, quando a distribuição não é normal, recomenda-se a utilização da Correlação de Spearman. A interpretação do r é a mesma. Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 41 • Procedimentos: Coeficiente de determinação (r2) ajustado, Gráfico de linhas e Reta de regressão. Coeficiente de determinação ajustado – O R² varia entre 0 e 1, indicando em percentagem, o quanto o modelo consegue explicar os valores observados. Neste exemplo R2 ajustado=0,9929, o que significa que 99,29% da quantidade de procaína hidrolisada (variável dependente) pode ser explicada pelo tempo (variável independente). Gráfico de linhas - Variáveis Indenpendente – na abscissa (x) Dependente – na ordenada (y) Reta de regressão – reta que prevê y em função de x. Para traçar a reta, é necessário calcular dois coeficientes: * Coeficiente linear (a) – dá o ponto em que a reta corta o eixo das ordenadas * Coeficiente angular (b) – dá inclinação da reta Para obter o valor de Y (dentro do intervalo estudado), pode olhar no gráfico e também calcular pela fórmula Y = a + bx Exemplo: Y (procaína hidrolisada) = a + bx (7 minutos) Y (procaína hidrolisada) = - 0,9850 + 2,1606 * 7 = 14,1392 = 14,1 4) Análise Multivariada: realizada para analisar a interação de inúmeras variáveis, com o propósito de ajustar os dados. Por exemplo, na análise bivariada é calculado o valor do OR, levando em conta duas variáveis (sexo x obesidade); essa medida será ajustada na análise multivariada, na qual são analisadas várias variáveis (sexo, idade, atividade física, alimentação etc.) ao mesmo tempo, e apresentará um valor ajustado para cada variável incluída nessa análise, a fim de estimar a contribuição de cada variável em relação ao desfecho (obesidade). Algumas técnicas utilizadas: análise estratificada, regressão linear múltipla, análise de variância com múltiplos fatores, regressão logística, análise de componentes principais, análise fatorial, análise discriminante, dentre outras. Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 42 5) Testes diagnósticos Até o item 5, foi feita a análise estatística envolvendo um fator de exposição e a ocorrência de uma doença ou condição. Quando essa relação for entre um teste diagnóstico e uma doença ou condição, a análise é diferente, conforme descrição a seguir. • Avaliação de testes diagnósticos 1) Reprodutibilidade ou confiabilidade / Repetibilidade 2) Validade ou acurácia 1) Reprodutibilidade ou repetibilidade: concordância ou consistência de resultados quando o exame se repete. Exemplo: dois radiologistas que lêem independentemente as mesmas radiografias e chegam ao mesmo diagnóstico. 2) Validade ou acurácia: capacidade do exame em determinar o verdadeiro valor do que está sendo medido. Exemplo: o ECG é mais válido, comparado a auscultação cardíaca feita com estetoscópio, na detecção de certas alterações cardiovasculares 3) Medidas de validade de um teste Sensibilidade: diagnosticar corretamente os doentes Especificidade: diagnosticar corretamente os indivíduos sadios Valor preditivo positivo: é a proporção de doentes entre os positivos pelo teste Valor preditivo negativo: é a proporção de sadios entre os negativos pelo teste. Teste Doença Total Sim Não Positivo a Verdadeiro positivo b Falso-positivo a + b Negativo c Falso-negativo d Verdadeiro negativo c + d Total a + c b + d a + b + c + d Sensibilidade: a / a + c Especificidade: d / b + d Valor preditivo positivo: a / a + b Valor preditivo negativo: d / c + d 3.1) Curva ROC (receiver operator characteristic curve) Expressa graficamente a relação entre a sensibilidade e a especificidade. Serve para determinar o melhor ponto de corte (cut off point) de um teste diagnóstico. Dessa forma é possível comparar vários testes diagnósticos mediante a análise das curvas resultantes (áreas e pontos de corte). Os valores da sensibilidade (proporção de verdadeiros- positivos) são colocados na ordenada (eixo Y) e o complemento da especificidade (1- Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 43 especificidade), ou seja a proporção de falsos-positivos, na abscissa (eixo x) para diferentes pontos de corte. O ponto maiselevado da curva corresponde a 100% de sensibilidade e 0% de falsos positivos, sendo neste caso o valor ideal de um teste diagnóstico chamado padrão ouro (ausência de erro, com identificação perfeita de todos os indivíduos doentes e sadios). A área total seria igual a um, pois a curva seria coincidente com o lado esquerdo e o topo do gráfico (d=0). Isso na prática não ocorre, pois quando o teste ganha sensibilidade, perde a especificidade e vice-versa, então se escolhe o ponto de corte onde exista o menor erro possível, tanto de falsos positivos quanto de falsos negativos. Para um teste sem nenhuma utilidade, a “curva” seria uma linha reta diagonal, partindo do canto inferior esquerdo até o canto superior direito. Neste caso, o teste diagnóstico não possuiria nenhum poder para discriminar doentes de não-doentes. Resumindo: 4) Medidas de reprodutibilidade de um teste: Estatística Kappa A estatística Kappa corrige a concordância que pode ter ocorrido por acaso. Geralmente é expressa em porcentagem. Pode ser feita para verificar a concordância de dois ou mais testes diagnósticos em relação a uma doença ou o diagnóstico efetuado por vários examinadores (inter-examinador) ou do examinador com ele mesmo (intra- examinador). • quanto > área • quanto mais próxima estiver a curva do canto superior esquerdo do gráfico (quanto < for o d) Melhor será o poder discriminatório do teste diagnóstico Neste exemplo, estão sendo comparados os testes A e B. O teste B tem maior poder discriminatório que o teste A, mediante os seguintes resultados: • d testeB (0,32) < d testeA (0,45) • área teste B (0,8) > área teste A (0,7) Ponto de corte (Senbibilidade e Especificidade) • Teste B = 0,90 e 0,70 • Teste A = 0,80 e 0,60 O ponto de corte do teste B apresenta menor erro (> Senbibilidade e > Especificidade) em comparação ao Teste A Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 44 Exercício Vamos supor que 20 pacientes foram submetidos a dois testes para avaliar risco de cárie dental, e classificados em três categorias: baixo, médio e alto risco. Obteve-se o seguinte resultado: Número do paciente Teste A Teste B 1 baixo baixo 2 baixo médio 3 médio médio 4 baixo alto 5 alto alto 6 médio médio 7 alto alto 8 médio alto 9 alto alto 10 médio médio 11 médio médio 12 baixo baixo 13 baixo baixo 14 alto alto 15 alto alto 16 alto alto 17 médio médio 18 alto alto 19 alto alto 20 baixo baixo Calculamos a concordância através de tabela de dupla entrada: Concordância esperada (Ce) = (baixo x baixo) + (médio x médio) + (alto x alto) N K = Co – Ce n- Ce n = 20 Teste (b) baixo médio alto Teste (a) Baixo Médio Alto Concordância observada (Co) = soma das concordâncias Texto de apoio – 2020 Profa. Dra. Elenir Rose Jardim Cury Inisa/UFMS 45 BIBLIOGRAFIA Antunes JLF, Peres MA, editores. Crivello Junior O, coordenador da série. Fundamentos de Odontologia. Epidemiologia da Saúde Bucal. Rio de Janeiro: Guanabara Koogan; 2006. Costa Neto PL de O. Estatística. São Paulo: Editora Edgard Blücher; 1977. Doria Filho U. Introdução à Bioestatística. Para simples mortais. São Paulo: Negócio Editora; 1999. Luiz RR, Costa AJL, Nadanovsky P. Epidemiologia e Bioestatística na Pesquisa Odontológica. São Paulo: Atheneu; 2005. Medronho RA, DM, Bloch KV, Luiz RR, Werneck G L. Epidemiologia. 2a ed. São Paulo: Atheneu; 2009. Pereira MG. Epidemiologia: teoria e prática. Rio de Janeiro: Guanabara Koogan; 1995. Vieira S. Introdução à Bioestatística. 6a tiragem revista e ampliada em 1998. Rio de Janeiro: Editora Campus; 1998. Vieira S. Estatística Experimental. 2a ed. São Paulo: Editora Atlas; 1999. Volpato GL. Ciência: da filosofia à publicação. 6a ed. São Paulo: Cultura Acadêmica; 2013.