Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Estatística Vital e Sistemas de Informação em Saúde Unidade I Profa. Dra. Milena Baptista Bueno 2 APRESENTAÇÃO DA PROFESSORA MILENA BAPTISTA BUENO Doutora e Mestre em Saúde Pública pela Faculdade de Saúde Pública da Universidade de São Paulo (FSP/USP). Graduada em Nutrição pela Faculdade de Saúde Pública da Universidade de São Paulo (FSP/USP). Professora titular e membro do grupo de pesquisa em saúde pública da Universidade Paulista (UNIP). 3 INTRODUÇÃO A disciplina Estatística Vital e Sistemas de Informação em Saúde tem como objetivo capacitar o profissional a utilizar os indicadores de saúde disponíveis para a tomada de decisão, baseada na realidade da população. A correta análise e interpretação dos dados disponíveis são importantes subsídios para a gestão dos diversos serviços de saúde e aprimoramento de políticas públicas nas três esferas de governo (municipal, estadual e federal). Desta maneira, será possível atingir a meta principal de proporcionar à população melhor qualidade de vida, com equidade e integralidade. A informatização e maior acesso aos dados sobre doenças e agravos a saúde, assim como seus determinantes, possibilitaram a melhoria da gestão em saúde, no entanto, é necessário conhecimento da magnitude e limitações da analise destes dados para que os resultados sejam realmente efetivos. Na primeira unidade deste material de estudo serão apresentados os conceitos básicos para coleta, análise e interpretação de dados e na segunda unidade serão discutidos os principais Sistemas de Informação em Saúde atualmente utilizados no país. 4 1. ESTATISTICA A Estatística originou-se do convívio social das populações, em situações em que havia trocas de mercadorias e contagem de eventos, com caráter prático, utilitário e empírico. Desde a antiguidade, vários povos já registravam o número de habitantes, nascimentos, óbitos, faziam estimativas das riquezas, dividiam as terras, cobravam impostos e realizavam inquéritos quantitativos. A partir do século XVI começaram a surgir as primeiras análises sistemáticas de fatos sociais, como batizados, casamentos e funerais, originando as primeiras tábuas de vida e tabelas. No século XVIII, a nova ciência (ou método) foi denominada de estatística, ramo da matemática aplicada, utilizada para planejamento, coleta, organização, descrição, análise e interpretação de dados. Em meados do século XIX, Willian Farr analisou de forma sistemática dados referentes a mortalidade na Inglaterra e País de Gales, sendo considerado um dos pioneiros a utilizar a estatística vital. O conhecimento avançou ao longo do tempo. O sistema de coleta de dados foi aperfeiçoado e aumentou a complexidade para a análise de dados. A estatística passou a ser utilizada na área da saúde não apenas como uma catalogação de eventos relacionados à vida e a morte, mas uma ferramenta para tomada de decisão a partir de uma realidade observada. Nos últimos anos, aumentou o uso da estatística nas investigações da área da saúde, dado que utiliza métodos científicos para a conclusão dos resultados. O profissional de saúde precisa compreender os conceitos básicos de estatística em diversas situações, tais como na leitura e compreensão de estudos científicos, análise de problemas epidemiológicos, seleção e aplicação de procedimentos de diagnósticos, elaboração, execução e avaliação de pesquisas. Portanto: A Estatística é a parte da Matemática Aplicada que fornece métodos para planejamento, coleta, organização, descrição, análise e interpretação de dados e para a utilização dos mesmos na tomada de decisões. A estatística é empregada em diversas áreas que avaliam de forma quantitativa dados coletados, a fim de auxiliar o progresso do conhecimento. Os métodos estatísticos são padronizados, mas sua aplicação dependerá do fenômeno estudado e dos objetivos estabelecidos. 2. COLETA DE DADOS A coleta de dados é um dos maiores desafios de qualquer sistema de informações, considerando que deve ser padronizado, sistematizado e fidedigno. A coleta de dados é o componente mais oneroso e difícil de um sistema de vigilância, principalmente em países com extensão territorial tão grande como o Brasil (OPAS, 2018). O treinamento e sensibilização constante dos profissionais envolvidos é de extrema relevância para manter a qualidade dos dados. É necessário que os procedimentos sejam uniformizados e divulgados em manual de normas. A definição dos eventos a serem coletados deve ser clara e objetiva, suficientemente sensível para identificar o evento desejado de forma simples e 5 rápida e específicos a fim de evitar casos falsos positivos. Em relação aos dados sobre doenças, é possível classificar o caso como suspeito (com sinais e sintomas, mas sem evidências laboratoriais para o diagnostico), provável (com sinais e sintomas, podendo haver evidências laboratoriais inespecíficas para o diagnóstico) e confirmado (com evidências definitivas da doença) (OPAS, 2018). Após o planejamento e a devida determinação das características mensuráveis do fenômeno, inicia-se a coleta dos dados necessários à sua descrição segundo tempo, espaço e características da pessoa. A obtenção de dados pode ser sistemática, como ocorre com dados de registro e notificações obrigatórias (Ex. nascimentos, casamentos, hospitalizações, imunização, óbitos e doenças de notificação compulsória), ou não sistemático, quando os dados são coletados em pesquisas. A coleta de dados pode ser classificada em relação ao tempo em (CRESPO, 2009): a) contínua (registro) - quando feita continuamente, tal como a de nascimentos, óbitos e doenças com notificação compulsória; b) periódica - quando feita em intervalos determinados de tempo, como os censos (Ex. 10 em 10 anos); c) ocasional - quando feita esporadicamente, a fim de atender a uma demanda atual, como no caso de epidemias ou inquéritos em saúde. Os dados obtidos devem ser avaliados criticamente antes da análise, para evitar incoerências ocasionadas por erros na obtenção ou digitação dos dados. A apuração dos dados refere-se a contagem dos eventos avaliados. Independente do objetivo do estudo, os dados devem ser descritos por meio de proporções e medidas de posição e dispersão, podendo ser elaborados tabelas e gráficos que auxiliam a interpretação, caracterizando a estatística descritiva. Em algumas situações, há coleta de dados em uma parte da população (amostra) mas deseja-se inferir os resultados amostrais para toda a população. A generalização dos resultados amostrais para a população é possível por meio do uso de teorias de probabilidade, caracterizando a estatística indutiva ou inferencial, que possui metodologias especificas de análise para avaliar associações entre variáveis (Figura 1). Figura 1- Diferenças conceituais entre estatística descritiva e indutiva. ANÁLISE ESTATÍSTICA DESCRITIVA INDUTIVA Análise exploratória e descrição dos dados Extrapolação dos resultados amostrais para uma população. Fonte: CRESPO (2009) 3. AMOSTRA E POPULAÇÃO O conjunto de elementos portadores de, pelo menos, uma característica comum denomina-se população estatística ou universo estatístico. Assim, indivíduos que moram no Brasil formam uma população, pois possuem uma característica em comum. Há possibilidade de definir a população de mulheres que 6 moram no Brasil, neste caso teríamos dois critérios: gênero e pais que reside. Uma população não está limitada a uma população de pessoas, mas pode se referir a qualquer conjunto de objetos. Algumas vezes, por inviabilidade econômica ou temporal, limitam-se as observações de uma população a uma amostra, ou seja, a um subconjunto finito da população (Figura 2). O número de elementos que pertencem a uma população é representadopor N, enquanto que na amostra o conjunto de elementos é representado por n. Figura 2 – Processo de obtenção de amostras. Fonte: Próprio autor Resultados da observação de uma amostra podem ser inferidos para toda a população, desde que a seleção dos elementos que compõe a amostra seja adequadamente realizada. Para exemplificar como é feita a generalização, para o diagnóstico de uma doença por exame laboratorial é necessária a coleta e análise de uma amostra de sangue ou urina, e o resultado obtido é generalizado para o que ocorre em todo o organismo. Em degustações de preparações culinárias, as características organolépticas (Ex. sabor, odor, textura) de uma parte do que foi preparado é suficiente para avaliar toda a receita. Outro exemplo é o que ocorre nas empresas com o controle de qualidade de produtos, uma amostra dos produtos de um lote é encaminhada para análises laboratoriais e os resultados são generalizados para todos os outros elementos produzidos neste lote. O registro de dados obrigatórios (óbitos, nascimentos, casamentos) ou notificação compulsória de doenças não são considerados amostras, pois todos os tipos de eventos relacionados são informados. A sub notificação (falta de registro) pode ocorrer por causas diversas, mas de qualquer maneira o conjunto de dados obtidos nestas situações não são caracterizadas por amostras. A desvantagem de inferir os resultados de uma amostra para a população é que sempre haverá a possibilidade de erros na conclusão, mesmo que a probabilidade do erro acontecer seja muito pequena. Na figura 3, o centro representa o verdadeiro parâmetro (uma prevalência ou média, por exemplo) da população comparado ao resultado obtido de uma amostra (estimativa do POPULAÇÃO AMOSTRA AMOSTRAGEM 7 a) Preciso e não válido a) Preciso e não válido b) Não Preciso e válido c) Não Preciso e não válido d) Preciso e válido parâmetro). A diferença entre o verdadeiro parâmetro e a estimativa observada na amostra é o que denominamos de erro ou viés. Figura 3- Representação do erro (viés) de um estudo. Fonte: Próprio autor Em estudos amostrais, é necessário refletir sobre a validade e precisão, como mostra a figura 4, sendo a situação ideal a representada no item d, com baixa variabilidade (preciso) e próximo do parâmetro populacional (válido). Figura 4– Esquema sobre conceitos de precisão e validade de um estudo. Fonte: SOUZA, ALEXANDRE, GUIRARDELLO (2017) 3.1- Amostragem Amostragem é o processo utilizado para obtenção de amostras. Existem dois tipos de amostras: as de conveniência ou selecionadas (não aleatórias ou não probabilística) e as aleatórias (probabilística). As amostras de conveniências são constituídas por elementos que foram selecionados por um critério pessoal do pesquisador, em geral, por serem elementos mais acessíveis. Os pacientes que são Parâmetro populacional Estimativa amostral do parâmetro ERRO (VIES) 8 atendidos em um consultório particular representam uma amostra de conveniência se considerado todos os pacientes atendidos em um município por exemplo, pois há grande possibilidade de não representarem os doentes de toda a população desta cidade. Para que seja possível fazer inferências dos resultados de uma amostra para a população é necessário garantir que a amostra seja representativa. Para isso, é preciso que a amostra seja obtida por processos aleatórios, ou seja, todos os elementos da população definida tenham uma probabilidade conhecida em pertencer a amostra. As amostras aleatórias também são chamadas de casuais, probabilísticas ou seleção ao acaso. O sorteio dos elementos que comporão a amostra caracteriza uma amostragem aleatória, que poderá ser realizada numerando todos os elementos da população e utilizar uma metodologia qualquer de sorteio dos números. Neste caso, todos elementos têm a mesma probabilidade de ser sorteado. Como exemplo, suponha que é necessário coletar uma amostra entre duzentos pacientes cadastrados para atendimento em uma Unidade Básica de Saúde. Todos os pacientes serão numerados e, em seguida, os números serão escritos em papeis com tamanho e formato iguais, que serão colocados em um saco e misturados. Retira-se, um de cada vez, vinte números que identificarão os pacientes que comporão a amostra de estudo, representando 10% da população de pacientes desta Unidade Básica de Saúde. Atualmente, há diversos programas computacionais que realizam sorteio de amostra, a partir da identificação dos elementos de uma população. Um exemplo é o software de domínio público Epi Info, criado e disponibilizado pelo Centers for Disease Control and Prevention (CDC), que oferece ferramentas para a digitação e análise de dados (Disponível em: https://www.cdc.gov/epiinfo/support/ por/pt_downloads.html). A amostragem proporcional estratificada refere-se à seleção aleatória em sub grupos, obtendo uma amostra final que represente proporcionalmente a população de acordo com determinada condição. Por exemplo, em uma sala de aula de 100 alunos, sendo 10 meninos e 90 meninas, a probabilidade de sortear uma menina será sempre maior. Para garantir a representatividade dos meninos, é possível determinar que 10% dos elementos que pertencerão a amostra serão meninos (sorteio de 10% do número estipulado para amostra apenas entre meninos) e 90% meninas (sorteio de 90% do número estipulado para amostra somente entre meninas), representando proporcionalmente esta sala de aula em relação ao sexo. Por exemplo, em uma sala de 100 alunos (10 meninos (10%) e 90 meninas (90%)) deseja-se coletar dados de uma amostra de 10 alunos sorteados aleatoriamente de forma estratificada por sexo. Desta maneira, obrigatoriamente, 1 individuo (10%) será sorteado entre o grupo de meninos e 9 indivíduos (90%) serão selecionados entre as meninas. A amostragem sistemática pode ser utilizada quando os elementos de uma população já estão ordenados por algum critério, por exemplo, ordem alfabética ou número de prontuário. Suponhamos que de uma lista de 100 pacientes ordenados por ordem alfabética, deseja-se selecionar uma amostra de 20 pacientes. Pode-se calcular um intervalo de seleção pela razão do total de elementos da população pelo tamanho amostral, neste exemplo, 100/20 (resultando em cinco elementos). Desta maneira, a cada cinco pacientes da lista, seleciona-se um. Neste caso, é importante sortear o primeiro selecionado e, depois, utilizar o intervalo de seleção para selecionar os próximos até compor o tamanho da amostra final. 9 A amostragem por conveniência ocorre quando não há critérios pré estabelecidos para a seleção da amostra, a não ser a maior facilidade para a obtenção dos dados, como por exemplo, quando a amostra é composta por familiares ou amigos do pesquisador. Neste caso, esta é uma amostra não representativa da população e tem limitação para a generalização de resultados. 4. ESTATISTICA DESCRITIVA 4.1- Níveis de mensuração de variáveis Variáveis são características coletadas para análise que variam de um elemento para outro. Por exemplo, idade é uma variável numérica que varia de uma pessoa para outra de uma população, assim como escolaridade, número de filhos, estado civil entre outros. Uma variável pode se tornar constante quando faz parte do critério de inclusão para amostra, por exemplo, mortalidade entre homens, neste caso ser do sexo masculino é uma constante. O tipo de variável irá indicar a melhor forma de apresentação e analise do dado. Desta maneira, as variáveis são classificadas em: Qualitativas: os resultados são expressos por atributos e não números. Qualitativa nominal: não há hierarquia entre as categorias. Exemplo: gênero (masculino ou feminino), etnia, local de nascimento. Qualitativa ordinal: os possíveis resultados de cada elemento têm uma ordenaçãojá convencionada. Exemplo: escolaridade, estágio da doença, grau de ansiedade. Quantitativas: os resultados são expressos por números. Quantitativa discreta: variável que só pode assumir valores inteiros, sem frações. Exemplo: número de filhos, número de gestações, número de dentes. Quantitativa contínua: pode assumir qualquer valor numérico, inclusive fracionados. Exemplo: peso, altura, nível de glicose sanguínea. Assim: Qualitativa Nominal Ordinal VARIÁVEL Quantitativa Discreta Contínua 10 4.2- Apresentação tabular Um dos objetivos da estatística é descrever os valores de uma variável de forma clara e objetiva, a fim de facilitar a conclusão dos resultados. Tabelas e gráficos sintetizam as informações, possibilitando a mais rápida análise do leitor. As tabelas devem ter significado próprio, isto é, devem ser entendidas mesmo quando não se lê o texto em que estão apresentados os dados. As tabelas devem ser citadas no texto e serem apresentadas o mais próximo do trecho a que se referem. No texto, não é recomendado repetir todos os dados já apresentados na tabela, evitando redundâncias, porém sugere-se destacar os principais resultados apresentados. As normas para apresentação tabular foram instituídas pelo Instituto Brasileiro de Geografia e Estatística (IBGE, 1993) e são caracterizadas por: Devem ser delimitadas, no alto e embaixo, por traços horizontais. Esses traços podem ser mais fortes do que os traços feitos no interior da tabela; Não devem ser delimitadas por traços verticais à direita e à esquerda; O cabeçalho (primeira linha que identifica conteúdo das colunas) deve ser delimitado por traços horizontais; Podem ser feitos traços verticais no interior da tabela, separando as colunas; Devem ser numeradas com algarismo arábicos, de modo crescente, de acordo com a ordem que aparecem no texto, precedidos da palavra Tabela; Devem conter título no topo da tabela, com informações sobre a natureza (o quê?), abrangência geográfica (onde?) e temporal (quando?) dos dados apresentados, de forma clara e concisa. O título deve ser inserido após a apresentação da numeração da tabela; Quando os dados apresentados não forem de autoria própria, deve-se apresentar a fonte dos dados no rodapé da tabela, em letra menor; Colocar um traço horizontal (-) quando o valor é zero e padronizar o número de casas decimais. 11 Exemplo: Tabela 1- Taxa de mortalidade entre menores de um ano (por 1.000 nascidos vivos) segundo região e ano. Brasil, 2008-2011. Região ANO 2008 2009 2010 2011 Norte 23,1 22,3 21,0 19,9 Nordeste 21,8 20,3 19,1 18,0 Sudeste 14,3 13,9 13,4 13,0 Sul 12,5 12,0 11,6 11,3 Centro Oeste 17,1 16,4 15,9 15,5 Fonte: Ministério da Saúde. Sistema de Informações sobre Nascidos Vivos (SINASC) e Sistema de Informações sobre Mortalidade (SIM). A representação de variáveis quantitativas em tabelas e gráficos, em geral, é por intervalos de classe (dados agrupados em sub grupos ou categorias) a fim de facilitar a interpretação. Embora não seja necessário, os intervalos de classe são frequentemente construídos com amplitude (tamanho) igual, pois facilita a comparação entre categorias, como mostrado na tabela 2 (dados fictícios). Tabela 2- Distribuição de pacientes de uma Unidade Básica de Saúde segundo idade. Local, Ano. Idade (anos) Número de pacientes 20 |-- 30 202 30 |-- 40 505 40 |-- 50 658 50 |-- 60 725 Total 2.090 Fonte: Próprio autor O símbolo |-- significa que o valor próximo da linha vertical ( | ) está incluso no intervalo, já o valor próximo da linha horizontal (--) não está incluso neste intervalo e será incluído no seguinte. Por exemplo, o primeiro intervalo da tabela 2 é 20 |-- 30, portanto irá conter as idades de 20,0000... a 29,99999 ..., pessoas com idade igual a 30 anos será incluído no intervalo seguinte (30 |-- 40). Os intervalos de classe devem ser mutuamente exclusivos (um número não deve estar contido em dois intervalos) e exaustivos (todos os números devem estar contidos em algum intervalo). 4.3- Tipos de frequência Os dados resultantes da coleta de dados serão primeiramente apurados, ou seja, contabilizados. Os valores brutos são aqueles que representam o número de observações em cada categoria e são conhecidos como frequência absoluta ou simples (n). A soma destas frequências será igual ao total dos elementos avaliados. Por exemplo, em um total de 20 pacientes atendidos em uma unidade básica de saúde, 9 foram diagnosticados com hipertensão arterial, 5 com diabetes e 6 dislipidemias. O número de indivíduos para cada patologia representa a frequência simples ou absoluta. No entanto, a análise apenas pelos valores absolutos pode 12 gerar erros de interpretação, desta maneira é frequente a apresentação da frequência relativa, calculada pela razão entre a frequências absoluta de cada categoria (neste caso patologias) e o total de pacientes (frequência total), podendo ser expresso em porcentagem, como mostra a tabela 3 (dados fictícios). Tabela 3- Distribuição de participantes de grupo de intervenção para controle do diabetes de uma Unidade Básica de Saúde segundo estado nutricional. Local, Ano. Estado nutricional n % % acumulada Peso adequado 9 45,0 45,0 Sobrepeso 5 25,0 70,0 Obeso 6 30,0 100,0 Total 20 100,0 Fonte: Próprio autor Na tabela 3, no cabeçalho (primeira linha), o n (número) representa a frequência simples ou absoluta, % (percentual) refere-se à frequência relativa e % acumulada a frequência percentual acumulada (soma das frequências percentuais das categorias anteriores). Na última linha é apresentada a frequência total. É possível a apresentação de duas variáveis em uma mesma tabela, facilitando a análise de associação entre variáveis (tabela 4 (dados fictícios)). Tabela 4 – Distribuição de pacientes segundo estado nutricional e faixa etária de crianças atendidas em uma determinada escola. Local, Ano. Estado nutricional Faixa etária (meses) Total < 24 24 n % n % n % Baixo peso 13 14,9 17 5,1 30 7,1 Peso adequado 53 60,9 266 79,4 319 75,6 Acima do peso 21 24,1 52 15,5 73 77,3 Total 87 100 335 100 422 100 Fonte: Próprio autor 4.4 – Apresentação gráfica Gráficos são figuras que devem apresentar dados com clareza e objetividade, podendo representar frequências (simples ou relativa) ou outras medidas estatísticas. Assim como as tabelas, todo gráfico necessita de título que indique a origem dos dados, numerado em ordem crescente de apresentação no texto e precedido da palavra “gráfico” ou “figura”. Há diversos softwares capazes de produzirem bons gráficos, como por exemplo, o Excel®. Alguns tipos de gráficos mais utilizados nas análises exploratórias são: gráfico de barras e de colunas, gráfico de setores (ou pizza), gráfico de linha, histograma e polígono de frequências. 13 4.4.1- Gráfico de barras ou colunas Adequado para representar variáveis qualitativas (nominal e ordinal) e quantitativa discreta. Tem como características: Barras separadas; Bases das colunas de mesmo tamanho; A altura das barras representa a frequência da variável; A origem do eixo y é sempre zero (0); Pode ser elaborado com barras verticais ou horizontais; É necessário identificar a natureza de cada barra. Recomenda-se evitar a elaboração deste tipo de gráfico em três dimensões, pois dificulta a interpretação dos resultados. A figura 5 representa a taxa de natalidade por região brasileira em 2011, conforme tabela 1. Figura 5- Taxa de mortalidade entre menores de um ano (por 1.000 nascidos vivos) segundo região e ano. Brasil, 2011. Fonte: Ministério da Saúde. Sistema de Informações sobre Nascidos Vivos (SINASC) e Sistema de Informações sobre Mortalidade (SIM). 4.4.2- Gráfico de setores (ou pizza)O gráfico de setores, também conhecido como “pizza”, tem como objetivo apresentar frequência percentual de variáveis qualitativas que possuam poucas categorias. Ressalta-se que a soma das frequências percentuais de cada categoria apresentada deve totalizar 100%, como mostra a Figura 6 (dados fictícios). 0 5 10 15 20 25 Norte Nordeste Sudeste Sul Centro Oeste n º ó b it o s p o r 1 .0 0 0 n as ci d o s vi vo s Região brasileira 14 Figura 6- Distribuição de participantes de grupo de intervenção para controle do diabetes da Unidade Básica de Saúde “X” segundo estado nutricional. Local, Ano. Fonte: Próprio autor 4.4.3- Gráfico de linha O gráfico de linha ou diagrama linear é adequado para representar a associação de duas variáveis quantitativas, sendo que uma está relacionada a tempo (Ex. ano, mês, dias). Este tipo de gráfico mede tendência (séries temporais). Figura 7- Taxa de mortalidade entre menores de um ano (por 1.000 nascidos vivos) segundo região e ano. Brasil, 2008-2011. Fonte: Ministério da Saúde. Sistema de Informações sobre Nascidos Vivos (SINASC) e Sistema de Informações sobre Mortalidade (SIM). 4.4.4- Histograma O histograma é adequado para representar a frequência (simples ou relativa) de uma variável quantitativa contínua. O eixo x (horizontal) representa os valores da variável e o eixo y (vertical) a frequência. As colunas são unidas e a variável deverá estar categorizada em intervalos de classes, como mostra a tabela 2. Se os intervalos de classes forem iguais, a largura das colunas será a mesma para todas 45% 25% 30% Peso adequado Sobrepeso Obeso 0 5 10 15 20 25 2 0 0 8 2 0 0 9 2 0 1 0 2 0 1 1TA X A D E M O R TA LI D A D E IN FA N TI L (P O R 1 0 0 0 N A SC ID O S V IV O S) ANO Norte Nordeste Sudeste Sul Centro Oeste 15 as categorias e a altura da coluna representará a frequência. A figura 8 representa a frequência simples dos dados já apresentados na tabela 2. Figura 8- Distribuição de pacientes de uma Unidade Básica de Saúde segundo idade. Local, Ano. Fonte: Próprio autor Histogramas com distribuição de dados quantitativos em intervalos de classe com amplitudes (tamanho do intervalo) diferentes podem gerar interpretações incorretas, dado que gerarão colunas com espessuras diferentes. Assim, sugere-se que todos os intervalos de classe tenham tamanhos iguais. 4.4.5- Polígono de frequências Assim como histogramas, os polígonos de frequências também são utilizados para análise de variáveis quantitativas continuas. No entanto, o polígono de frequências é construído baseado no ponto médio de cada intervalo de classe. Por exemplo, o primeiro intervalo de classe da figura 4 é de 20 a 30 anos (incompletos), portanto o ponto médio é 25 anos ((20 + 30)/2). O eixo x apresenta a variável de estudo, com marcadores nos pontos médios dos intervalos de classe e o eixo y mostra a frequência (simples ou relativa). Para fechar o polígono, unimos os extremos com o eixo horizontal nos pontos médios de duas classes fictícias com amplitudes semelhante aos demais intervalos de classe, como mostra Figura 9. 0 100 200 300 400 500 600 700 800 N º p ac ie n te s Idade (anos) 20 30 40 50 60 16 Figura 9- Distribuição de pacientes de uma Unidade Básica de Saúde segundo idade. Local, ano. Fonte: Próprio autor Pelo polígono de frequência é possível avaliar a simetria da distribuição, ou seja, a tendência de maior concentração dos dados em relação a um ponto central, e a curtose, referente ao grau de achatamento da curva. Esta análise será de grande relevância para a análise estatística inferencial (a extrapolação dos resultados amostrais para toda a população). 4.5- Medidas de tendência central Além das frequências, as variáveis podem ser analisadas por medidas de tendência central que representam o centro da distribuição dos dados ou o ponto que as observações tendem a se agruparem. Resumem variáveis quantitativas, sendo as mais utilizadas média, mediana e moda. 4.5.1- Moda A moda é o valor da distribuição de uma variável que apresenta a maior frequência. Pode haver distribuições que não apresentem moda pois nenhum valor se repete e pode haver distribuições com dois ou mais valores modais, como mostra o exemplo 1. Exemplo: - Notas de alunos da disciplina X: 9, 10, 7, 6, 5, 4, 8 Amodal - Notas de alunos da disciplina Y: 8, 8, 8, 7, 9, 8, 7 Moda=8 - Notas de alunos da disciplina Z: 8, 8, 7, 7, 9, 8, 7 Moda=8 e 7 4.5.2- Média aritmética ( x ) Média aritmética ( x ) é a medida de tendência central mais conhecida e utilizada. É o valor que indica o centro de equilíbrio de uma distribuição de dados numéricos, calculado pela somatória () dos valores observados (xi) dividido pelo total de observações (n). 0 100 200 300 400 500 600 700 800 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 n º p ac ie n te s Idade (anos) 17 x = x1 + x2 + x3 + x4 + .... + xn = xi n n Exemplo: Consumo de leite (ml/dia) de sete indivíduos: 100, 140, 130, 250, 352, 458, 120. x = 100 + 140 + 130 + 250 + 352 + 458 + 120 = 221,42 ml/dia 7 No entanto, a média pode não representar adequadamente a distribuição de dados quando há grande variabilidade, dado que esta medida de tendência central sofre influência de valores aberrantes. Nestes casos, é recomendado o uso de mediana. No exemplo apresentado, suponha que existisse um oitavo indivíduo que consumisse 3.000 ml/dia de leite. A média incluindo esta observação seria de 568,75 ml/dia, valor acima de todos os outros observados e que, portanto, não resume o consumo de leite deste grupo de pessoas. 4.5.3- Mediana (Md) A mediana (Md) é um valor que representa a posição central de uma distribuição de dados ordenados de forma crescente ou decrescente. A mediana é o valor que está posicionada exatamente no centro da distribuição, ou seja, 50% das observações possuem valores abaixo da mediana e os demais elementos apresentam valores acima da mediana. Exemplo: Consumo de leite (ml/dia) de sete indivíduos: 100, 140, 130, 250, 352, 458, 120. Ordenando dados de forma crescente: 100, 120, 130, 140, 250, 352, 480 Neste caso, verifica-se que o consumo de leite do quarto indivíduo (140 ml/dia) representa o valor central, ou seja, é o valor da mediana, pois metade dos indivíduos estão abaixo dele e a outra metade acima dele. Exemplo: Consumo de leite (ml/dia) de sete indivíduos: 100, 140, 130, 250, 352, 458, 120, 3000. Ordenando dados de forma crescente: 100, 120, 130, 140, 250, 352, 480, 3000 Neste caso, o número de observações é par (n=8 indivíduos), portanto não há um valor único no centro da distribuição. Assim, é necessário fazer uma média aritmética dos dois valores centrais para obter a mediana: Md = 140 + 250 = 195 ml/dia 2 18 Portanto: Quando o número de observações (n) for ímpar, a mediana é o valor da variável que ocupa a posição (n+1)/2 e quando o número de observações (n) for par, a mediana será a média aritmética dos valores da variável que ocupam as posições n/2 e (n/2) +1. Em um conjunto de dados com muitos valores repetidos, recomenda-se optar pela média aritmética ou moda como medida resumo. Deve-se preferir o uso da mediana como medida resumo de variáveis quantitativas quando a distribuição é assimétrica. Em situações de distribuição simétrica, é recomendado utilizar a média aritmética por considerar todos os valores observados (Quadro 1). Quadro 1- Tipos de distribuição de dados quantitativos. Distribuição simétrica Assimetria a direita ou positiva Assimetria a esquerda ou negativa Fonte: SILVESTRE, SANT’ANA NETO, FLORES (2013) 4.6- Separatrizes A mediana é um valor centralque divide uma distribuição em duas partes iguais. De maneira semelhante, há outras medidas que dividem um conjunto de dados em grupos com o mesmo número de observações. Entre as separatrizes, as mais utilizadas são quartis, quintis e percentis e referem-se a divisão do conjunto de dados em quatro, cinco e cem partes iguais, respectivamente. Para a determinação do valor de qualquer separatriz, assim como para a mediana, é necessário que os dados quantitativos estejam ordenados para que seja verificado o valor contido na posição desejada. 19 4.6.1 Quartil 1º quartil (Q1): valor situado na distribuição de forma que uma quarta parte (25%) dos dados é menor que ele e as 3 quartas partes restantes são maiores (75%). Então o valor de Q1 deixa abaixo 25% das observações. 25% 75% Q1 2º quartil (Q2): coincide com a mediana pois é o valor que divide a distribuição em 2 partes iguais. Então o valor de Q2 deixa abaixo e acima 50% das observações. 50% 50% Q2 3º quartil (Q3): valor situado de tal modo que as 3 quartas partes (75%) dos elementos são menores que ele e uma quarta parte (25%) é maior. Então o valor do Q3 deixa abaixo 75% das observações. 75% 25% Q3 A identificação da posição do elemento que apresenta o valor referente a um quartil, considerando que os dados já estão ordenados, é obtida por: Q1= 0,25 . (n+1) Q2= 0,5 (n+1) Q3= 0,75 . (n+1) * n = quantidade de elementos observados. Exemplos: a) Idade de 15 idosos (n=15): xi = 62, 62, 63, 63, 64, 65, 68, 68, 69, 70, 70, 71, 73, 73, 74 Q1 = 0,25 . (15+1) = 4 Q2= 0,50 . (15+1) = 8 Q3= 0,75 . (15+1) = 12 O idoso com posição 4 tem 63 anos (1º quartil). A criança com posição 8 tem 68 anos (2º quartil). A criança com posição 12 tem 71 anos (3º quartil). Interpretação: 25% dos indivíduos avaliados tem idade inferior a 63 anos, 50% tem idade inferior a 68 anos e 75% tem idade inferior a 71 anos. Caso a posição do elemento que contém o valor do quartil não for um número inteiro, é necessário fazer ajuste. 20 b) Idade de 16 idosos (n=16). xi = 62, 62, 62, 63, 63, 64, 64, 65, 68, 69, 70, 71, 73, 73, 74, 75 Q1 = 0,25 . (16+1) = 4,25 valor entre a 4ª e a 5ª posição Q2= 0,50 . (16+1) = 8,5 valor entre a 8ª e a 9ª posição Q3= 0,75 . (16+1) = 12,75 valor entre a 12ª e a 13ª posição Fração decimal do valor obtido no cálculo da posição que contém o Q1 Q1 = 63 + 0,25 . (63 - 63) = 63 anos Idade da 4ª posição Diferença de idade das 4ª e 5ª posições Fração decimal do valor obtido no cálculo da posição que contém o Q2 Q2 = 65 + 0,50 . (68 - 65) = 66,5 anos Idade da 8ª posição Diferença de idade das 8ª e 9ª posições Fração decimal do valor obtido no cálculo da posição que contém o Q3 Q3 = 71 + 0,75 . (73 - 71) = 72,5 anos Diferença de idade das 12ª e 13ª posições Idade da 12ª posição Interpretação: 25% dos indivíduos avaliados tem idade inferior a 63 anos, 50% tem idade inferior a 66,5 anos e 75% tem idade inferior a 72,5 anos. 4.6.2 Percentil Os percentis são valores que dividem em cem partes iguais uma distribuição de dados ordenados. Os valores de Q1, Q2 e Q3 correspondem aos 25º, 50º e 75º percentis, respectivamente. A mediana representa o percentil 50. Assim como no quartil, é necessário identificar a posição do elemento que se encontra no percentil desejado e o valor apresentado por esta observação será o valor percentual. A identificação da posição do elemento que contém o percentil é por: Pi= (i/100) . (n+1) i = ordem do percentil desejado n= número de elementos da amostra Exemplo: Idade de 15 idosos (n=15): n = 62, 62, 63, 63, 64, 65, 68, 68, 69, 70, 70, 71, 73, 73, 74 Deseja-se calcular o percentil 10 (P10) P10= (10/100). (15+1) = 1,6 valor entre a 1ª e 2ª posição 21 Fração decimal do valor obtido no cálculo da posição que contém o P10 P10 = 62 + 0,6 . (62 - 62) = 62,6 anos diferença de idades da 1ª e 2ª posição Idade da 1ª posição Interpretação: 10% dos indivíduos tem idade inferior a 62,6 anos e, consequentemente, 90% tem idade acima deste valor. 4.7- Medidas de dispersão ou variação As medidas de tendência central são valores pontuais de uma distribuição de dados numéricos, mas não descrevem a magnitude da variação que geralmente ocorre na análise de variáveis quantitativas relacionadas à saúde, também fundamental para a descrição dos dados. Os valores observados podem ser bem próximos às medidas centrais (média, mediana e moda) ou não, portanto as medidas de dispersão (ou variação) identificam a diversificação dos dados em torno de uma medida de tendência central, mais frequentemente a média. Exemplo: Suponha as seguintes taxas de mortalidade (por 1.000 habitantes) por doenças transmissíveis de três estados brasileiros nos anos de 2015, 2016, 2017 e 2018 (dados fictícios). Estado 2015 2016 2017 2018 Média Mediana A 36,5 36,7 35,2 38,6 36,75 36,60 B 16,5 25,5 45,2 59,8 36,75 35,35 C 98,2 12,9 32,8 3,1 36,75 22,85 Fonte: Próprio autor Apesar dos três estados apresentarem a mesma média, a taxa de mortalidade por doenças transmissíveis foi mais homogênea (constante ao longo dos anos) no município A, enquanto no munícipio C observa-se maior variabilidade dos dados. As medidas de dispersão mais utilizadas são amplitude, variância, desvio padrão e coeficiente de variação. 4.7.1- Amplitude total Amplitude Total (AT) é a diferença entre o maior e o menor valor observado. Exemplo: Taxas de mortalidade (por 1.000 habitantes) por doenças transmissíveis de três estados brasileiros nos anos de 2015, 2016, 2017 e 2018 (dados fictícios). Estado 2015 2016 2017 2018 Amplitude total (AT) A 36,5 36,7 35,2 38,6 38,6 – 35,2 = 3,4 óbitos B 16,5 25,5 45,2 59,8 59,8 – 16,5= 43,3 óbitos C 98,2 12,9 32,8 3,1 98,2 – 3,1= 95,1 óbitos Fonte: Próprio autor 22 Verifica-se que a AT do estado C foi maior. O cálculo da amplitude total é simples, no entanto a utilização desta medida de dispersão é limitada por considerar apenas os dois valores extremos do conjunto de dados, desprezando as demais observações. Desta maneira, a AT é muito sensível a valores atípicos e representa apenas uma indicação aproximada da variabilidade dos dados 4.7.2- Variância e Desvio Padrão A variância quantifica a variabilidade de todos os dados observados em relação à média. Para isso, poder-se-ia calcular a distância de cada valor observado em relação à média e dividir pelo tamanho da amostra (desvio médio). No entanto, pode-se mostrar matematicamente que a soma da distância em relação a média é sempre igual a zero. Para que isto não aconteça, os desvios médios são elevados ao quadrado (um valor elevado ao quadrado é sempre positivo) e então divididos pelo número de observações menos um. Essa medida é a variância e representada por S2. S2 = (xi – x)2 n - 1 Exemplo: Variância das taxas de mortalidade (óbitos a cada 1.000 habitantes) por doenças transmissíveis em 2015, 2016, 2017 e 2018 nos Estados A, B e C (dados fictícios): Estado A Média ( x ): 36,75 óbitos por 1.000 habitantes Ano TM (xi) (xi – x) (xi – x)2 2015 36,5 36,5 – 36,75 = -0,25 - 0,25 x -0,25= 0,0625 2016 36,7 36,7 – 36,75 = -0,05 - 0,05 x – 0,05 = 0,0025 2017 35,2 35,2 – 36,75 = -1,55 - 1,55 x – 1,55 = 2,4025 2018 38,6 38,6 – 36,75 = 1,85 1,85 x 1,85 = 3,4225 = 5,89 Neste caso temos: (xi – x)2 = 5,89 e n = 4 (nº de observações), ou seja, valores de 4 anos (2015, 2016, 2017 e 2018) Assim: S2 = 5,89 = 1,96 óbitos2 por 1000 habitantes 4-1 Estado B Média ( x ): 36,75 óbitos por 1.000 habitantes Ano TM (xi) (xi –x) (xi – x)2 2015 16,5 16,5 – 36,75 = - 20,25 - 20,25 x -20,25 = 410,06 2016 25,5 25,5 – 36,75 = - 11,25 - 11.25 x – 11,25 = 126,56 2017 45,2 45,2 – 36,75 = 8,45 8,45 x 8,45 = 71,40 2018 59,8 59,8 – 36,75 = 23,05 23,05 X 23,05 = 531,30 = 1139,32 23 Neste caso temos: (xi – x)2 = 1139,32 e n = 4 (nº de observações), ou seja, 4 anos (2015, 2016, 2017 e 2018) Assim: S2 = 1139,32 = 379,67 óbitos2 por 1.000 habitantes 4-1 Estado C Média ( x ): 36,75 óbitos por 1.000 habitantes Ano TM (xi) (xi – x) (xi – x)2 2015 98,2 98,2 ‘– 36,75 = 61,45 61,45 x 61,45 = 3776,10 2016 12,9 12,9 – 36,75 = -23,85 -23,85 X -23,85 = 568,82 2017 32,8 32,8 – 36,75 = - 3,95 -3,95 X -3,95 = 15,60 2018 3,1 3,1 – 36,75 = - 33,65 -33,65 X -33,65 = 1132,32 = 5492,84 Neste caso temos: (xi – x)2 = 5492,84 e n = 4 (nº de observações), ou seja, valores de 4 anos (2015, 2016, 2017 e 2018) Assim: S2 = 5492,84 = 1830,95 óbitos2 por 1.000 habitantes 4-1 Conclusão: A variância da taxa de mortalidade por doenças transmissíveis entre 2015 e 2018 no estado A foi 1,40 óbitos2 por 1.000 habitantes, no estado B foi 379,67 óbitos2 por 1.000 habitantes e no estado C foi 1830,95 óbitos2 por 1.000 habitantes. O resultado da variância é dado em uma unidade ao quadrado, o que dificulta a interpretação. Desta maneira, é mais frequente o uso do desvio padrão, representado por S, que tem a mesma unidade da variável de estudo. Os resultados de variância e desvio padrão nunca serão negativos. O cálculo do desvio padrão (S) é realizado pela raiz quadrada da variância (S2): S = √𝑺2 Exemplo: Variância (S2) e Desvios Padrão (S) das taxas de mortalidade (óbitos a cada 1000 habitantes) por doenças transmissíveis em 2015, 2016, 2017 e 2018 nos Estados A, B e C: Estado S2 S A 1,96 √1,96 = 1,40 B 379,67 √379,67 = 19,48 C 1830,95 √1830,95 = 42,79 Conclusão: O desvio padrão da taxa de mortalidade por doenças transmissíveis entre 2015 e 2018 no estado A foi 1,40 óbitos por 1.000 habitantes, no estado B foi 19,48 óbitos por 1.000 habitantes e no estado C foi 42,79 óbitos por 1.000 habitantes. Conclui-se que a maior variação foi no estado C. 24 4.7.3- Coeficiente de variação Para avaliar se a variabilidade é grande ou pequena, usa-se o coeficiente de variação (CV), uma medida relativa calculada pela razão entre o desvio padrão (S) e a média ( x ). Quanto maior o CV, mais heterogênea será a população de estudo em relação ao evento avaliado. Em geral, o CV é apresentado em porcentagem, sendo esta sua unidade de medida. CV = S X 100 x Exemplo: Média ( x ), Desvios Padrão (S) e Coeficientes de Variação (CV) das taxas de mortalidade (óbitos a cada 1000 habitantes) por doenças transmissíveis em 2015, 2016, 2017 e 2018 nos Estados A, B e C (dados fictícios): Estado x S CV A 36,75 1,40 1,40 / 36,75 X 100 = 3,81% B 36,75 19,48 19,48 / 36,75 X 100 = 53,01% C 36,75 42,79 42,79 / 36,75 X 100 = 116,43% Suponha que no Estado D a média de taxa de mortalidade por doenças transmissíveis no período de 2015 a 2018 foi de 170,58 óbitos por 1.000 habitantes e o desvio padrão de 42,79 óbitos por 1.000 habitantes. O CV do Estado D será de 25,08% (42,79 / 170,58 X 100). É possível verificar que, apesar de apresentar o mesmo desvio padrão do Estado C, o Estado D tem menor variabilidade da taxa de mortalidade pois a média é maior. Portanto, comparar os desvios padrão para avaliar variabilidade pode induzir a um erro de interpretação, sendo mais adequado comparar os coeficientes de variabilidade. Os valores do CV também podem ser utilizados para comparar dados de variáveis com unidades de medidas diferentes. Exemplo: Média ( x ), Desvios Padrão (S) e Coeficientes de Variação (CV) das taxas de mortalidade (óbitos a cada 1.000 habitantes) por doenças transmissíveis em 2015, 2016, 2017 e 2018 nos Estados A, B e C (dados fictícios): Estado x S CV A 36,75 1,40 1,40 / 36,75 X 100 = 3,81% B 36,75 19,48 19,48 / 36,75 X 100 = 53,01% C 36,75 42,79 42,79 / 36,75 X 100 = 116,43% Média ( x ), Desvios Padrão (S) e Coeficientes de Variação (CV) das taxas de fertilidade (número de nascimentos por mulher) em 2015, 2016, 2017 e 2018 nos Estados A, B e C (dados fictícios): Estado x S CV A 3,73 4,01 4,01 / 3,73 X 100 = 107,5% B 2,76 1,85 1,85/2,76 X 100 = 67,02% C 1,58 0,95 0,95 / 1,58 X 100 = 60,12% 25 Conclusão: Apesar do estado A tem menor variabilidade de taxa de mortalidade por doenças transmissíveis no período de 2015 a 2018, este foi o estado que apresentou maior variabilidade da taxa de fertilidade neste mesmo período. 5. INTRODUÇÃO A ESTATISTICA INDUTIVA Após a descrição dos dados de uma amostra por frequências (tabelas e gráficos), medidas de tendência central e de variabilidade, é frequente os pesquisadores se perguntarem: - Os resultados obtidos na análise dos elementos pertencentes à amostra são semelhantes aos resultados de toda a população? - A variável X determina a situação Y, ou seja, há associação entre X e Y? - Ao longo do tempo, a variação observada da variável X foi significativa estatisticamente? A estatística pode colaborar para responder a estas questões por meio de um conjunto de técnicas que utilizam teorias de probabilidade. Ao fazer inferência de um dado amostral para a população ou avaliar a associação de variáveis, sempre haverá uma probabilidade de erro da conclusão, que pode ser muito pequena (menor que 5%, por exemplo). A inferência estatística aborda duas temáticas fundamentais: estimação de parâmetros populacionais e teste estatísticos. Serão apresentados a seguir alguns modelos de interpretação de situações que utilizam a estatística indutiva. 5.1- Estimativa de parâmetros populacionais por intervalo de confiança É de interesse de gestores em saúde saber a proporção de pessoas com diabetes, a média de desperdício de medicamentos nas instituições de saúde, média de faltas de pacientes nos atendimentos, variação das taxas de mortalidade por doenças especificas ao longo do tempo, média de dias de internação de pacientes nos hospitais, entre outros fatos. Quando não há possibilidade de acesso às informações de toda a população, dados coletados de uma amostra podem gerar inferências de parâmetros populacionais. A estimativa consiste em determinar um valor a partir dos resultados amostrais que indique o valor real do parâmetro populacional desconhecido. A estimação por intervalo ou intervalos de confiança é um método que a partir dos resultados de uma amostra aleatória, determina-se um intervalo de valores que contém o valor populacional com uma probabilidade conhecida. O nível de confiança é a probabilidade do intervalo calculado conter o verdadeiro valor do parâmetro populacional que é desconhecido, sendo o mais utilizado o de 95%. É frequente o cálculo de intervalos de confiança para média e proporções. 26 Exemplo: Tabela 5- Percentual de indivíduos que referiram diagnóstico médico de hipertensão arterial no conjunto da população adulta (≥ 18 anos) das capitais dos estados brasileiros e do Distrito Federal por anos de escolaridade. Vigitel, 2018. Anos de estudo % Intervalo de 95% de confiança (IC95%) Limite inferior Limite superior 0 |-- 9 42,5 40,9 44,1 9 |-- 12 19,4 18,4 20,4 ≥ 12 14,2 13,3 15,2 Total 24,7 24,0 25,5 Fonte: Ministério da Saúde. Vigitel 2018 – Vigilância de Fatores de risco e proteção para doenças crônicas por inquérito telefônico. Brasilia; 2019. A tabela 5 mostra as proporções de hipertensão arterial referida em uma amostra (n=52.395 pessoas) de residentes nas capitais dos estados brasileiros e do Distrito Federal. Na coluna de frequência relativa (%) são apresentadas as prevalências dehipertensão segundo anos de estudo. Observa-se que na amostra o percentual da patologia foi maior entre os que possuem menor escolaridade. Nas colunas seguintes são apresentados os valores dos intervalos de 95% de confiança, limites mínimos e máximos. A interpretação dos intervalos de confiança tem a finalidade de estimar o parâmetro populacional, já que o estudo foi realizado com uma amostra. Desta maneira, há 95% de chance da prevalência de hipertensão na população com menor escolaridade ser entre 40,9% e 44,1%, na população de escolaridade mediana há 95% de chance da proporção de hipertensos ser entre 18,4% e 20,4% e entre os que tem maior escolaridade há 95% de probabilidade da hipertensão referida ser entre 13,3% e 15,2%. Observa-se na tabela 5 que os intervalos de confiança dos três grupos de pessoas com escolaridades diferentes não se sobrepõem (não há valores iguais em dois ou mais intervalos), portanto conclui-se que a diferença de proporções por escolaridade é significante. 5.1- Testes estatísticos Os objetivos do uso de diversos testes estatísticos em estudos de natureza quantitativa são: a) Comprovação de modelos explicativos (relação de causa e efeito); b) Generalização dos resultados amostrais para toda a população; c) Inferências para observações futuras. De acordo com o objetivo e distribuição dos dados, seleciona-se o teste de hipótese mais adequado. Pode-se citar como exemplos de testes hipóteses: - Testes de qui quadrado (teste de associação entre duas variáveis qualitativas); - Teste t-student (teste de diferença de médias, utilizado quando há uma variável quantitativa e outra qualitativa (com duas categorias) em amostras independentes); - Análise de variância (ANOVA, compara a distribuição de três ou mais grupos em amostras independentes); - Correlação linear (análise da relação de duas variáveis quantitativas). 27 Os exemplos apresentados de testes estatísticos são conhecidos como análises bivariadas (ou seja, avaliam a relação de duas variáveis, sejam quantitativas ou qualitativas), mas há também as análises multivariadas, com modelos matemáticos mais complexos. Há outras análises bivariadas adequadas em estudos com amostras pequenas e para variáveis quantitativas que não apresentam distribuição normal (testes não paramétricos). Distribuição normal: também conhecida como distribuição gaussiana, representa uma distribuição de probabilidades de variáveis quantitativas. O gráfico utilizado para avaliar a distribuição normal é o polígono de frequência. A média está centralizada e a curva é simétrica, em forma de sino, como a figura 12. Figura 12- Distribuição Normal Fonte: https://www.inf.ufsc.br/~andre.zibetti/probabilidade/normal.html *Há modelos matemáticos que comprovam a distribuição normal de determinada variável que não serão apresentados neste material de estudo. Suponha que um determinado pesquisador queira comprovar que o hábito de fumar causa câncer de mama (relação causa e efeito). A suposição do pesquisador é que fumantes tem maior risco para câncer de mama. Ainda no planejamento de qualquer estudo, estabelece-se a hipótese nula (Ho) e hipótese alternativa (Ha), que seguirão as seguintes premissas: Hipótese Nula (Ho): populações são iguais. Hipótese Alternativa (Ha): populações são diferentes. No caso do estudo sobre a relação entre hábito de fumar e câncer de mama, teríamos que: Hipótese Nula (Ho): A frequência de câncer de mama entre fumantes e não fumantes são iguais. Hipótese Alternativa (Ha): A frequência de câncer de mama entre fumantes é diferente do que não fumantes. https://www.inf.ufsc.br/~andre.zibetti/probabilidade/normal.html 28 Dado que Ha foi estabelecida como frequências diferentes, sem determinar qual grupo terá frequência maior ou menor, temos um teste bicaudal. Se já fosse estabelecido que a frequência de câncer em fumantes é maior (conforme a suposição do autor) seria realizado um teste unicaudal. Após a coleta de dados, na analise dos dados, há duas possibilidades: rejeita- se Ho (e aceita-se Ha) ou aceita-se Ho (e rejeita-se Ha). Qualquer que seja a tomada de decisão, haverá probabilidade de erro (significância estatística (p-valor)), mesmo que seja baixa. A figura 13 mostra as possibilidades de conclusão sobre um teste de hipóteses. Figura 13- Possibilidades para a conclusão de um teste de hipóteses Ho é verdadeira Ho é falsa Rejeita Ho Erro tipo I (α) Decisão Correta (1 – β) Aceita Ho Decisão Correta (Probabilidade: 1- α) Erro tipo II (β) Fonte: MEDRONHO (2009) O erro tipo I é a probabilidade de rejeitar Ho quando Ho é verdadeiro (α) e o erro tipo II (β) é a probabilidade de aceitar Ho quando Ho for falso (Figura 13). Antes de realizar o teste estatístico fixa-se a probabilidade α, sendo o mais utilizado 5% (ou p=0,05), ou seja, existe uma probabilidade de 5% rejeitar Ho quando Ho é verdadeiro. Após a realização do teste, se o valor de p resultante for inferior ao nível de significância estabelecido (α), rejeita-se Ho, se o p-valor for maior aceita-se Ho. Para cada estatístico, existe um modelo matemático que não será abordado neste material de estudo. No entanto, para facilitar a interpretação de resultados de testes, serão apresentadas algumas situações demostradas em artigos científicos. Exemplo 1 Tabela 6 – Analise bivariada entre orientação sobre teste do pezinho no pré natal e número de filhos. Orientação sobre teste do pezinho no pré natal Não tem filhos Possui filhos Total Valor de p n % n % n % Sim 24 35,3 51 55,4 75 46,9 0,009 Não 44 67,7 41 43,1 85 53,1 Fonte: SILVA et al, 2016. A tabela 6 apresenta a associação entre duas variáveis qualitativas, avaliada pelo teste de associação de qui quadrado cujo resultado final foi um valor-p = 0,009. Como os autores instituíram que rejeitariam Ho (nível de α) quando valor de p<0,05 (ou 5%), então conclui-se que houve associação entre as duas variáveis mostradas na tabela 6. 29 Exemplo 2 Tabela 7 – Análise bivariada entre sintomas depressivos prévios e idade (anos) entre enfermeiros da Estratégia Saúde da Familia. Guarulhos, 2016. Sintomas prévios de depressão Média da idade Desvio Padrão da idade Valor de p Sim 35,4 7,8 0,72 Não 34,6 9,0 Fonte: FERNANDES, MARCOLAN, 2017. O valor de p apresentado na tabela 7 indica o resultado de um teste de diferença de médias (t-student) e o resultado final desta analise foi um valor de p de 0,72. Verifica-se que este teste analisa a diferença entre duas médias (portanto deve ser variável quantitativa, no caso idade) entre dois grupos (variável qualitativa: ter ou não sintomas depressivos). O nível de significância estabelecido pelos autores para aceitarem Ha (e rejeitar Ho) foi de 5% (ou 0,05), portanto, neste caso, aceita-se Ho, ou seja, não houve diferenças de médias estatisticamente significantes entre os enfermeiros com e sem sinais de depressão neste estudo. Há uma diversidade de cálculos matemáticos envolvidos nos testes estatísticos apresentados (assim como em outros que aqui não foram citados) para avaliação de relação entre variáveis, a fim de obter conclusões que geram conhecimento científico sobre causalidade e inferências populacionais. É importante conhecer esses modelos matemáticos a fim de avaliar a sua empregabilidade nos estudos, no entanto, o intuito deste material de estudo foi apresentar conceitos introdutórios sobre a aplicação e interpretação de resultados de alguns testes estatísticos. 30 REFERÊNCIAS CRESPO, A. A. Estatística fácil. 19. ed. São Paulo: Saraiva, 2009. FERNANDES, D.M.; MARCOLAN, J.F. Trabalho e sintomatologia depressiva entre enfermeiros da Estratégia Saúde da Familia. Rev. Eletronica Saúde Mental Alcool Drog. 2017, v. 13, n. 1, p. 37-44. INSTITUTO BRASILEIRO DE GEOGRAFIAE ESTATISTICA. Normas de apresentação tabular. 3. ed. Rio de Janeiro: IBGE, 1993. LARSON, R; FARBER, B. Estatística aplicada. 4 ed. São Paulo: Pearson, 2010. MEDRONHO, R.A. Epidemiologia. 2 ed. São Paulo: Atheneu, 2008. MELLO JORGE, M. H. P.; GOTLIEB S. L. D. As condições de saúde no Brasil. Rio de Janeiro: FIOCRUZ, 2000. ORGANIZAÇÃO PAN-AMERICANA DA SAÚDE. Módulos de Princípios de Epidemiologia para o Controle de Enfermidades. Módulo 3: medida das condições de saúde e doença na população. Brasília: Organização Pan-Americana da Saúde/ Ministério da Saúde, 2010. PAGANO, M.; GAUVREAU, K. Princípios de bioestatística. São Paulo: Thomson Pioneira, 2003. PEREIRA MG. Epidemiologia: teoria e prática. Rio de Janeiro: Guanabara Koogan, 2016. SILVA, M. P. C.; CONTIM, D.; FERREIRA, L. A.; MARQUI, A. T. Teste do pezinho: percepção das gestantes nas orientações no pré-natal. Rev. Bras. Saude Mater. Infant. 2017, v.17, n.2, p.291-298. SILVESTRE, M.R.; SANT’ANA NETO, J.L.; FLORES, E.F. Critérios estatísticos para definir anos padrão: uma contribuição à climatologia geográfica. Revista Formação, n.20, v.2, p. 23-53, 2013. SOUZA, A.C.; ALEXANDRE, N.M.C.; GUIRARDELLO, E.B. Propriedades psicométricas de instrumentos: avaliação da confiabilidade e da validade. Epidemiol. Serv. Saúde, v.26, n.3, p.649-59, 2017. VIEIRA, S. Introdução à Bioestatística. 4. ed. São Paulo: Elsevier, 2008.
Compartilhar