Baixe o app para aproveitar ainda mais
Prévia do material em texto
Júlia Souza Bioestatística Médica Introdução à Bioestatística Amostragem Descrição e Apresentação de dados Organização dos Dados Medidas de Tendências Centrais Representação Gráfica Software para Cálculos Estatísticos Medidas de Dispersão Critérios de Causalidade Análise de Correlação e Regressão Estatística Referencial Estatística Inferencial Inferência sobre 2 Medidas Inferência sobre 2 Proporções Testes Bioestatísticos 1 Júlia Souza Introdução à Bioestatística ➔ É a aplicação da estatística ao campo biológico e médico, sendo essencial ao planejamento, coleta, avaliação e interpretação de todos os dados obtidos em pesquisa em tais campos ➔ Fundamental à epidemiologia, à ecologia, à psicologia social e à medicina baseada em evidência Surgimento da bioestatística ➔ Durante a guerra da crimeia se preocupou em observar o fenômeno que indicava que aconteciam muito mais baixas no hospital do que numa batalha, então, começou a coletar informações e deduziu que essa situação ocorria devido às péssimas condições de higiene que predominavam nos hospitais Diagrama de rosa ➔ É um dos diagramas mais influentes da história, pois mudou a atitude do exército britânico para assistência médica, consequentemente influenciando também os hospitais civis. Porque estudar a bioestatística? ➔ Para decidir se eles podem acreditar ou não os resultados apresentados na literatura ➔ Para aplicar os resultados de estudo aos cuidados com o paciente ➔ Interpretar as estatísticas vitais ● Ex: plataforma do dataSUS ➔ Para entender os problemas epidemiológicos ● Ajudam a sociedade nas decisões em relação a implementação das políticas públicas de saúde ➔ Para interpretar informações sobre drogas e equipamentos ➔ Para usar técnicas diagnósticas ➔ Para avaliar diretrizes (Guidelines) ➔ Para participar ou dirigir projetos de investigação População ➔ Conjunto de indivíduos ou objetos que apresentam em comum determinadas características definidas para o estudo. ● Ex: População de pacientes internados em um dado hospital. ➔ Uma população pode ser finita e pequena, sendo fácil de conhecer todos os seus elementos, ou finita e incontável ou mesmo infinita. ➔ Nestes dois últimos casos, para conhecer uma população, a estatística lança mão de um recurso que é coletar uma amostra desta população e caracterizar alguma variável da população a partir dos resultados obtidos a partir da amostra, ou seja, tirar conclusões sobre a população a partir de resultados obtidos em amostras (inferência estatística). ➔ Geralmente é representada por N. ➔ Corresponde ao conjunto de todos os elementos relativos a um determinado fenômeno que possuem pelo menos uma característica em comum, a população é o conjunto Universo. ➔ Em outras palavras, é o conjunto de todos os indivíduos ou objetos que fazem ou que podem fazer parte de um estudo ou pesquisa. 2 Júlia Souza Amostragem ➔ Amostra: é qualquer parte de elementos selecionados de uma população estatística. ➔ Amostragem: é a de determinação de uma amostra a ser pesquisada: Uma parte do grupo ➔ Censo: envolve o exame de todos os elementos de um dado grupo: Grupo todo Utilização das amostras ➔ IBGE: PNAD – Pesquisa Nacional por Amostragem Domiciliar ➔ Indústria Farmacêutica: Eficácia de novas drogas ➔ Atividades de exames médicos: sangue; biópsias; etc.. Situações em que são recomendadas o uso do CENSO ➔ Quando a população for pequena: ● Ex.: Uma empresa que tem 100 colaboradores no Nordeste... ➔ Quando os dados a respeito da população forem facilmente obtíveis: ● Ex.: Uma empresa deseja traçar o perfil de gastos com serviços médicos hospitalares de seus colaboradores, existentes em um sistema informatizado... ➔ Se os requisitos do problema em estudo impõem a obtenção de dados específicos de cada elemento da população: ● Ex.: Uma empresa de Plano de Saúde deseja saber, junto aos seus 550 clientes, o grau de potencial de risco com uma determinada doença que possui altos custos de atendimento... ➔ Por imposição Legal ● Ex.: Existência de legislação que impõe a realização de determinado procedimento... Vantagens de Amostrar ➔ Economiza mão-de-obra, dinheiro e tempo ➔ Possibilita rapidez na obtenção dos resultados e maior precisão dos dados ➔ É a única opção quando o estudo resulta em distribuição ou contaminação dos elementos pesquisados VANTAGENS DA AMOSTRA VANTAGENS DO CENSO 1. Pode ser mais atualizada 2. Menor custo 3. Maior controle de coordenação a) Menor chance de erro 4. Maior uniformidade na coleta de dados a) Maior comparação entre os mesmos 5. Em populações infinitas, torna-se impossível fazer o censo 1. Em populações pequenas o custo e o tempo de amostragem é o mesmo do censo 2. Se o tamanho da amostra é grande, em relação ao da população, vale a pena fazer o censo 3. Quando se necessita de precisão total, o censo é o único método aceitável. 3 Júlia Souza Premissas básicas da amostragem ➔ Há similaridade suficiente entre os elementos de uma população; poucos elementos representam adequadamente toda a população ➔ A discrepância entre os valores das variáveis da população (parâmetro) e os valores dessas variáveis obtidos na amostra (estatística) é minimizada ➔ Exemplo: ● Pessoas adultas devem apresentar, em exames de leucograma, entre 4500-11000 leucócitos por 10ml. Uma amostra de sangue de pacientes do hospital Y, durante uma semana de exames, observou-se valores médios 7.300ml Qualidades de uma boa amostra ➔ Precisão: exatidão dos resultados obtidos na amostra em relação aos resultados que seriam obtidos de toda a população. Quanto menor mais precisa a amostra ➔ Eficiência: Sob condições específicas, trazer resultados mais confiáveis do que outro, ou se, para um dado custo, produzir resultados de maior precisão, ou se, ainda, resultados com a mesma precisão forem obtidos a menor custo ➔ Correção: Refere-se ao grau de ausência de vieses não amostrais na amostra. São oriundos de influÊncias, conhecidas ou não, que fazem com que os resultados pendem mais numa direção Passos para seleção da amostra Conceitos sobre amostragem ➔ População de pesquisa: é o agregado de todos os casos que se enquadram num conjunto de especificações previamente estabelecidas ➔ Elemento de pesquisa (unidade de pesquisa): é a unidade sobre a qual se procura obter os dados. Pode ser: pessoas, lojas, indústrias, instituições etc ➔ Unidade amostral: é a unidade básica que contém os elementos da população. Planos de amostragem ➔ Definir os Objetivos da Pesquisa ➔ População a ser Amostrada - Parâmetros a ser Estimados (Objetivos) ➔ Definição da Unidade Amostral - Seleção dos Elementos que farão parte da amostra ➔ Forma de seleção dos elementos da população ➔ Tamanho da Amostra 4 Júlia Souza Designação apropriada de população de pesquisa ➔ Definição das especificações dos elementos de pesquisa ➔ Definição da unidade amostral ➔ Abrangência geográfica da pesquisa ➔ Período de tempo Exercícios 1. Quais os itens de serviços médico-hospitalares apresentam maior discrepância em termos de gastos da Empresa X sedada em Fortaleza, com seus colaboradores, durante os últimos 6 meses a) Qual o elemento de pesquisa? Os colaboradores da empresa X b) Qual a unidade amostral? Prontuários médicos da empresa X, em Fortaleza c) Qual a abrangência? Fortaleza d) Qual o período de tempo? 6 meses 2. Uma empresa Z de curitiba, que tem 100 colaboradores no Nordeste, desejar verificar se os prontuários médicos dos mesmos, nos últimos 3 meses de 20077, junto à empresa terceirizada contratada estão conforme as normas estabelecidas a) Qual o elemento de pesquisa: Colaboradores da empresa Z b) Qual a unidade amostral: Empresa Z, prontuários médicos c) Qual a abrangência: Curitiba d) Qual o período de tempo: Últimos 3 meses Tipos de Amostras e Amostragens ➔ Não Probabilísticas: Não há chance conhecida de que um elemento qualquer da população venha a fazer parte da amostra ➔ Probabilísticas: Cada elemento da população tem umachance conhecida e diferente de zero de ser selecionado para compor a amostra O que deve ser levado em conta durante o processo de escolha da amostragem ? ➔ O problema e o objetivo e o tipo da pesquisa ➔ A acessibilidade e a disponibilidades aos elementos da população ➔ A representatividade desejada ou necessária e a oportunidade apresentada de fatos ou eventos ➔ A disponibilidade de tempo, de recursos financeiros e humanos Amostragem não Probabilística ➔ Quando não se conhece a probabilidade de um elemento a população pertencer à amostra ➔ Ex.: quando somos obrigados a colher amostra na parte da população que temos menos acesso Razões para o uso dessa amostragem ➔ Quando não existir outra alternativa viável (a população toda não está disponível para sorteio) ➔ É tecnicamente superior na teoria, mas na prática, ocorrem problemas em sua aplicação ➔ A obtenção de uma amostra de dados que reflita precisamente a população não seja o propósito principal da pesquisa: não há intenção de generalizar os dados obtidos ➔ Não disponibilidade de tempo e recursos financeiros, materiais e humanos necessários para realização de uma pesquisa com amostragem probabilística ➔ Os dados sobre a população (número, listagens, etc) não são ou não estão disponíveis 5 Júlia Souza Amostragem não probabilística → Por Conveniência ➔ Os entrevistados são escolhidos por conveniência do pesquisador (se encontram no lugar certo no momento certo) ➔ É a menos confiável, mais barato e mais simples ➔ Utiliza-se para testar ou para obter ideias sobre determinado assunto de interesse ➔ Prestam-se muito bem aos objetivos da pesquisa exploratória ➔ Exemplo: uso de estudantes, grupos de igrejas, membros de organizações sociais… Amostragem não probabilística → Intencional ➔ São selecionados com base no julgamento do pesquisador, que usando sua experiência, escolhe os elementos a serem incluídas na amostra ➔ Exemplo: teste de mercado para determinar potencial de um novo produto.. Amostragem não probabilística → Por Quotas ➔ Um dos métodos mais usados em levantamentos de mercado e em prévias eleitorais ➔ Abrange 3 fases: 1. Classificação da população em termos de propriedades relevantes para o estudo 2. Determina a proporção da população para cada característica, com base na constituição conhecida, presumida ou estimada da população 3. Fixação de quotas para cada entrevistador a quem tocará a responsabilidade de selecionar entrevistados, de modo que a amostra total observada ou entrevistada contenha a proporção e cada classe tal como determinada da segunda fase Amostragem Probabilística ➔ Todos os elementos da população a probabilidade conhecida e ≠ de zero pertencerem à amostra ➔ Ex: 50 funcionários em uma atividade de treinamento, e você deve selecionar dez funcionários ➔ A realização deste tipo de amostragem só é possível se a população for finita e totalmente acessível Probabilística simples (aleatória simples) - AAS ➔ Cada elemento da população tem uma chance conhecida, diferente de zero, idêntica à dos outros elementos, de ser selecionado para compor a amostra Uma amostra tamanho N → Retirada de uma população de tamanho N → Toda amostra possível de tamanho N tenha a mesma probabilidade de ser selecionada → Cada elemento da população terá a mesma probabilidade de pertencer à amostra. Para selecionar uma amostra aleatória simples precisamos ter uma lista completa de unidades amostrais. 6 Júlia Souza Probabilística Aleatória Estratificadas - AAE ➔ Consiste na divisão da população em subgrupos internamente homogêneos e, externamente heterogêneos, com respeito às variáveis em estudo. ➔ Escolhidos os diversos estratos → Seleção de uma AAS em casa estrato de forma independentes ➔ Caso particular de AAS → A proporcionalidade do tamanho de cada estrato da população é mantida na amostra Probabilística Aleatória por Conglomerados (cluster) - AAC ➔ Divisão da população em subgrupos internamente heterogêneos. ➔ Ex.: Uma amostra de eleitores pode ser obtida pelo sorteio de um número de domicílios, trabalhadores por uma amostra de empresas ou estudantes por uma amostra de escolas. ➔ A unidade amostral contém mais de um elemento da população Probabilística Amostragem Sistemática ➔ Requer uma listagem dos itens da população, se não a amostragem pode dar uma amostra realmente aleatória, escolhendo-se cada k-ésimo item da lista, onde: K = 𝑁 𝑛 N = Tamanho da população n = Tamanho da amostra 7 Júlia Souza Análise e Descrição de Dados Análise Descritiva ou Exploratória de Dados ➔ Conjunto de Técnicas estatísticas e gráficas que permite explorar grandes massas de dados para uma primeira aproximação à realidade estudada, na procura de algum padrão ou comportamento relevante que esteja presente no conjunto de dados ➔ Os dados podem ser organizados: 1. Em tabelas → quando é importante a apresentação dos valores 2. Em gráficos ou mapas → apresentação de distribuições, tendências ou relacionamentos entre variáveis 3. Resumidos com o uso de estatísticas ➔ Variável: é a característica de interesse que se pode medir e que apresenta distintos valores ➔ Cada medida, ítem de formulário ou pergunta corresponde a uma variável ➔ Ex.: Idade, sexo, pressão arterial são variáveis que podem ser medidas ou observadas Variáveis Qualitativas ou Categóricas ➔ Variáveis Nominais: não existe ordenação dentre as categorias ● Ex: Sexo, cor dos olhos, fumante/não fumante ➔ Variáveis Ordinais: existe uma ordenação entre as categorias ● Ex: escolaridade, estágio da doença, mês de observação, número de leitos, número de casos, número de procedimentos Variáveis Quantitativas ➔ Variáveis Discretas: Características mensuráveis que podem assumir apenas um número finito ou infinito contável de valores e, assim, somente fazem sentido valores inteiros ● Ex: número de filhos, número de bactérias/L de leite, número de cigarros fumados por dia ➔ Variáveis Contínuas: assumem valores em uma escala contínua. Usualmente devem ser medidas através de um instrumento ● Ex: Peso (balança), altura (régua), tempo (relógio), pressão arterial, idade ➔ Escalas Intervalares e de razão ● O valor nulo não corresponde à ausência da característica medida, A escala possui um zero arbitrário → Ex: temperatura 8 Júlia Souza Análise Univariada ➔ Consiste na exploração da informação existente em cada variável separadamente, através da síntese de cada variável ● Tabelas ● Gráficos ● Mapas ● Medidas de resumo ou Estatísticas Apresentação Tabular ➔ Se faz mediante a tabelas ou quadros (apresentam as bordas laterais fechando o conteúdo tabulado ➔ Qualquer tipo de variável pode ser tabulada, porém há uma diferenciação na construção de tabelas dos diferentes tipos de variáveis Normas para elaboração de Tabelas ➔ Toda tabela deve ser auto-explicativa ➔ Normas do IBGE para apresentação de tabelas ● As tabelas devem ser fechadas no alto e embaixo por linhas horizontais ● Não são fechadas à direita e nem à esquerda por linhas verticais. ● É facultativo o emprego de traços verticais para separação de colunas no corpo da tabela ● Os totais e subtotais são destacados (negrito, itálicos..) ● O título deve conter a descrição básica do conteúdo local e época em que foram coletados os dados ● Deverá ser mantida a uniformidade quanto ao número de casas decimais ➔ Ex.: Tabulação de uma variável nominal ➔ Ex.: Representação de uma variável nominal 9 Júlia Souza ➔ Diferentes formas de histograma: ➔ Histogramas com classes de tamanhos diferentes Organização dos Dados Medidas de resumo ou estatísticas ➔ Síntese numérica: medidas de resumo ● Além das tabelas de frequências, as variáveis podem ser resumidas em medidas que informam o “centro dos dados” e a variabilidade dos mesmos em relação a este “centro” ➔ Medidas de Posição ou de Tendência Central - média, mediana, moda ➔ Medidas de Dispersão ou de Variabilidade - amplitude, distância, desvio médio, variância, desvio padrão e coeficiente de variação 10 JúliaSouza Organização dos Dados ➔ A quantidade de dados em geral é grande e torna-se difícil, por simples inspeção, obter informações sobre aspectos importantes dos dados ➔ É importante obter uma estatística descritiva dos dados: resumos em forma de tabelas, gráficos e indicadores numéricos de centro e variabilidade Principais aspectos ao descrever um conjunto de dados ➔ Métodos de Estatística descritiva são aplicáveis as seguintes situações: ● Para o censo, a estatística descritiva destes dados podem ser apresentados em relatórios que podem ser apresentados ao público, podem ser partes de dados para ações governamentais ● Para dados amostrais, a estatística descritiva serve como ponto de partida para estudos posteriores, tal que inferências sobre a população possam ser feitas Resumo e descrição do padrão geral dos dados ➔ Apresentação de tabelas e gráficos ● Observação das características importantes nas formas dos gráficos, tais como simetria ou assimetria ● Explorar nos gráficos a presença de observação não usuais, ou seja, observações que parecem estar distantes dos valores onde ocorrem a maior parte dos dados Cálculo de medidas numéricas ➔ Um valor indicando o centro dos dados (média, mediana, moda..) ➔ Uma medida da variação nos dados Tabelas e Gráficos Definições ➔ n: número total de observações ➔ Frequência absoluta (f): é o número de vezes que um dado valor foi observado ➔ Frequência relativa (fr): é o quociente entre a frequência absoluta e o número total de observações fr = (f % = f.100) 𝑓 𝑛 11 Júlia Souza Tabelas e Gráficos para dados Categóricos ➔ Tabela Resumo: Apresenta os resultados (frequências) em cada categoria ● Ex.: Carteira de Investimentos ➔ Gráfico de Pizza/Setor: O setor representa a frequência ou porcentagem de cada categoria ➔ Gráfico de Barras: Representa a frequência ou porcentagem de cada categoria Tabelas e Gráficos para Dados Numéricos 12 Júlia Souza ➔ Disposição Ordenada: ● Em ordem crescente, do menor valor para o maior valor ● Fornece alguns sinais de variação dentro do intervalo ● Pode ajudar a identificar pontos extremos (distantes da maioria) ● Se o conjunto de dados é muito grande, a disposição ordenada e pouco utilizada ➔ Diagrama de Pontos: O número de pontos sobre o valor representa a frequência deste. ➔ Distribuição de Frequência: uma lista ou uma tabela contendo a frequência de cada dado dentro de uma categoria, ou de um determinado valor ou de um intervalo. ● Frequência Acumulada (fA): soma de todas frequências menores ou iguais ao valor analisado ● Frequência acumulada relativa (fAr): soma de todas frequências relativas até o valor... Organização dos Dados em Intervalos de Classes ➔ Classe: intervalo no qual é agrupado um conjunto de valores dos dados ➔ Amplitude dos dados: maior valor - menor valor ➔ Cada e qualquer dado deve pertencer a uma das classes ➔ O limite inferior da primeira classe deve ser menor ou igual ao menor dos dados ➔ O limite superior da última classe deve ser maior que o maior dos dados ➔ Os limites do intervalo da classe devem ser de fácil leitura Histograma ➔ Um gráfico de barras com dados representados por uma distribuição de frequência ➔ Os pontos médios das classes são representados no eixo horizontal ➔ No eixo vertical pode-se representar a frequência (f), a frequência relativa (fr) ou a porcentagem ➔ As barras são utilizadas para representar o número de observações (ou a fr ou a porcentagem) dentro de cada classe 13 Júlia Souza Medidas de Tendências Centrais ➔ Em uma turma de uma escola de Medicina, um aluno registrou o batimento cardíaco por minuto de seus colegas, obtendo os seguintes dados Observe que nesta tabela, muitos valores aparecem repetidas vezes. Mais ainda, os dados encontram-se dispostos de modo aleatório, complicando uma análise mais detalhada de seus elementos Assim, somos levados a produzir um tipo especial de tabela, a fim de facilitar o entendimento e a análise dos seus dados. A esse tipo de tabela chamaremos de distribuição de frequências “A frequência de um valor será o número de vezes que esse valor aparece na amostra” Desse modo, podemos expressar os dados de acordo com a seguinte distribuição de frequências: Medidas Estatísticas 14 Júlia Souza Representação Gráfica Gráfico de Colunas Gráfico de Barras Gráfico de Linhas Gráfico em Setores 15 Júlia Souza Gráfico de Hastes ou Bastões Gráfico em Escada Histograma 16 Júlia Souza Softwares para Cálculos Estatísticos STATA ➔ O STATA é um pacote de Software estatístico completo e integrado que fornece tudo o que você precisa para análise de dados, gerenciamento de dados gráficos ➔ Ferramentas Estatísticas do STATA ● Tabulações básicas e resumos ● Análise de caso-controle ● ARIMA ● ANOVA e MANOVA ● Regressão linear ● Smoothers de séries temporais ● Modelos lineares generalizados (GLM) ● Análise de cluster ● Contrastes e comparações ● Análise de potência ● Modelagem de escolha ● Seleção de amostra ● Modelos multinível ● Modelos de sobrevivência com fragilidade ● Regressões de dados de painel dinâmico (DPD) ● MEV (Modelagem de equações estruturais) ● Resultados binários ● ARCO ● Múltipla imputação ● Análise de classe latente (LCA) ● Efeitos do tratamento ● Dados de pesquisa ● Análise bayesiana ● Modelos de mistura finita (FMM) EPI-INFO ➔ É uma série de programas desenvolvidos pelo CDC ➔ Possuem recursos para auxiliar na coleta, análise e visualização de dados. Esse programa é muito útil e difundido entre os profissionais de saúde pública. ➔ É um software de domínio público e pode ser acessado para download no site do CDC. SPSS Programa “R” ➔ R é uma linguagem de programação multiparadigma (com ênfase em programação funcional), dinâmica, fracamente tipada, voltada à manipulação, análise e visualização de dados. 17 Júlia Souza Medidas de Dispersão Percentis ➔ Os percentis são medidas que dividem a amostra (por ordem crescente dos dados) em 100 partes, cada uma com uma porcentagem de dados aproximadamente igual a mediana representa o percentil 50 ➔ O primeiro percentil determina 1% menor dos dados; e o 98 percentil determina os 98% menores dos dados Quartis ➔ Representados por Q1, Q2 e Q3 (primeiro, segundo e terceiro quartil), são medidas de posição que dividem a série de dados em quatro partes de igual número de observações ➔ Correspondem aos 25,50 e 75 percentis ➔ Considerando um conjunto de valores ordenados, o primeiro quartil é precedido por 3n/4 observações do conjunto ➔ O segundo quartil coincide com a mediana (Q2 = md), dividindo, portanto, a série em duas partes iguais ➔ Se tivermos um grupo de 20 resultados, cada quartil vai ter 5 Quintis ➔ São medidas de posição que dividem a série de dados ordenados em cinco partes de igual número de observações ➔ Correspondem aos 20, 40, 60, 80 percentis Medidas de Dispersão Medidas de tendência central fornecem um resumo parcial das informações de um conjunto de dados. São insuficientes para representar adequadamente conjunto de dados, pois nada revela sobre sua variabilidade A necessidade de uma medida de variação nos permite comparar conjuntos diferentes de valores ➔ As amostras A,B e C apresentam um maior número de observações mais distantes da média, enquanto nas amostras D, E e F ocorre um maior número de observações concentradas em torno da média ➔ Torna-se interessante que haja uma definição a qual use todas as observações e que seja um pequeno valor quando as observações e que seja um pequeno valor quando as observações se aproximam da média e grande quando estas são espaçadas. Ex.: Amostra A → 5,6,8,10,12,14,15 Amostra B → 105,106,108,110,112,114,115 A dispersão (Y7-Y1) é igual nas duas amostra e, portanto, independe do tamanho dos números 18 Júlia Souza ➔ O critério geralmente utilizado é aquele que mede a concentração dos dados em torno da média, e algumas medidas são as mais usadas Amplitude ➔ Diferença entre o menor e o maior valor ● Ex1.: -10, 0, 10,20, 30 = 30 - (-10) = 40 ● Ex2.: 8, 9, 10, 11, 12 = 12 - 8 = 4 Variância ➔ A medida que contempla os aspectos apresentados e que é mais utilizada é a variância. ➔ A Variância é representada por dois símbolos ● Variância Populacional: É a média dos quadrados dos desvios do conjunto de dados ● Igual a variância populacional, porém, dividido por n-1 A unidade da variância é portanto o quadrado dos dados originais. Desvio Padrão ➔ Mede a dispersão de uma distribuição de dados. Quanto mais dispersa for uma distribuição de dados, maior será seu desvio-padrão ● Sendo a variância uma medida que expressa um desvio quadrático médio, esta pode causar alguns problemas de interpretação. Para evitar, isto, costuma-se usar o desvio padrão, que é definido como a raiz quadrada positiva da variância Coeficiente de Variação ➔ Quando se analise a mesma variável em duas amostras, pode-se comparar os desvios padrão observados e verificar onde a verificação é maior. ● Exemplo: se em uma delas a espessura da semente tem desvio padrão igual a 1.29mm e na outra, s = 0,51mm, conclui-se que a variação é maior na primeira amostra ● Para comparar variabilidades, neste caso, deve-se usar o coeficiente de variação (CV), que é uma medida de dispersão independente da unidade da mensuração da variável ● Haverá um coeficiente de variação para cada unidade de mensuração ● Geralmente expresso em porcentagem ● Vantajosa para comparação de distribuições cujas unidades podem ser diferentes 19 Júlia Souza Critérios de Causalidade Formas de Causalidade Causa Necessária e Suficiente ➔ Aquela que está presente sempre que algo ocorre, e não está presente quando não acontece ➔ É portanto, necessária para que o efeito ocorra, e somente ela é suficiente para tal ➔ Ex.: A trissomia do cromossomo 21 é a causa necessária e suficiente para que a Síndrome de Down ocorra. Causa Necessária Não Suficiente ➔ É aquela que se estiver ausente, o efeito não ocorre, mas se estiver presente, não implica que o efeito necessariamente ocorra. ➔ Ex.: Tuberculose ● A presença da bactéria causadora (Mycobacterium Tuberculosis) no pulmão não é suficiente para que a doença ocorra, pois fatores imunológicos podem impedir a instalação ou manifestação da doença Fator de Risco ➔ É um fator cuja presença aumenta a chance de algo ocorrer, mas não pode ser implicado como causa. ➔ Somente uma investigação detalhada e precisa decidirá se um fator de risco será considerado uma causa ou não. ➔ Ex.: O fumo aumenta significativamente o risco de várias formas de câncer, mas não é provado ser a causa. ➔ Da mesma forma temos o fator de proteção, que é um fator que quando está minimamente presente numa população reduz de forma significativa o risco da doença Causa X Associação ➔ A existência de uma associação não implica em relação causal Postulados de Henle-Koch ➔ Fruto da revolução microbiológica ➔ Predomínio de doenças infecciosas e da explicação unicausal para doenças ● O agente deve estar presente em todos os casos da doença em questão (causa necessária) ● O agente não deve ocorrer de forma casual em outra doença (especificidade do efeito) ● Isolado do corpo e crescido em cultura, o agente inoculado em susceptíveis deve causar doença (causa suficiente) ● Nada sobre a especificidade da causa 20 Júlia Souza ➔ Críticas: ● Existe o estado de portador ● Certos fatores podem ter múltiplos efeitos ● Difícil crescer em cultura certos agentes ● Evidências empíricas da multicausalidade ● Impróprio para doenças crônicas Causa de Causalidade - Critérios de Hill ➔ Força de Associação: quanto mais forte uma associação, maior será a possibilidade de se tratar de uma relação causal ➔ Consistência ou replicação: se o mesmo resultado é obtido em diferentes circunstâncias, a hipótese causal seria fortalecida → Associações não causais podem ser consistentes e depende o contexto do estudo (pop; métodos) ➔ Gradiente Biológico: curva dose-resposta → pode somente de outras variáveis e nem sempre ela de fato existe ➔ Temporalidade: a causa deve sempre preceder o efeito → consensual ➔ Especificidade: causa levando a um só efeito e o efeito ter apenas uma causa → quase inútil ➔ Coerência: ausência de conflitos entre os achados e o conhecimento sobre a história natural da doença → conservador ➔ Evidência experimental: estudos experimentais são de difícil realização em populações humanas ➔ Analogia: efeitos de exposições análogas existem? → serve mais para quebrar a resistência a um novo conhecimento ➔ Plausibilidade: existe plausibilidade biológica para o efeito existir? → depende do conhecimento acumulado até o momento Modelos de Causalidade ➔ São maneiras de pensar a realidade e expressam nossa imaginação sobre com o mundo deve funcionar Modelo de causas suficientes e componentes (Rothman) ➔ Implicações: ● Multicausalidade: cada mecanismo causal envolve a ação conjunta de várias causas componentes ● Força de associação: depende da prevalência das causas componentes ● Períodos de indução: para cada causa componente e não específico para a doença ● Controle de doenças: pode se basear em causas componentes isoladas 21 Júlia Souza Método Científico Raciocínio Epidemiológico ➔ Suspeita em relação a uma possível influência de um fator na ocorrência de uma doença ➔ Formulação de uma hipótese específica ➔ Teste da Hipótese através de estudos epidemiológicos que incluem grupos adequados para a comparação 22 Júlia Souza Regressão e Correlação ➔ As observações frequentemente estão misturadas com variações acidentais ou aleatórias ➔ É conveniente supor que cada observação é formada por duas partes: ● Previsível = controlada → Incorpora o conhecimento sobre o fenômeno, e é usualmente expressa por uma função matemática com parâmetros desconhecidos ● Não previsível = aleatória → deve obedecer algum modelo de probabilidade Observação = previsível + aleatório yi = 𝛉 + ei yi → Observação i 𝛉→ Efeito fixo, comum a todos os indivíduos ei → “erro” da observação i, ou efeito residual ou aleatório Exemplo.: considerando que o peso médio da população é de 𝛉 = 62 Kg, então o peso de cada pessoa yi pode ser descrita pelo seguinte modelo yi = 62 + ei Cada ei determinará o peso de cada pessoa, em função de diversos fatores como: altura, sexo, idade ei = f A medida que relacionamos o peso com outras variáveis, ganhamos informação e diminuímos o erro Regressão Linear ➔ Em uma análise de regressão linear consideramos apenas as variáveis que possuem uma relação linear entre si ➔ Uma análise de regressão linear múltipla pode associar K variáveis independentes (X) para “explicar” uma única variável dependentes (Y) Y = 𝜷0 + 𝜷1X1 + 𝜷2X2 + … 𝜷kXk + e ➔ Uma análise de regressão linear simples associa uma única variável independente (X) com uma variável dependente (Y) Y = 𝜷0 + 𝜷1X + e Interpretar os Parâmetros ➔ 𝜷0 → representa o ponto onde a reta corta o eixo Y (na maioria das vezes não possui interpretação prática) ➔ 𝜷1→ representa a variabilidade em Y causada pelo aumento de uma unidade em X. 23 Júlia Souza Estimação dos Parâmetros Yˆi = βˆ 0+βˆ1X i ➔ Yˆ i é o valor estimado de Yi , através das estimativas de β0 e β1, que chamaremos de βˆ 0eβˆ1 ➔ Para cada valor de Yi , temos um valor Yˆ i estimado pela equação de regressão Yi = Yˆi +ei ➔ Portanto, o erro (ou desvio) de cada observação em relação ao modelo adotado será: ● ei = Yi −Yˆ i ● ei = Yi − (β0 + β1Xi) ➔ Devemos então adotar um modelo cujos parâmetros β0 e β1, tornem essa diferença a menor possível. ➔ Isso equivale a minimizar a soma de quadrados dos resíduos (SQR), ou do erro Exercício.: A tabela a seguir relaciona as distâncias percorridas por carros (km) e seus consumos de combustível (litros), em uma amostra de 10 carros novos. DISTÂNCIA 20 00 60 00 15 00 45 00 35 00 80 00 70 00 73 28 00 85 00 CONSUMO 1.335 451 663 46 2.92 6.15 4.11 5 2.95 6.54 A. Faça um diagrama de dispersão B. Traçe um modelo linear aproximado C. Estime osparâmetros βˆ 0eβˆ 1 D. Interprete o resultado. Pode-se concluir que para percursos mais longos há maior consumo de combustível? E. Faça uma predição do consumo de combustível para uma distância de 50 km. 24 Júlia Souza Correlação ➔ Estuda o grau de relacionamento entre as variáveis X e Y , ou seja, uma medida de variabilidade entre elas. ➔ É considerada como uma medida de influência mútua entre variáveis, por isso não é necessário especificar quem influencia e quem é influenciado. Coeficiente de Determinação - r2 ➔ É o quadrado do coeficiente de correlação, por consequência 0 ≤ r 2 ≤1 ➔ O r2 dá a porcentagem de variação em Y que pode ser explicada pela variável independente X ➔ Quanto mais próximo de 1, maior é a explicação da variável Y pela variável X . 25 Júlia Souza Inferência Estatística ➔ Processo de obtenção de conclusões confiáveis sobre uma população geral, baseando-se em uma amostragem de dados. Teste de Hipóteses ➔ Como na maioria das vezes, os dados provêm de amostras, a decisão final a respeito de uma hipótese científica está associada a uma probabilidade de erro ➔ Examina duas hipóteses opostas sobre uma população: ● Hipótese nula → é a declaração de “nenhum efeito” do que está sendo testado ● Hipótese alternativa → é a declaração que você quer ser capaz de concluir como verdadeira ➔ O erro de decisão não pode ser evitado, mas sua probabilidade pode ser controlada ou mensurada, obtendo-se assim uma medida de validade das conclusões obtidas ➔ Bilateral ou Não Direcional ● É apropriada para determinar se o conteúdo a ser analisado está dentro ou fora de uma média ● Ex.: Um pesquisador possui resultados para uma amostra de estudantes que fizeram um exame nacional em uma escola secundária e deseja saber se as notas nessa escola são diferentes da média nacional de 850. ➔ Unilateral ou Hipótese Direcional ● Pode ser usada quando está especificamente levantando a hipótese de que o conteúdo analisado está acima da média. ● Ex.: Um pesquisador tem resultados de exames para uma amostra de alunos que fizeram um curso de formação para um exame nacional e quer saber se os alunos formados obtiveram pontuação acima da média nacional de 850. Conceitos ➔ Distribuição amostral de uma estatística: Mostra os resultados esperados, visto que as condições de tamanho da amostra estatística usada e o valor do parâmetro são estabelecidos. ➔ Erro padrão de uma distribuição amostral: Corresponde ao desvio-padrão de uma distribuição empiricamente obtida. Ele nos dá uma indicação sobre a dispersão da distribuição e quanto maior a amostra, menor o erro padrão da amostra. ➔ Probabilidade de confiança: É quando podemos estimar a probabilidade de que uma medida populacional realmente recaia dentro do intervalo de valores, centrados na estatística amostral. ➔ Valores críticos: São os valores da estatística tabelada, para os diversos significância determinados níveis de mediante o áreas de emprego das tabelas de distribuições ( Z, t , F ) e de outras tabelas estatísticas não paramétricas. ➔ Nível de significância: É a máxima probabilidade de rejeitar H0 sendo verdadeira. Esta probabilidade (alfa) é especificada antes da extração da amostra de modo que os resultados não influenciam na escolha. Na prática usamos 1% ou 5%. ➔ Erros: ● Tipo I: Quando a hipótese H0 é rejeitada e é verdadeira. ● Tipo II: É o erro cometido quando aceitamos uma hipótese nula falsa 26 Júlia Souza Lista de Exercícios Questão 1 A tabela abaixo apresenta incorreções, do ponto de vista da apresentação tabular. Analise os erros e refaça corretamente a tabela. Questão 2 O Centro de Saúde da área A, em 1999, fez uma pesquisa de campo, para conhecer a situação sanitária dos poços artesianos da área. Foram percorridos, então, os 100 domicílios com poços da área A. Dos 100 domicílios, 30 estavam na zona rural e os demais eram urbanos. Quanto à situação dos poços artesianos, 20 domicílios apresentavam poços contaminados e os demais apresentavam poços não contaminados. Sabendo-se que apenas cinco domicílios urbanos apresentaram poços contaminados, construa uma tabela completa para apresentar esses resultados Questão 3 Um levantamento foi realizado com o objetivo de estimar a prevalência de verminose entre escolares. Foram observadas 500 crianças, das quais 280 eram do sexo masculino e, entre elas, 196 apresentaram sinais de verminose. Entre as meninas, 50% apresentavam sinais de verminose. Construa a distribuição de frequência com esses dados No total (500), qual a proporção de estudantes com sinais de verminose? Comente os resultados encontrados Questão 4 No hospital X em 1999 apresentou um movimento de 10.000 internações em 3 clínicas (Pediátrica, Ortopédica e Cirúrgica). A Clínica Cirúrgica contribuiu com 50% dessas internações. Na Pediátrica foram internadas 4000 crianças, das quais 2.500 eram do sexo masculino. Na ortopédica houve o mesmo número de pacientes em casa sexo. Os pacientes do sexo feminino eram 4.000. Construa uma tabela completa com esses dados informados pelo Serviço de Arquivamento Médico e Estatístico (SAME) do hospital. Questão 5 Apresente os dados da tabela em um gráfico apropriado. Tabela 1: Distribuição de crianças segundo nível de retinol sérico. Cansanção, Bahia, 1992. 27 Júlia Souza Questão 6 Apresente os dados da tabela em: A) Um histograma B) Um polígono de frequências. Questão 7 Calcule a percentagem de homens e mulheres que trabalham num banco, sabendo-se que nesse banco há 45 homens e 15 mulheres. Questão 8 Determine a percentagem de notas negativas, em Cálculo, de uma turma de 22 alunos, sabendo que 7 tiraram notas negativas. (apresente o resultado com 1 casa decimal). Questão 9 Em certa eleição municipal foram obtidos os seguintes resultados: O número de votos obtido pelo candidato vencedor foi: A) 178 B) 182 C) 184 D) 188 E) 191 28
Compartilhar