Baixe o app para aproveitar ainda mais
Prévia do material em texto
Faculdade Santa Maria BIOESTATÍSTICA PROFESSOR: Francisco Yarllison Silva Freitas Email: yarllisionfreitas@hotmail.com INTRODUÇÃO A BIOESTATÍSTICA O que é Estatística? Parte da matemática aplicada que fornece métodos para coleta, organização, descrição, análise e interpretação dos dados e para utilização dos mesmos na tomada de decisão (CRESPO, 2002). E a Bioestatística ? Permite aplicar a estatística para resolução de problemas biológicos. INTRODUÇÃO A BIOESTATÍSTICA ??? Medicina x Estatística ??? evidência da eficácia dos tratamentos clínicos e da existência de associação entre hábitos de indivíduos e desenvolvimento de doenças é apresentada, há muitos anos, , nos periódicos médicos através da linguagem estatística. Isto torna imprescindível o conhecimento dos métodos estatísticos fundamentais tanto para o clínico quanto para o pesquisador médico. Alguns Conceitos em bioestatística Variável x Dados Variável é uma condição ou característica das unidades da população; a variável pode assumir valores diferentes em diferentes unidades. Dados são os valores da variável em estudo, obtidos por meio de uma amostra. Variáveis x Dados Tipos de variáveis Variáveis quantitativas ou numéricas Variáveis qualitativas ou categorizadas Coleta de Dados TÉCNICAS DE AMOSTRAGEM Amostragem: Método empregado para recolher uma amostra Amostra aleatória, casual ou probabilística Amostra semiprobabilística Amostra não-probabilística ou de conveniência A amostra aleatória, casual ou probabilística A amostra aleatória ou probabilística é constituída por n unidades retiradas ao acaso da população. Em outras palavras, a amostra aleatória é obtida por sorteio. Logo, toda unidade da população tem probabilidade conhecida de pertencer à amostra. Amostra aleatória simples Amostra aleatória estratificada A amostra semiprobabilística É constituída por n unidades retiradas da população por procedimento parcialmente aleatório. Dentre as amostras semiprobabilísticas, temos: Amostra sistemática Amostra por conglomerados Amostra por quotas. Alguns Conceitos em bioestatística A amostra sistemática é constituída por n unidades retiradas da população segundo um sistema preestabelecido. Alguns Conceitos em bioestatística A amostra por conglomerados é constituída por n unidades tomadas de alguns conglomerados. O conglomerado é um conjunto de unidades que estão agrupadas, qualquer que seja a razão. Alguns Conceitos em bioestatística A amostra por quotas é constituída por n unidades retiradas da população segundo quotas estabelecidas de acordo com a distribuição desses elementos na população. A ideia de quota é semelhante à de estrato, com uma diferença básica: você seleciona a amostra por julgamento e depois confirma as características das unidades amostradas. amostra não-probabilística ou de conveniência É constituída por n unidades reunidas em uma amostra simplesmente porque o pesquisador tem fácil acesso a essas unidades. Calculo amostral Quando quero fixar o erro máximo que estou disposto a aceitar em uma pesquisa, é comum nos referirmos a dois parâmetros: a margem de erro e o nível de confiança. O que cada um deles significa? A margem de erro é o intervalo no qual espero encontrar o dado que quero medir do meu universo. O nível de confiança expressa a certeza de que o dado que buscamos realmente está dentro da margem de erro. Por exemplo, quero poder estimar o número de brasileiros entre 15 e 65 anos que têm casa própria, afirmando que são um total de 61,35 milhões de pessoas (45% da população) com uma margem de erro de 5%, isso significa que a realidade está entre 64,42 milhões (47,25%) e 58.28 milhões (42,75%). se obtemos um nível de confiança de 95%, poderíamos dizer que a porcentagem de pessoas do meu universo que têm casa própria, em 95% dos casos se encontrará entre 42,75% e 47,25%. Ou seja, se eu repetir a minha pesquisa 100 vezes, selecionando amostras aleatórias do mesmo tamanho, 95 vezes a proporção que eu busco estaria dentro do intervalo e 5 vezes fora dele. TAMANHO DA AMOSTRA TAMANHO DA AMOSTRA n = O tamanho da amostra que queremos calcular N = Tamanho do universo (p.e. 136 milhões de brasileiros entre 15 e 65 anos) Z = É o desvio do valor médio que aceitamos para alcançar o nível de confiança desejado. e = É a margem de erro máximo que eu quero admitir (p.e. 5%) p = É a proporção que esperamos encontrar. Exemplo: Temos uma população de 136 milhões de brasileiros entre 15 e 65 anos, queremos saber qual a % deles tem casa própria, com uma margem de erro de 5% e um nível de confiança de 95%. Vamos supor que não temos nenhuma informação prévia sobre qual é a % de proprietários que podemos obter na pesquisa. Neste caso posso usar a fórmula simplificada, pois 136 milhões > 100.000, e usaremos p=50% pois não tenho informação prévia sobre o resultado esperado: n = 1,96^2 * 0,5 * (1 – 0,5) / 0,05^2 = 384,16 -> 384 Apresentação de dados em tabelas e gráficos Construção de Os dados devem ser apresentados em tabelas construídas de acordo com as normas técnicas ditadas pela Fundação Instituto Brasileiro de Geografia e Estatística (IBGE) (1993). 35 Tabela de dados qualitativos Quando observamos dados qualitativos, classificamos cada unidade da amostra em uma dada categoria. Nosso conhecimento sobre os dados aumenta se contarmos quantas unidades caem em cada categoria. Tabela de contingência Muitas vezes os elementos da amostra ou da população são classificados de acordo com duas variáveis qualitativas. Os dados devem então ser apresentados em tabelas de contingência, isto é, em tabelas de dupla entrada, cada entrada relativa a uma das variáveis. Tabela de contingência Tabela de contingência Apresentação de dados numéricos Os dados numéricos são apresentados na ordem em que são coletados. Geralmente são obtidos dados relativos a diversas variáveis. Dados numéricos também podem ser apresentados em tabelas de distribuição de frequências. Apresentação de dados numéricos Apresentação de dados numéricos Apresentação de dados numéricos Como apresentar os dados abaixo em uma tabela? Foi feita uma pesquisa com a variável estatura de uma turma X da FSM, seguem os dados em cm: 150, 151, 152, 153, 154, 155, 155, 155, 155, 156, 156, 156, 157, 158, 158, 160, 160, 160, 160, 160, 161, 161, 161, 161, 162, 162, 163, 163, 164, 164, 164, 165, 166, 167, 168, 168, 169, 170, 172, 174. Alguns Conceitos em bioestatística Rol: Ordenação dos dados, seja de forma decrescente ou crescente. Faça o rol dos dados a seguir: 2, 4, 7, 3, 5, 7, 10, 1, 3 Classe: Intervalo entre variáveis definidas Ex: números maiores que 3 e menores que 7: Qual a frequência desta classe ? Representação: Alguns Conceitos em bioestatística Frequência acumulada: É o total das frequências de todos os valores inferiores ao limite superior do intervalo de uma dada classe. Frequência relativa: São os valores das razões entre as frequências simples e a frequência total. Frequência total: Soma de todas as frequências simples. Classe: Intervalo entre variáveis definidas. Ponto médio de uma classe: É a razão média entre os limites de uma classe. Construção de uma tabela com distribuição de frequências Primeiramente, caso os dados não estejam ordenados realiza-se o rol. Calcula-se a Amplitude total (AT) que é dada pela diferença entre o limite superior (Ls) e o limite inferior (Li). Calcula-se a Amplitude parcial (h) que é dada pela razão entre a amplitude total e o número de classes a serem trabalhadas. Em seguida divide-se as classes, a primeira classe é dada pelo primeiro valor acrescida da amplitude parcial, a segunda classe inicia-se com o limite superior da primeira classe acrescida novamente da amplitude parcial, e assim sucessivamente. Construção de uma tabela com distribuição de frequências O símbolo |-- indica que o valor inical da classe fazparte da contagem, já o limite superior da classe fica fora desta contagem. Assim o valor final sempre é repetido como valor inicial na classe seguinte, pois, todos os valores presentas na amostra devem sem computados. Na ultima classe o símbolo usado será:|--|já que na ultima classe o limite superior deve ser computado. Colocando em prática Seguem as idades de indivíduos de uma sala de aula de um curso técnico em informática: 34, 36, 37, 38, 38, 40, 41, 42, 43, 43, 43, 43, 44, 44, 45, 46, 47, 48, 51, 51, 52, 53, 54, 56, 56, 57, 59 Pede-se: Construir uma distribuição de frequência com 5 classes. Calcular frequência relativa, frequência acumulada. Qual a porcentagem dos indivíduos com idade superior a 44 anos? Exercicios: Em uma pesquisa um estudante dosou a glicemia de 25 paciente, os dados listam abaixo: 87, 89, 85, 90, 97, 87, 81, 84, 100, 94, 90, 85, 91, 92, 90, 87, 80, 83, 86, 91 83, 91, 89, 92, 88 - Fazer uma distribuição de frequência com 4 classes. Quantos indivíduos apresentam níveis glicêmicos abaixo de 90 mg/dl ? A maioria dos pesquisados apresentavam que faixa de níveis glicêmicos ? Qual a porcentagem da classe que apresenta maiores taxas glicêmicas? Exercicios: Em uma pesquisa foram colhidos os seguintes dados a respeito dos níveis de PAD: 62, 65, 65, 69,70,66, 71, 70 74, 72, 73, 78, 76, 78, 75, 75 81, 80, 79, 80, 80, 82, 83, 82 85, 84, 85, 89, 86, 88, 91, 88 102, 98, 95, 92, 98, 95, 94, 91 Construir uma distribuição de frequência com 5 classes. Quantos indivíduos apresentam PAD menor que 86 mmHg? Qual o porcentual dos indivíduos que possuem PAD menor que 86 mmHg ? Apresentação de dados Qualitativos Gráfico de barras: O gráfico de barras é usado para apresentar variáveis qualitativas, sejam elas nominais ou ordinais. Apresentação de dados Qualitativos Desenhe o sistema de eixos cartesianos. Escreva as categorias da variável estudada no eixo das abscissas (eixo horizontal). Escreva as frequências ou as frequências relativas (porcentagens) no eixo das ordenadas (eixo vertical), obedecendo a uma escala. Desenhe barras verticais de mesma largura para representar as categorias da variável em estudo. A altura de cada barra deve ser dada pela frequência ou pela frequência relativa (geralmente em porcentagem) da categoria. Coloque legendas nos dois eixos e titulo na figura. Apresentação de dados Qualitativos Gráfico de setores: o gráfico de setores é especialmente indicado para apresentar variáveis nominais, desde que o número de categorias seja pequeno. Apresentação de dados Qualitativos Trace uma circunferência (uma circunferência tem 360º). Essa circunferência representará o total, ou seja, 100%. Divida a circunferência em tantos setores quantas sejam as categorias da variável em estudo, mas o ângulo de cada setor precisa ser calculado: é igual à proporção de respostas na categoria, multiplicada por 360°. Marque, na circunferência, os ângulos calculados; separe com o traçado dos raios. Escreva a legenda e coloque título na figura. Apresentação de dados Qualitativos Tabulação de variáveis nominais SEXO Freqüência absoluta Freqüência relativa Freqüência percentual Masculino 207 0,4539 45,39 Feminino 249 0,5461 54,61 Total 456 1,0000 100,00 Distribuição de sexo dos recém-nascidos Gráficos de variáveis nominais Gráfico de setores, pizza, torta Gráfico de colunas Apresentação de dados numéricos Dados numéricos são, muitas vezes, apresentados em tabelas de distribuição de frequências. Se os dados são discretos, as tabelas de distribuição de frequências apresentam os valores numéricos na ordem natural, em lugar das categorias que aparecem nas distribuições de frequências de dados qualitativos. Apresentação de dados numéricos Apresentação de dados numéricos Diagrama de linhas (dados discretos) Apresentação de dados numéricos Apresentação de dados numéricos Quando os dados são contínuos e a amostra é grande não se pode fazer um gráfico de pontos. É mais conveniente condensar os dados, isto é, organizar uma tabela de distribuição de frequências e desenhar um histograma. Apresentação de dados numéricos Apresentação de dados numéricos Duas variáveis categóricas Série histórica entre grupos No de casos de Aids em homens e mulheres de 1984 a 1996 no Brasil Duas variáveis quantitativas Relação entre variáveis quantitativas Diagrama de espalhamento ou scatter plot Relação entre peso e comprimento dos recém-nascidos. Duas variáveis quantitativas Diagrama de espalhamento ou scatter plot Relação entre IMC e pressão arterial sistólica – adultos I.Gov. Mapas de pontos Medidas de Tendência Central São medidas que visam determinar o centro da massa dos dados, representam o valor em torno do qual os dados estão gravitando, o ponto central do conjunto de valores. Média Média: É a mais conhecida, utilizada e que melhor se aplica à definição de medida de tendência central. É a soma de todos os valores dividida pela quantidade de valores somados. Qual a média de idade dos indivíduos que possuem as seguintes idades: 32 35 36 36 37 38 38 39 39 39 40 40 42 45 ? Média Como calcular a média de dados em uma distribuição de frequência? Média É a mais importante das medidas de tendência central; A média de um conjunto de números pode ser sempre calculada; Para um dado conjunto de números, a média é única; É sensível (ou afetada) a todos os valores do conjunto. Assim se um valor se modifica, a média também se modifica; Ex: Calcule a média dos valores: 2, 4, 3, 5, 4, 2, 114 Moda Denomina-se moda o valor que ocorre com maior frequência em uma série de valores. Qual a moda dos dados: 5, 7, 7,7, 10, 13, 13, 15 ? Amodal Bimodal Moda Como calcular a moda em uma distribuição de frequências? Mediana Pode ser definida como o número que se encontra no centro de uma série de dados. É o valor que divide os dados ao meio, metade dos valores estão abaixo do valor da mediana e a outra metade está acima do valor da mediana. 1- se o total de dados (n) for impar, some + 1 a este total e divida-o por 2. 22 22 25 26 26 27 28 28 29 29 29 30 30 35 36 Mediana 2- se o total de dados (n) for par, encontre o valor n/2 e o valor (n+2)/2 e a mediana será a média destes dois valores. 22 22 25 26 26 27 28 28 29 29 29 29 30 30 35 36 Qual o valor mediano ? Mediana Como calcular a mediana com dados de uma distribuição de frequências? Referências: CALLEGARI-JACQUES, S.M. Bioestatística, princípios e aplicações. Porto Alegre: Armed, 2008. ARANGO, H. G. Bioestatística Teórica e Computacional. 3ed. Rio de Janeiro. Guanabara Koogan. 2009. CRESPO, A. A. Estatística fácil. 18ed. São Paulo: Saraiva, 2002. 15ex. Exercícios / revisão Seguem as idades em anos de indivíduos de uma sala de aula de um curso técnico: 34, 36, 37, 38, 38, 40, 41, 42, 43, 43, 43, 43, 44, 44, 45, 46, 47, 48, 51, 51, 52, 53, 54, 56, 56, 57, 59 Pede-se: Construir uma distribuição de frequência com 5 classes. Calcular frequência relativa, frequência acumulada. Qual a porcentagem dos indivíduos com idade superior a 44 anos? Calcular a média de idade dos integrantes dessa sala A maioria das pessoas possuem que idade? (moda) Calcular a mediana das idades listadas. Exercícios / revisão Foi feita uma pesquisa com a variável estatura, de alguns alunos do curso de biomedicina da FSM, seguem os dados em cm: 150, 151, 152, 153, 154, 155, 155, 155, 155, 156, 156, 156, 157, 158, 158, 160, 160, 160, 160, 160, 161, 161, 161, 161, 162, 162, 163, 163, 164, 164, 164, 165, 166, 167, 168, 168, 169, 170, 172, 174. Realizar uma distribuição de frequência com 6 classes, calcular a frequência absoluta, frequênciarelativa e frequência acumulada. Qual a porcentagem dos que apresentam estatura entre 158 e 162 cm? Qual a estatura média? Qual a estatura da maioria dos alunos? (moda) Calcule a mediana dos dados MEDIDAS DE DISPERSÃO OU VARIABILIDADE DOS DADOS Medidas de dispersão dos dados Consideremos os seguintes conjuntos de valores das variáveis X, Y e Z: X: 70, 70, 70, 70, 70 Y: 68, 69, 70, 71, 72 Z: 5, 15, 50, 120, 160 Qual a média para cada variável? Observe a homogeneidade x variabilidade. Medidas de dispersão dos dados Amplitude total (At): diferença entre o menor e o maior valor observado. X: 70, 70, 70, 70, 70 ... At = 0 Z: 5, 15, 50, 120, 160 ... At = 155 Medidas de dispersão dos dados Os quartis dividem um conjunto de dados em quatro partes iguais. Os quartis são, portanto, três: o primeiro quartil, o segundo quartil (que é a mediana) e o terceiro quartil. Medidas de dispersão dos dados Variância (s²): baseia-se nos desvios em torno da média aritmética dos quadrados dos desvios. Dados não agrupados Qual a s² da variável Y: 68, 69, 70, 71, 72 ? Medidas de dispersão dos dados Variância (s²): baseia-se nos desvios em torno da média aritmética dos quadrados dos desvios. Dados agrupados Qual a variância ? Dias de tratamento Casos de cura Medidas de dispersão dos dados Desvio padrão: Raiz quadrada da variância Medidas de dispersão dos dados Coeficiente de variação: Caracterização da dispersão dos dados através de pontos percentuais ao invés de pontos de medidas. Noções Básicas de Propabilidade Embora o cálculo das probabilidades pertença ao campo matemático, seu estudo na área de estatística se justifica pelo fato da maioria dos fenômenos que ocorrem do campo estatística serem de natureza aleatória. . Mas o que é probabilidade ??? Pode ser definida como: a expectativa que um fenômeno ocorra de determinada maneira, tomando como referência todas as diferentes e possíveis formas que esse fenômeno possa ocorrer, tudo isso de forma aleatória. Por exemplo: Ao se jogar uma moeda Para cima, qual a probabilidade que o resultado obtido seja a face “cara” ?? Experimento Aleatório Experimento aleatório é um procedimento cujo resultado é incerto. Exemplos: Jogar uma moeda Sortear um número inteiro de um a cem Lançar um dado Espaço amostral (ou de probabilidades) O conjunto de todos os possíveis resultados de um experimento aleatório é o espaço amostral (S). Jogar uma moeda S = {cara, coroa} Sortear um número inteiro de um a cem S = {1,2,...,100} Lançar um dado S = {1,2,3,4,5,6} Evento Evento é qualquer subconjunto do espaço amostral E = {cara} (sortear cara) E = {25, 27, 26} (sortear n. entre 24 e 28) E = {3, 5, 1} (lançar n. impar no dado) Matematicamente... - A probabilidade de (A) é igual ao número de eventos que satisfazem a condição, dividido pelo número de resultados possíveis (pontos amostrais). Praticando... Qual a probabilidade de se obter um número ímpar ao lançar um dado tradicional ? Qual a probabilidade de nascer uma criança do sexo masculino em uma gestação ? Evento complementar Eventos que complementam a condição de interesse. Qual a probabilidade de se obter o resultado 3 ao jogar um dado tradicional para cima ? Evento de interesse: A: 1 (a face 3) Eventos complementares: A(c): 5 (faces: 1;2;4;5;6) Probabilidade do complemento Complemento de A: qualquer evento que não seja A P(não A) = 1 – P(A), ou P(A’) = 1 – P(A) Eventos mutuamente excludentes A e B são eventos mutuamente excludentes se a ocorrência de um deles ocorre, implica necessariamente na não-ocorrência do outro. Exemplo: os resultados cara e coroa ao jogar uma moeda. P= p1 + p2 Evento independente Quando a realização ou não-realização de um dos eventos não afeta a probabilidade da realização do outro e vice-versa. Ex: Ao lançarmos dois dados os eventos que ocorrem em ambos não independentes. p= p Gráf1 45.39 54.61 Sexo dos RN sexo Sexo RN % M 45.39 F 54.61 sexo 0 0 Sexo dos RN Plan2 Plan3 Gráf3 45.39 54.61 sexo % sexo Sexo RN % M 45.39 F 54.61 sexo Sexo dos RN Plan2 sexo % Plan3
Compartilhar