Buscar

bioestatistica introdução 2

Prévia do material em texto

Faculdade Santa Maria
BIOESTATÍSTICA
PROFESSOR: Francisco Yarllison Silva Freitas
Email: yarllisionfreitas@hotmail.com 
INTRODUÇÃO A BIOESTATÍSTICA
 O que é Estatística?
Parte da matemática aplicada que fornece métodos para coleta, organização, descrição, análise e interpretação dos dados e para utilização dos mesmos na tomada de decisão (CRESPO, 2002).
E a Bioestatística ?
Permite aplicar a estatística para resolução de problemas biológicos.
INTRODUÇÃO A BIOESTATÍSTICA
??? Medicina x Estatística ???
evidência da eficácia dos tratamentos clínicos e da existência de associação entre hábitos de indivíduos e desenvolvimento de doenças é apresentada, há muitos anos, , nos periódicos médicos através da linguagem estatística.
Isto torna imprescindível o conhecimento dos métodos estatísticos fundamentais tanto para o clínico quanto para o pesquisador médico.
Alguns Conceitos em bioestatística
Variável x Dados
Variável é uma condição ou característica das unidades da população; a variável pode assumir valores diferentes em diferentes unidades.
Dados são os valores da variável em estudo, obtidos por meio de uma amostra.
Variáveis x Dados
Tipos de variáveis
Variáveis quantitativas ou numéricas
Variáveis qualitativas ou categorizadas
Coleta de Dados
TÉCNICAS DE AMOSTRAGEM
 Amostragem: Método empregado para recolher uma amostra
Amostra aleatória, casual ou probabilística
Amostra semiprobabilística
Amostra não-probabilística ou de conveniência
A amostra aleatória, casual ou probabilística
A amostra aleatória ou probabilística é constituída por n unidades retiradas ao acaso da população. Em outras palavras, a amostra aleatória é obtida por sorteio. Logo, toda unidade da população tem probabilidade conhecida de pertencer à amostra.
Amostra aleatória simples
Amostra aleatória estratificada
A amostra semiprobabilística
É constituída por n unidades retiradas da população por procedimento parcialmente aleatório. Dentre as amostras semiprobabilísticas, temos:
Amostra sistemática
Amostra por conglomerados
Amostra por quotas. 
Alguns Conceitos em bioestatística
A amostra sistemática é constituída por n unidades retiradas da população segundo um sistema preestabelecido. 
Alguns Conceitos em bioestatística
A amostra por conglomerados é constituída por n unidades tomadas de alguns conglomerados. O conglomerado é um conjunto de unidades que estão agrupadas, qualquer que seja a razão. 
Alguns Conceitos em bioestatística
A amostra por quotas é constituída por n unidades retiradas da população segundo quotas estabelecidas de acordo com a distribuição desses elementos na população. A ideia de quota é semelhante à de estrato, com uma diferença básica: você seleciona a amostra por julgamento e depois confirma as características das unidades amostradas. 
amostra não-probabilística ou de conveniência
É constituída por n unidades reunidas em uma amostra simplesmente porque o pesquisador tem fácil acesso a essas unidades. 
Calculo amostral
Quando quero fixar o erro máximo que estou disposto a aceitar em uma pesquisa, é comum nos referirmos a dois parâmetros: a margem de erro e o nível de confiança. O que cada um deles significa?
A margem de erro é o intervalo no qual espero encontrar o dado que quero medir do meu universo.
O nível de confiança expressa a certeza de que o dado que buscamos realmente está dentro da margem de erro.
Por exemplo, quero poder estimar o número de brasileiros entre 15 e 65 anos que têm casa própria, afirmando que são um total de 61,35 milhões de pessoas (45% da população) com uma margem de erro de 5%, isso significa que a realidade está entre 64,42 milhões (47,25%) e 58.28 milhões (42,75%).
se obtemos um nível de confiança de 95%, poderíamos dizer que a porcentagem de pessoas do meu universo que têm casa própria, em 95% dos casos se encontrará entre 42,75% e 47,25%. Ou seja, se eu repetir a minha pesquisa 100 vezes, selecionando amostras aleatórias do mesmo tamanho, 95 vezes a proporção que eu busco estaria dentro do intervalo e 5 vezes fora dele.
TAMANHO DA AMOSTRA
TAMANHO DA AMOSTRA
n = O tamanho da amostra que queremos calcular
N = Tamanho do universo (p.e. 136 milhões de brasileiros entre 15 e 65 anos)
Z = É o desvio do valor médio que aceitamos para alcançar o nível de confiança desejado.
e = É a margem de erro máximo que eu quero admitir (p.e. 5%)
p = É a proporção que esperamos encontrar.
Exemplo: Temos uma população de 136 milhões de brasileiros entre 15 e 65 anos, queremos saber qual a % deles tem casa própria, com uma margem de erro de 5% e um nível de confiança de 95%. Vamos supor que não temos nenhuma informação prévia sobre qual é a % de proprietários que podemos obter na pesquisa. Neste caso posso usar a fórmula simplificada, pois 136 milhões > 100.000, e usaremos p=50% pois não tenho informação prévia sobre o resultado esperado:
n = 1,96^2 * 0,5 * (1 – 0,5) / 0,05^2 = 384,16 -> 384
Apresentação de dados em tabelas e gráficos
Construção de
Os dados devem ser apresentados em tabelas construídas de acordo com as normas técnicas ditadas pela Fundação Instituto Brasileiro de Geografia e Estatística (IBGE) (1993).
35
Tabela de dados qualitativos
Quando observamos dados qualitativos, classificamos cada unidade da amostra em uma dada categoria. Nosso conhecimento sobre os dados aumenta
se contarmos quantas unidades caem em cada categoria.
Tabela de contingência 
Muitas vezes os elementos da amostra ou da população são classificados de acordo com duas variáveis qualitativas. 
Os dados devem então ser apresentados em tabelas de contingência, isto é, em tabelas de dupla entrada, cada entrada relativa a uma das variáveis.
Tabela de contingência 
Tabela de contingência 
Apresentação de dados numéricos
Os dados numéricos são apresentados na ordem em que são coletados. Geralmente são obtidos dados relativos a diversas variáveis.
Dados numéricos também podem ser apresentados em tabelas de distribuição de frequências.
Apresentação de dados numéricos
Apresentação de dados numéricos
Apresentação de dados numéricos
Como apresentar os dados abaixo em uma tabela?
 Foi feita uma pesquisa com a variável estatura de uma turma X da FSM, seguem os dados em cm:
150, 151, 152, 153, 154, 155, 155, 155, 155, 156, 156, 156, 157, 158, 158, 160, 160, 160, 160, 160, 161, 161, 161, 161, 162, 162, 163, 163, 164, 164, 164, 165, 166, 167, 168, 168, 169, 170, 172, 174.
Alguns Conceitos em bioestatística
 Rol: Ordenação dos dados, seja de forma decrescente ou crescente.
Faça o rol dos dados a seguir:
 2, 4, 7, 3, 5, 7, 10, 1, 3
Classe: Intervalo entre variáveis definidas
Ex: números maiores que 3 e menores que 7:
Qual a frequência desta classe ?
 Representação: 
Alguns Conceitos em bioestatística
 Frequência acumulada: É o total das frequências de todos os valores inferiores ao limite superior do intervalo de uma dada classe.
 Frequência relativa: São os valores das razões entre as frequências simples e a frequência total.
Frequência total: Soma de todas as frequências simples.
Classe: Intervalo entre variáveis definidas.
Ponto médio de uma classe: É a razão média entre os limites de uma classe.
Construção de uma tabela com distribuição de frequências
 Primeiramente, caso os dados não estejam ordenados realiza-se o rol.
Calcula-se a Amplitude total (AT) que é dada pela diferença entre o limite superior (Ls) e o limite inferior (Li).
 Calcula-se a Amplitude parcial (h) que é dada pela razão entre a amplitude total e o número de classes a serem trabalhadas.
Em seguida divide-se as classes, a primeira classe é dada pelo primeiro valor acrescida da amplitude parcial, a segunda classe inicia-se com o limite superior da primeira classe acrescida novamente da amplitude parcial, e assim sucessivamente. 
Construção de uma tabela com distribuição de frequências
O símbolo |-- indica que o valor inical da classe fazparte da contagem, já o limite superior da classe fica fora desta contagem. Assim o valor final sempre é repetido como valor inicial na classe seguinte, pois, todos os valores presentas na amostra devem sem computados.
Na ultima classe o símbolo usado será:|--|já que na ultima classe o limite superior deve ser computado.
Colocando em prática
Seguem as idades de indivíduos de uma sala de aula de um curso técnico em informática: 34, 36, 37, 38, 38, 40, 41, 42, 43, 43, 43, 43, 44, 44, 45, 46, 47, 48, 51, 51, 52, 53, 54, 56, 56, 57, 59
Pede-se:
Construir uma distribuição de frequência com 5 classes.
Calcular frequência relativa, frequência acumulada.
Qual a porcentagem dos indivíduos com idade superior a 44 anos?
Exercicios:
 Em uma pesquisa um estudante dosou a glicemia de 25 paciente, os dados listam abaixo:
87, 89, 85, 90, 97,
87, 81, 84, 100, 94,
90, 85, 91, 92, 90,
87, 80, 83, 86, 91
83, 91, 89, 92, 88
- Fazer uma distribuição de frequência com 4 classes.
Quantos indivíduos apresentam níveis glicêmicos abaixo de 90 mg/dl ?
A maioria dos pesquisados apresentavam que faixa de níveis glicêmicos ?
Qual a porcentagem da classe que apresenta maiores taxas glicêmicas?
Exercicios:
 Em uma pesquisa foram colhidos os seguintes dados a respeito dos níveis de PAD:
62, 65, 65, 69,70,66, 71, 70
74, 72, 73, 78, 76, 78, 75, 75
81, 80, 79, 80, 80, 82, 83, 82
85, 84, 85, 89, 86, 88, 91, 88
102, 98, 95, 92, 98, 95, 94, 91
Construir uma distribuição de frequência com 5 classes.
Quantos indivíduos apresentam PAD menor que 86 mmHg?
Qual o porcentual dos indivíduos que possuem PAD menor que 86 mmHg ?
Apresentação de dados Qualitativos
Gráfico de barras: O gráfico de barras é usado para apresentar variáveis qualitativas, sejam elas nominais ou ordinais.
Apresentação de dados Qualitativos
Desenhe o sistema de eixos cartesianos.
Escreva as categorias da variável estudada no eixo das abscissas (eixo horizontal).
Escreva as frequências ou as frequências relativas (porcentagens) no eixo das ordenadas (eixo vertical), obedecendo a uma escala.
Desenhe barras verticais de mesma largura para representar as categorias da variável em estudo. A altura de cada barra deve ser dada pela frequência ou pela frequência relativa (geralmente em porcentagem) da categoria.
Coloque legendas nos dois eixos e titulo na figura.
Apresentação de dados Qualitativos
Gráfico de setores: o gráfico de setores é especialmente indicado para apresentar variáveis nominais, desde que o número de categorias seja pequeno.
Apresentação de dados Qualitativos
Trace uma circunferência (uma circunferência tem 360º). Essa circunferência representará o total, ou seja, 100%.
Divida a circunferência em tantos setores quantas sejam as categorias da variável em estudo, mas o ângulo de cada setor precisa ser calculado: é igual à proporção de respostas na categoria, multiplicada por 360°.
Marque, na circunferência, os ângulos calculados; separe com o traçado dos raios.
Escreva a legenda e coloque título na figura.
Apresentação de dados Qualitativos
Tabulação de variáveis nominais
SEXO
Freqüência absoluta
Freqüência relativa
Freqüência percentual
Masculino
207
0,4539
45,39
Feminino
249
0,5461
54,61
Total
456
1,0000
100,00
Distribuição de sexo dos recém-nascidos 
Gráficos de variáveis nominais
Gráfico de setores, pizza, torta
Gráfico de colunas
Apresentação de dados numéricos
Dados numéricos são, muitas vezes, apresentados em tabelas de distribuição de frequências. Se os dados são discretos, as tabelas de distribuição de frequências apresentam os valores numéricos na ordem natural, em lugar das categorias que aparecem nas distribuições de frequências de dados qualitativos.
Apresentação de dados numéricos
Apresentação de dados numéricos
Diagrama de linhas (dados discretos)
Apresentação de dados numéricos
Apresentação de dados numéricos
Quando os dados são contínuos e a amostra é grande não se pode fazer um gráfico de pontos. É mais conveniente condensar os dados, isto é, organizar uma tabela de distribuição de frequências e desenhar um histograma.
Apresentação de dados numéricos
Apresentação de dados numéricos
Duas variáveis categóricas
Série histórica entre grupos
No de casos de Aids em homens e mulheres de 1984 a 1996 no Brasil
Duas variáveis quantitativas
Relação entre variáveis quantitativas 
Diagrama de espalhamento ou scatter plot
Relação entre peso e comprimento dos recém-nascidos. 
Duas variáveis quantitativas
Diagrama de espalhamento ou scatter plot
Relação entre IMC e pressão arterial sistólica – adultos I.Gov. 
Mapas de pontos
Medidas de Tendência Central
São medidas que visam determinar o centro da massa dos dados, representam o valor em torno do qual os dados estão gravitando, o ponto central do conjunto de valores. 
Média
Média: É a mais conhecida, utilizada e que melhor se aplica à definição de medida de tendência central. 
É a soma de todos os valores dividida pela quantidade de valores somados. 
Qual a média de idade dos indivíduos que possuem as seguintes idades: 32 35 36 36 37 38 38 39 39 39 40 40 42 45 ?
Média
 Como calcular a média de dados em uma distribuição de frequência?
Média
É a mais importante das medidas de tendência central;
A média de um conjunto de números pode ser sempre calculada;
Para um dado conjunto de números, a média é única;
É sensível (ou afetada) a todos os valores do conjunto. Assim se um valor se modifica, a média também se modifica;
Ex: Calcule a média dos valores: 2, 4, 3, 5, 4, 2, 114
Moda
Denomina-se moda o valor que ocorre com maior frequência em uma série de valores.
Qual a moda dos dados: 5, 7, 7,7, 10, 13, 13, 15 ?
Amodal
Bimodal 
Moda
Como calcular a moda em uma distribuição de frequências?
Mediana
Pode ser definida como o número que se encontra no centro de uma série de dados.
É o valor que divide os dados ao meio, metade dos valores estão abaixo do valor da mediana e a outra metade está acima do valor da mediana.
1- se o total de dados (n) for impar, some + 1 a este total e divida-o por 2. 
22 22 25 26 26 27 28 
 28
 29 29 29 30 30 35 36 
Mediana
2- se o total de dados (n) for par, encontre o valor n/2 e o valor (n+2)/2 e a mediana será a média destes dois valores.
22 22 25 26 26 27 28 
 28 29
 29 29 29 30 30 35 36
Qual o valor mediano ?
Mediana
Como calcular a mediana com dados de uma distribuição de frequências?
Referências:
CALLEGARI-JACQUES, S.M. Bioestatística, princípios e aplicações. Porto Alegre: Armed, 2008.
ARANGO, H. G. Bioestatística Teórica e Computacional. 3ed. Rio de Janeiro. Guanabara Koogan. 2009. 
CRESPO, A. A. Estatística fácil. 18ed. São Paulo: Saraiva, 2002. 15ex.
Exercícios / revisão
Seguem as idades em anos de indivíduos de uma sala de aula de um curso técnico: 34, 36, 37, 38, 38, 40, 41, 42, 43, 43, 43, 43, 44, 44, 45, 46, 47, 48, 51, 51, 52, 53, 54, 56, 56, 57, 59
Pede-se:
Construir uma distribuição de frequência com 5 classes.
Calcular frequência relativa, frequência acumulada.
Qual a porcentagem dos indivíduos com idade superior a 44 anos?
Calcular a média de idade dos integrantes dessa sala
A maioria das pessoas possuem que idade? (moda)
Calcular a mediana das idades listadas.
Exercícios / revisão
 Foi feita uma pesquisa com a variável estatura, de alguns alunos do curso de biomedicina da FSM, seguem os dados em cm:
150, 151, 152, 153, 154, 155, 155, 155, 155, 156, 156, 156, 157, 158, 158, 160, 160, 160, 160, 160, 161, 161, 161, 161, 162, 162, 163, 163, 164, 164, 164, 165, 166, 167, 168, 168, 169, 170, 172, 174.
Realizar uma distribuição de frequência com 6 classes, calcular a frequência absoluta, frequênciarelativa e frequência acumulada.
Qual a porcentagem dos que apresentam estatura entre 158 e 162 cm?
Qual a estatura média?
Qual a estatura da maioria dos alunos? (moda)
Calcule a mediana dos dados
MEDIDAS DE DISPERSÃO OU VARIABILIDADE DOS DADOS
Medidas de dispersão dos dados
 Consideremos os seguintes conjuntos de valores das variáveis X, Y e Z:
X: 70, 70, 70, 70, 70
Y: 68, 69, 70, 71, 72
Z: 5, 15, 50, 120, 160
Qual a média para cada variável?
Observe a homogeneidade x variabilidade.
Medidas de dispersão dos dados
Amplitude total (At): diferença entre o menor e o maior valor observado.
X: 70, 70, 70, 70, 70 ... At = 0
Z: 5, 15, 50, 120, 160 ... At = 155
Medidas de dispersão dos dados
Os quartis dividem um conjunto de dados em quatro partes iguais. Os quartis são, portanto, três: o primeiro quartil, o segundo quartil (que é a mediana) e o terceiro quartil.
Medidas de dispersão dos dados
Variância (s²): baseia-se nos desvios em torno da média aritmética dos quadrados dos desvios.
Dados não agrupados
Qual a s² da variável Y: 68, 69, 70, 71, 72 ?
Medidas de dispersão dos dados
Variância (s²): baseia-se nos desvios em torno da média aritmética dos quadrados dos desvios.
Dados agrupados
Qual a variância ?
Dias de tratamento
Casos de cura
Medidas de dispersão dos dados
Desvio padrão: Raiz quadrada da variância
Medidas de dispersão dos dados
Coeficiente de variação: Caracterização da dispersão dos dados através de pontos percentuais ao invés de pontos de medidas. 
Noções Básicas de Propabilidade
Embora o cálculo das probabilidades pertença ao campo matemático, seu estudo na área de estatística se justifica pelo fato da maioria dos fenômenos que ocorrem do campo estatística serem de natureza aleatória.
.
Mas o que é probabilidade ???
Pode ser definida como: a expectativa que um fenômeno ocorra de determinada maneira, tomando como referência todas as diferentes e possíveis formas que esse fenômeno possa ocorrer, tudo isso de forma aleatória.
Por exemplo: Ao se jogar uma moeda
Para cima, qual a probabilidade que o
 resultado obtido seja a face “cara” ??
Experimento Aleatório
Experimento aleatório é um procedimento cujo resultado é incerto.
Exemplos:
Jogar uma moeda
Sortear um número inteiro de um a cem
Lançar um dado
Espaço amostral
(ou de probabilidades)
O conjunto de todos os possíveis resultados de um experimento aleatório é o espaço amostral (S).
Jogar uma moeda
S = {cara, coroa}
Sortear um número inteiro de um a cem
S = {1,2,...,100}
Lançar um dado
S = {1,2,3,4,5,6}
Evento
Evento é qualquer subconjunto do espaço amostral
E = {cara} 		(sortear cara)
E = {25, 27, 26} 	(sortear n. entre 24 e 28)
E = {3, 5, 1} 		(lançar n. impar no dado)
Matematicamente...
- A probabilidade de (A) é igual ao número de eventos que satisfazem a condição, dividido pelo número de resultados possíveis (pontos amostrais).
Praticando...
 Qual a probabilidade de se obter um número ímpar ao lançar um dado tradicional ?
Qual a probabilidade de nascer uma criança do sexo masculino em uma gestação ?
 
Evento complementar
Eventos que complementam a condição de interesse. 
Qual a probabilidade de se obter o resultado 3 ao jogar um dado tradicional para cima ?
Evento de interesse: A: 1 (a face 3)
Eventos complementares: A(c): 5 (faces: 1;2;4;5;6)
Probabilidade do complemento
Complemento de A: qualquer evento que não seja A
P(não A) = 1 – P(A), ou
P(A’) = 1 – P(A)
Eventos mutuamente excludentes
A e B são eventos mutuamente excludentes se a ocorrência de um deles ocorre, implica necessariamente na não-ocorrência do outro.
Exemplo: os resultados cara e coroa ao jogar uma moeda.
P= p1 + p2
Evento independente
Quando a realização ou não-realização de um dos eventos não afeta a probabilidade da realização do outro e vice-versa.
Ex: Ao lançarmos dois dados os eventos que ocorrem em ambos não independentes.
p= p
Gráf1
	45.39
	54.61
Sexo dos RN
sexo
	Sexo RN	%
	M	45.39
	F	54.61
sexo
	0
	0
Sexo dos RN
Plan2
	
Plan3
	
Gráf3
	45.39
	54.61
sexo
%
sexo
	Sexo RN	%
	M	45.39
	F	54.61
sexo
	
Sexo dos RN
Plan2
	
sexo
%
Plan3

Continue navegando