Buscar

aula 1_2_3Bioestatistica

Prévia do material em texto

Disciplina: Bioestatística 
Prof. Responsável: Lilian T Costa
Carga horária: 60 horas
Ementa: XMT210/XBT245: 
Variáveis, populações e amostras. Gráficos e tabelas. Médias e mediana. 
Dispersão de uma amostra. Correlação. Regressão. Probabilidade. 
Distribuições binomiais e normais. Testes estatísticos. Intervalo de 
confiança. Análise de Variância.
Bibliografia:
1) Statistics for the biological sciences – William C. Schefler
2) Intuitive Biostatistics - Harvey Motulsky
3) Bioestatística: Princípios e aplicações – Sidia M. Callegari-Jacques
4) Zar, J. Viostatical Analysis. 4 ed. Upper sadle River – NJ: Prentice-Hall, 1999.
Por que estudar estatística?
1. Compreender o tratamento estatístico realizado na maior parte dos artigos 
científicos;
2. Evitar ser enganado com dados oriundos de um tratamento estatístico incorreto;
3. Realizar cálculos simples de estatística, principalmente os que auxiliarão na 
compreensão de dados publicados na literatura;
4. Utilizar programas computacionais de estatística para analisar seus dados;
5. Ser capaz de se referir a textos avançados de estatística, assim como de discutí-
los.
Por que precisamos utilizar tratamentos estatístico?
O que desejamos obter a partir dos dados (limitado) obtidos em um experimento? 
Conclusão fundamentada!
Problemas:
1. Importantes diferenças são frequentemente mascaradas pela variabilidade 
biológica e/ou imprecisão experimental: dificuldade de distinguir entre as 
diferenças reais e a variação aleatória.
2. Busca de padrões e relações através de generalizações
É possível a análise de dados sem utilizar o tratamento estatístico?
Sistemas onde as diferenças da variável medida são grandes comparadas com a 
dispersão dos dados.
Neste caso:
1. Se for necessário tratamento estatístico: erro experimental;
2. Dados devem levar a uma conclusão diretamente.
Biologia:
-Grande variabilidade
-Investigador é incapaz de controlar todas as variáveis relevantes
-O interesse está em pequenas variações (20%).
Desta forma, com tais dados é difícil distinguir o sinal que está sendo investigado do 
ruído gerado pela variabilidade biológica e/ou imprecisão da medida.
O que o tratamento estatístico pode fazer?
1. Estimativa: o exemplo mais simples é do cálculo da média de uma amostra –
embora o cálculo seja exato para a amostra, o valor será apenas uma estimativa
para a população.
2. Testar hipóteses: auxilia a decidir se a diferença observada é causada 
aleatoriamente. Qual a probabilidade? Resposta é dada através do valor P. Se o 
valor de P é ‘pequeno’, conclui-se que a diferença é estatisticamente significante e 
não ao acaso.
3. Modelagem: testa o quanto os dados experimentais se encaixam num modelo 
matemático construído a partir de princípios físicos, químicos ou biológicos.
Como aplicar a análise estatística em um experimento?
1. Definir a população
2. Selecionar aleatoriamente uma amostra do objeto a ser estudado
3. Selecionar aleatoriamente 50% da amostra para receber um tratamento, e os 
outros 50% para receber outro tratamento
4. Medir uma única variável em cada objeto
5. A partir dos dados obtidos na medida da amostra, usar técnicas de estatística para 
fazer inferência sobre a distribuição da variável na população e sobre o efeito do 
tratamento.
Exercício:
Criar um exemplo de experimento de laboratório utilizando as etapas da análise 
estatística dos experimentos.
Qual produto (amostra)? Em que população?
Como medir?
Quais parâmetros a serem considerados?
Qual ‘tratamento estatístico’ a ser utilizado?
Quando o tratamento estatístico não auxilia na interpretação dos dados?
1. A população real é mais diversa do que a população a partir da qual os dados 
experimentais são obtidos;
2. Os dados são coletados de uma ‘amostra conveniente’ ao invés de uma amostra 
aleatória;
3. Variável medida é uma ‘substituição’ da variável desejada;
4. As medidas podem ter sido realizadas ou armazenadas incorretamente, ou os 
ensaios podem nem sempre medir a variável correta.
É necessário combinar diferentes tipos de medida para chegar a uma conclusão;
Deve-se usar um julgamento clínico e científico, bom senso e para interpretar dados 
experimentais;
Um tratamento estatístico não rejeita dados inválidos automaticamente: o 
experimentador deve ser responsável pela validade dos dados!
Tratamento estatístico é uma parte importante da análise de dados, mas a 
interpretação dos mesmos requer um pré-julgamento: o que torna a pesquisa tão 
desafiadora!!
Conceitos Básicos
Estatística Descritiva: descrição da situação em termos de fatos e dados disponíveis.
- engloba ferramentas destinadas a organizar e apresentar dados de uma maneira 
acessível, que não ultrapasse os limites sensoriais da mente humana.
Exemplos: número de habitantes de uma cidade, o número de pessoas que morreram em 
acidentes de carro no ano de 2008
Estatística Inferencial (biologia experimental):
O trabalho empírico das ciências naturais é tipicamente baseado em experimentos e 
pesquisas sobre amostras. Normalmente, a população total não pode, por motivos práticos 
ou econômicos, ser observada. 
Realizar inferências sobre características de uma população baseadas em uma amostra 
limitada de objetos desta população é o objetivo da inferência ou estatística indutiva. 
Observe que aqui surge um outro conceito: o de variabilidade. 
Variabilidade entre diferentes amostras, que depende de variações probabilísticas 
(principalmente quando temos amostras pequenas) e, ainda, do processo de coleta das 
amostras. 
Conceitos Básicos:
População:
-conjunto completo de valores associados a uma variável.
-algumas populações são somente hipotéticas.
-a distribuição de uma população pode ser descrita através de diversos parâmetros,
como média e desvio padrão.
Diferenciamos ainda a população de estudo de população alvo.
Exemplo: podemos ter como população de estudo ratos ou macacos de determinada
linhagem e ter como população alvo o ser humano.
Uma população pode ser infinita ou finita, dependendo do número de elementos que
a compõe.
Exemplos: Se estivermos estudando o ser humano, estaremos estudando uma
população infinita. Ao estudarmos os alunos da UFRJ no ano 2002, estaremos
investigando uma população finita.
Amostra
-subconjunto de uma população que melhor a represente.
Técnicas de Amostragem
-Existem várias técnicas de amostragem que devem ser usadas dependendo do 
problema abordado. 
Normalmente as populações de interesse são infinitamente grandes, ou simplesmente 
muito grandes. Entretanto, amostras de tamanho menor do que 1% da população 
podem freqüentemente conter todas as informações que necessitamos sobre a 
população inteira. Amostras são, portanto, mais rápidas e mais baratas de acessar. Em 
alguns casos, mesmo que possível, não devemos acessar toda a população. 
Tipos de amostragens
Julgamento: 
Decisão subjetiva de um indivíduo determina o objeto que compõe a amostra.
Estatística: 
Um método específico de seleção randômica é usado para definir a amostra com 
medida objetiva de variabilidade amostral.
http://www.biof.ufrj.br/fisbio/restrito/bioEstatistica/02_conc_basicos/sampling_techniques.htm
http://www.biof.ufrj.br/fisbio/restrito/bioEstatistica/02_conc_basicos/piada1.htm
Amostras Estatísticas
Randômica (casual): Cada membro da população tem a mesma chance de ser
selecionado. 
Para fazermos uma amostra casual devemos eliminar as tendenciosidades do processo de 
escolha por meio de um sorteio aleatório. 
Sistemática: A população consiste de N objetos (k). 
O objetivo é determinar uma amostra de tamanho n tal que N = nk. 
Estratificado: A população pode ser dividida em subconjunto homogêneos de 
populações denominados estratos, dos quais amostras aleatórias são extraídas.
Conveniência: Tomamos os elementos mais facilmente acessíveis da população. 
Variaveis
-Qual o nosso alvo?
-O que queremos ‘medir’? Qual característica?
Exemplo: O problema de arritmia cardíaca é freqüente em recém nascidos?
Resposta: Neste caso, avariável seria a presença de arritmia. Ao abordarmos esta 
variável, que assume dois valores apenas (sim e não), em vários recém-nascidos 
podemos chegar a respostas sobre a incidência deste distúrbio.
Exemplo: Um determinado bebê possui arritmia?
Resposta: Neste caso a variável freqüência cardíaca do recém- nascido deve ser medida 
várias vezes e então poderemos obter a resposta para este bebê.
Observe que em ambos os casos coletamos um conjunto de valores da variável, 
entretanto, no primeiro caso, a partir de um conjunto de indivíduos e, no segundo caso, 
a partir de um único indivíduo.
Classificação de Variáveis
Variável é qualquer característica ou atributo de uma medida que difere entre os 
diferentes objetos analisados. 
Podem ser classificadas como:
1. Quantitativa e qualitativa
Variáveis quantitativas são medidas na escala ordinal, de intervalo ou razão; e as variáveis 
qualitativas são medidas na escala nominal.
Escala Nominal
Medida nominal consiste em classificar itens em grupos ou categorias, onde nenhuma
informação quantitativa é dada e não há qualquer ordem entre os itens.
Escala Nominal é portanto qualitativa.
Exemplo: religião, raça e sexo.
A frequência de distribuição (tabelas, histogramas,…) são normalmente utilizadas para
analisar os dados de uma medida na escala nominal.
O principal parâmetro estatístico é a Moda (Moda – escore ou categoria que, numa 
distribuição, ocorre com maior frequência)
.
Escala ordinal
Medidas na escala ordinal são organizadas de forma que os valores mais altos são
representados por números altos.
O intervalo entre os números não são necessariamente iguais.
Exemplo: Numa escala de 5 pontos do nível de dificuldade de rafting para um rio, a 
diferença entre o nível 2 e o nível 3 pode não representar a mesma diferença entre os níveis
4 e 5.
Não existe um ponto ‘zero’ absoluto na escala ordinal, uma vez que este ponto zero pode
ser arbitrariamente escolhido.
No nosso exemplo, o ponto mais baixo (o ‘zero’) escolhido é o nível 1.
Variável dependente e independente:
Quando um experimento é realizado, algumas variáveis (INDEPENDENTES) são
manipuladas pelo experimentador e outras (DEPENDENTES) são diretamente medidas do 
objeto.
Variável contínua e discreta
Algumas variáveis (como o tempo de reação) são medidas na escala contínua. Ou seja, 
existe um número infinito de possíveis valores que esta variável pode tomar (falamos 
então de uma variável infinita). 
Outras variáveis, são variáveis finitas, podem tomar somente um número limitado de 
valores. Estas são chamadas de variáveis discretas.
Exemplo: os valores de energia assumidos pelos elétrons no orbital eletrônico.
Parâmetros
Descrevem de forma simplificada uma população de interesse. 
Exemplo: se estamos interessados em avaliar o QI de adolescentes, veremos que este tem 
uma média 100, um desvio padrão de 15, pouca assimetria e pouca kurtose (população 
mesokúrtica). 
O simples conhecimento destes parâmetros nos permite saber, por exemplo, qual a fração 
aproximada de adolescentes com QI maior do que 120.
Parâmetros que descrevem
valores centrais da 
população
a variabilidade da 
população
a forma da variabilidade
médias:
aritmética
geométrica
harmônica
mediana
moda 
variância s2
desvio padrão s
coeficiente de variação
amplitude 
assimetria
kurtose
Medidas com boa precisão pobre precisão
boa acurácia
ou exatidão
pobre acurácia
ou exatidão
Accuracy is telling the truth . . . Precision is telling 
the same story over and over again.
Yiding Wang
Acurácia e precisão
Algarismos significativos
Por convenção, os valores de variáveis contínuas são apresentados de forma a indicar 
imediatamente a precisão da medida. Nesta convenção, medidas:
Portanto, se medirmos um comprimento de oito centímetros com precisão de um 
milímetro, apresentaremos o resultado como 8,0 cm (2 algarismos significativos). 
Os resultados devem ser apresentados com o número de algarismos significativos, de 
acordo com a precisão do equipamento. 
8 cm indica que a medida está 
no intervalo
[7.5 , 8.5) cm 1 alg. significativo
8.3 cm indica precisão de [8.25 , 8.35) cm 2 alg. significativos
8.32 cm [8.315 , 8.325) cm 3 alg. significativos
Organização de dados quantitativos:
-Distribuição de frequências: tabelas
-Tabela de grupamento simples
-Tabela de grupamento por intervalo de classe
-Distribuição de frequências: gráficos
-Histograma
-Ogiva
-Diagrama de bastões
-Frequência relativa e probabilidade
Suponha que, ao estudar a quantidade de albumina no plasma de pessoas com 
determinada doença, um pesquisador obtenha em 25 indivíduos, os seguintes valores 
(em g/100 mL):
O que podemos concluir?
Desenha a tabela no excel, definindo X, f, fr, F, Fr
X: valores da variável quantitativa em estudo.
f: frequência absoluta simples, onde o ∑f=n.
fr: frequência relativa simples, dada por f/∑f.
F: frequência acumulada, soma de f da linha desejada X com as frequências simples dos 
valores de X menores do que o considerado.
Fr: frequência acumulada relativa, dada por F/∑f. Usado para obter o percentil
Percentil de ordem k (Pk) é o valor de X que é precedido por k% dos valores e seguido por 
(100 – k)% dos valores. Ex. P25 é o valor de X que é precedido por 25% dos valores (os 25% 
menores da série) e seguido pelos restantes 75%.
Os percentis P25, P50 e P75 dividem o conjunto de dados em quatros partes iguais; por isso 
recebem o nome de quartis e são respectivamente os quartis Q1, Q2 e Q3.
5,1 4,9 4,9 5,1 4,7
5,0 5,0 5,0 5,1 5,4
5,2 5,2 4,9 5,3 5,0
4,5 5,4 5,1 4,7 5,5
4,8 5,1 5,3 5,3 5,0
Tabela de agrupamento por intervalo de classe:
Intervalo aberto/fechado
Gráficos: 
1. Histograma: f x intervalo de classe
2. Ogiva: F ou Fr x intervalo de classe – identificação de percentis de interesse, como a 
mediana (percentil 50).
Peso (kg) f Fr/F/Fr
40-45 9
45-50 36
50-55 78
55-60 55
60-65 53
65-70 11
70-75 7
75-80 5
80-85 1
85-90 1
3. Diagrama de bastões: variáveis quantitativas discretas, f x X.
fr é uma medida da probabilidade.
N0 de irmãos f fr F/Fr
0 8
1 20
2 40
3 26
4 9
5 7
6 4
7 0
8 0
9 1

Continue navegando