Buscar

Resumo de bioestatística - probabilidade e conceitos

Prévia do material em texto

BIOESTATISTICA - é uma ciência exata que estuda a coleta, a organização, a análise e registro de dados por amostras
Método dedutivo e indutivo 
Tanto o método dedutivo quanto o indutivo, são dois tipos de raciocínios utilizados para analisar se uma informação é válida ou não - por meio de previsões e proposições.
	
Método dedutivo: argumento feito do maior para o menor - de uma previsão geral em direção a outra. Suas conclusões já existiam nas previsões analisadas anteriormente e, portanto, ele não produz conhecimentos novos.
Método indutivo: esse raciocínio vai do menor ao maior ou de uma premissa singular ou particular para outra, geral. Sua conclusão vai além desses enunciados, sendo mais amplo e muito utilizado nas ciências.
Hipótese
Expressa uma relação de causa e efeito – expressam observações do mundo externo e são testáveis (que pode ser testável, refutada, explicada)
Exemplo: peso e gênero – peso varia entre homens e mulheres. 
Teste de hipótese ou teste de significância
Um teste de hipótese é regra que especifica se deve aceitar ou rejeitar uma alegação sobre uma população de acordo com as provas fornecidas por uma amostra de dados.
Examina duas hipóteses opostas sobre uma população: a hipótese nula e a hipótese alternativa. Com base nos dados amostrais, o teste determina se devemos rejeitar a hipótese nula. 
Hipótese Nula (H0)
A hipótese nula é a declaração que está sendo testada - de "nenhum efeito" ou "nenhuma diferença". 
A hipótese nula afirma que um parâmetro (média, o desvio padrão, etc.) é igual a um valor hipotético. A hipótese nula é, muitas vezes, uma alegação inicial baseado em análises anteriores ou conhecimentos especializados.
Exemplo: não há diferença entre os pesos de homens e mulheres.
Hipótese Alternativa (HA) – associada a hipótese nula.
A hipótese alternativa é a declaração que você quer ser capaz de concluir que é verdadeira com base em evidências fornecidas pelos dados da amostra.
A hipótese alternativa afirma que um parâmetro é menor, maior ou diferente do valor hipotético na hipótese nula – sempre diferente da hipótese nula.
Exemplo: há diferença entre os pesos.
Nível de Significância – α
No teste de hipótese a rejeição ou aceitação da hipótese nula depende do nível de significância – a probabilidade, máxima de se cometer o erro ao afirmar que a hipótese nula é falsa quando ela é verdadeira.
α = 0,05, ou seja, 5% de chance de erro.
P < 0,05 - rejeita a H0
P > 0,05 - não rejeita H0
Erros do tipo I e II
Erro tipo I - quando a hipótese nula é verdadeira e você a rejeita, comete um erro do tipo I – α (rejeitar a hipótese nula, quando ela não deveria). 
Erro tipo II - quando a hipótese nula é falsa e você não a rejeita, comete um erro de tipo II – β (não rejeitar a hipótese nula, quando ela deveria)
α inversamente relacionado a β – alta probabilidade de erro em beta (tipo II) e baixa em alfa (tipo I)
Tipos de variáveis
Quantitativa
Continua: pode assumir qualquer valor entre dois números (podendo ser “quebrado”)
Exemplo: peso; temperatura; pressão sanguínea;
Discreta: assume um número finito de valores (inteiros)
Exemplo: número de leitos hospitalares; número de procedimentos cirúrgicos.
Categóricas ou de classe – as observações são organizadas em categorias/classes
Nominais: quando não importa a ordem das classes
Exemplo: sexo, cor dos olhos, fumante ou não, doente/sadio.
Ordinais: interesse na ordem
Exemplo: escolaridade, estagio da doença (inicial, terminal), mês de observação (janeiro, fevereiro...dezembro)
Acurácia (media acurada) – valor mais fiel de uma medida, diferente de uma amostra tendenciosa; o quão mais perto o valor de uma medida está do valor correto.
Precisão (media precisa) - quão perto os valores individuais estão uns dos outros.
ESTATISTICA DESCRITIVA
Medidas de tendência central ou de posição
Media (aritmética, geométrica e harmônica)
Aritmética - é obtida somando todos os valores e dividindo o valor encontrado pelo número de dados desse conjunto.
X = média da amostra e μ = média da população
ou 
Geométrica - usada com mais frequência em dados que apresentam valores que aumentam de forma sucessiva – comportamento exponencial 
MG: média geométrica
n: número de elementos do conjunto de dados
x1, x2, x3, ..., xn: valores dos dados
Mediana (Md): tende a pegar valores mais centrais - é preciso colocar os valores em ordem crescente ou decrescente para, de seguida, encontrar o centro do conjunto.
Quando é par – pega os dois números centrais e faz a média aritmética dos dois (soma e divide por 2)
Quando é ímpar – a mediana é o numero central.
Moda (Mo): maior frequência num conjunto de dados – o dado que mais se repete.
Bimodal quando há mais do que uma medida com maior frequência.
Medidas de dispersão
Desvio padrão - quão dispersos os dados estão da média. Quanto maior o desvio padrão, maior a dispersão nos dados.
O símbolo σ (sigma) é frequentemente usado para representar o desvio padrão de uma população, enquanto s é usado para representar o desvio padrão de uma amostra
Erro padrão (EP) – sempre é menor que o desvio padrão; desvio padrão amostral divido pela raiz quadrada do número de observações.
Variância – mede o quanto os dados estão dispersos em torno da média. A variância é igual ao desvio padrão ao quadrado.
Variância amostral = S2
Variância populacional = δ2
Amostras de variação baixa apresentam valores próximos da média aritmética.
Amostras de variação alta apresentam valores distantes da média aritmética.
Coeficiente de variação (CV) – desvio padrão expresso como uma porcentagem média.
Coeficiente de dispersão (CD) – quanto os valores estão mais espalhados; divisão da variância amostral dividido pela média. 
Pode ser usado com dados discretos para avaliar quando os indivíduos estão agregados ou hiper dispersos no espaço, ou quando estão dispersos de maneira aleatória. 
Dados agregados – CD>1 
Dados dispersos – CD<1
Escore-z (ou escore padrão) - de uma observação é o número de desvios padrão acima ou abaixo da média da população. Para calcular um escore z, é necessário saber a média da população (u) e o desvio padrão da população (sigma).
Amplitude – maior valo menos o menor valor – diferença entre os valores; sensível a valores extremos.
Quartil / intervalo interquartil – conjunto de dados do 1º quartil ou 25 percentil até o 3º quartil ou 75 percentil.
100% - 100 Percentis
50% - Mediana – 2 quartil 
25% - Quartil 
25% - 1º quartil 
50% - 2º quartil
75% - 3º quartil
100% - 4º quartil (não representado)
Calculo:
1 quartil 25% – Q1 (25 * n) / 100 o número é arredondado para cima e dá a posição do quartil.
3 quartil 75% – Q3 (75 * n) / 100 o número é arredondado para cima e dá a posição do quartil.
Intervalo interquartil: Q3 − Q1
Outlier - distribuições assimétricas ou possuem medidas discrepantes (grande ou pequeno) que podem ter um efeito sobre os resultados estatísticos. 
Exemplo: um conjunto de dados inclui os valores: 1, 2, 3, e 34. O valor médio, 10, que é maior do que a maioria dos dados (1, 2, 3), é muito afetado pelo ponto de dados extremo, 34. Neste caso, o valor médio faz parecer que os valores de dados são mais elevados do que realmente são.
Gráficos assimétricos e simétricos
Simetria – curva normal / curva em forma de sino / curva de Gauss
Media = mediana = moda
Assimetria positiva ou à direita - dados com assimetria positiva ou à direita são assim chamados por causa da "cauda" à direita, e porque seu valor de assimetria será maior do que 0 (ou positiva). 
Media > mediana > moda
Exemplo: dados salariais são, frequentemente, assimétricos desta maneira: vários funcionários em uma empresa ganham relativamente pouco, enquanto cada vez menos pessoas ganham altos salários.
Assimetria negativa ou à esquerda - a "cauda" da distribuição aponta para a esquerda e produz um valor de assimetria negativo. 
Média < mediana< moda
Exemplo: os dados da taxa de falha são frequentementeassimétricos à esquerda. Considere as lâmpadas: muito poucas vão queimar imediatamente, a grande maioria durará por um longo tempo. 
*media traiçoeira em dados assimétricos.
*assimetria - grau de desvio ou afastamento da simetria.
PROBABILIDADE
Medida numérica da possibilidade de que um determinado evento venha a ocorrer.
Espaço amostral S = {x1, x2...}
*Digrama de venn / diagrama de árvore
Evento simples e composto – corresponde a uma coleção de um ou mais resultados do experimento. 
Probabilidade evento simples: 
P(Ei) 1 / nº total de resultados para o experimento
Probabilidade evento composto: 
P(X) nº total de resultados possíveis para A / nº total de resultados para o experimento
Frequência relativa – depende da amostra
P(A) = f / n
n = número de amostras
P(A) = frequência relativa
Probabilidade subjetiva – depende de vários fatores (julgamento, crença e informações do próprio individuo)
Probabilidade marginal (probabilidade simples) – de um único evento, sem levar em conta nenhum outro evento.
Probabilidade Condicional – um evento venha a acontecer, sabendo-se que outro evento já tenha acontecido. 
P (A / B)
A e B = eventos; Saber A já sabendo B.
Eventos mutuamente excludentes – que não podem ocorrer ao mesmo tempo 
Não podem ser independentes, são sempre dependentes
Eventos dependentes – um deles afeta a probabilidade da ocorrência de outro
P(A/B) ≠ P(A) ou P(B/A) ≠ P(B)
Eventos independentes - um deles não afeta a probabilidade do outro (não podem ser mutuamente excludentes)
P(A/B) = P(A) ou P(B/A) = P(B)
Eventos complementares – evento que inclui todos os resultados para o experimento que não está em A (sempre mutuamente excludentes)
Complemento do evento A = A- (lê-se A barra ou complemento de A)
Interseção de eventos e regras de multiplicação
Interseção entre A e B representa a junção de todos os resultados comuns de A e de B
A ∩ B ou AB
Regra da multiplicação: Probabilidade de interseção de dois eventos A e B (probabilidade conjunta) – multiplica a probabilidade marginal de um evento pela condicional do segundo evento.
P(A e B) = P(A) P(B/A) = P(B) P(A/B)
P(A∩B) ou P(AB)
Condicional: caso A e B correspondam a 2 eventos
P(B/A) = P(A e B) / P(A) ou P(A/B) = P(A e B) / P(B)
Independentes: P(A) = P(A/B) e P(B) = P(B/A) P(A e B) = P(A) P(B)
Regra da adição (OU): probabilidade de união de eventos
P(A ou B) = P(A) + (B) – P(A e B)

Continue navegando