Baixe o app para aproveitar ainda mais
Prévia do material em texto
Tema: Revisão Geral Março 2019 BIOESTATÍSTICA I O que é Estatística? • Ferramenta para análise e interpretação de dados • Bioestatística ou Biometria: Estatística aplicada à estudos biológicos Filosofia, hipótese nula e estatística Método baconiano (indutivo) Fundador do Departamento de Estatística Aplicada - 1911 • Cronologia dos pensadores VOCÊ Filosofia, hipótese nula e estatística Discussões sobre os métodos científicos • Ele é famoso por ter rejeitado o método indutivo e por ter estabelecido a falsificabilidade como critério demarcativo para distinguir ciência da não-ciência. • 1930 - Alemanha nazista – “provaram” que os judeus eram inferiores = não é possível provar • A lógica nazista era falha e a ciência não poderia ser usada para justificar o genocídio Filosofia, hipótese nula e estatística Sir Karl Raimund Popper (1902-1994) • Estatística inferencial = hipótese que se tenta refutar = hipótese nula (Ho); Hipóteses • Ho = É aquela Hipótese Estatística, prefixada, formulada sobre o parâmetro populacional estudado, com o único propósito de ser rejeitada ou invalidada; • H1 = São quaisquer hipóteses que difiram da Hipótese Nula. Filosofia, hipótese nula e estatística Casualização Para formar grupos iguais é fundamental que os tratamentos sejam sorteados às unidades experimentais Casualização ou aleatorização A casualização foi formulada por Fisher em 1920. Somente a casualização garante que unidades com características diferentes tenham igual probabilidade de serem designadas para os dois grupos. PLANEJAMENTO DO EXPERIMENTO Planejamento Experimental: réplica ou repetição Cuidado com as PSEUDO-repetições ou PSEUDO- réplicas Pseudo-repetições no delineamento e análise do experimento representa um dos principais motivos de problemas na execução da pesquisa PLANEJAMENTO DO EXPERIMENTO RÉPLICA Aleatório Não aleatório Pseudo-réplica • Repetição – observações independentes; • Espera-se que a quantidade de informação disponível aumente como o número de observações; • Uma nova observação fornece apenas a mesma informação que tínhamos em observações anterior = não é uma observação real = pseudo-repetição ou falsa repetição. Erros de Hipótese Erro tipo 1 – Quando a hipótese nula é verdadeira e você a rejeita, comete um erro do tipo I; Erro tipo 2 – Quando a hipótese nula é falsa e você não a rejeita, comete um erro de tipo II. Atestar que esta mulher não está gravida: Erro Tipo II Atestar que este homem esta “grávido”: Erro Tipo I Amostra: número relativamente pequeno de observações das quais obteremos informação População: O grupo maior, ao qual iremos generalizar as informações O que é uma amostra? Inferência ‘Não é preciso beber toda a garrafa para saber se o vinho é bom’ ▪Inferência: dar informação para o todo, com base no conhecimento de parte. ▪População: conjunto de elementos sobre os quais se deseja informação; ▪Amostra: qualquer subconjunto retirado da população MÉTODO INFERENCIAL Exemplos de unidades de amostras Rato Peso 1 w1 2 w2 ... ... 19 w19 20 w20 Neste exemplo, 20 unidades de amostras foram utilizadas, isto é, 20 ratos diferentes foram pesados DADOS BIOLÓGICOS A característica (propriedade; qualidade) atual medida pelas observações individuais é a variável ou caractere. A variável é quem fornece informações sobre a natureza do dado medido. Em uma mesma observação individual é possível medir uma ou mais variáveis. DADOS BIOLÓGICOS TIPOS DE DADOS Os dados podem ser coletados na forma de duas medidas de escala básicas: ▪ Quantitativa ou contínua; ▪ 1, 2, 32, 68, ... ▪Qualitativa ou categóricos ▪ Pequeno, médio e grande Dados Quantitativos: Apresentam unidades de medidas (gramas, centímetros, graus, etc.). ▪ Se a unidade de medida apresentar um zero verdadeiro então teremos uma medida tipo proporção mas se o zero for arbitrário então a escala é do tipo intervalo. Por exemplo: ▪ Temperatura medida em graus Celsius é do tipo intervalo (0oC não representa a ausência de temperatura), ▪ Abundância de um animal é do tipo proporção pois 0 representa que houve nenhum indivíduo na amostra. TIPOS DE DADOS Dados Qualitativos: CATEGÓRICOS. Para cada observação só existe uma alternativa para o atributo CORES Verde, Azul, Vermelho, ... AMBIENTE Floresta, Cerrado, Mata Atlântica, ... Dados QUALITATIVOS TIPOS DE DADOS TIPOS DE DADOS Qual é a variável dependente e independente? Quem está recebendo o efeito? Quem está causando o efeito? RESPOSTA PREDITORA O que é um banco de dados? ORGANIZAÇÃO DOS DADOS Banco de dados • Na montagem da planilha coloque sempre: • Amostras independentes nas linhas • Variáveis nas colunas ORGANIZAÇÃO DOS DADOS Tamanho do fruto S G 10 P 4 P 6 G 12 G 9 G 8 Variáveis dependentes Eventos independentes Variável independente Dados aberrantes (outliers) • ERROS DE LEITURA OU DE DIGITAÇÃO • Produz valores atípicos ou aberrantes (outliers) que comprometem toda a sequência de análises e conclusões do trabalho. • Verificar a veracidade dos dados antes de realizar as análises • Manuseio prévio dos dados PROBLEMAS COM OS DADOS Dados perdidos (Missing data) • Verificar a quantidade de dados perdidos dentro de cada amostra/observação (linha) ou variável (coluna) • Poucos dados perdidos na matriz • Possível a utilização da linha (observação) ou coluna (variável) nas análises estatísticas • Utilizar a MÉDIA GERAL da respectiva variável PROBLEMAS COM OS DADOS Mistura de tipos de dados • Muitos conjuntos de dados são misturas de informações quantitativas ou ainda misturas de diferentes tipos de dados quantitativos e qualitativos • Homogenização em uma mesma escala • Evitar conclusões equivocadas PROBLEMAS COM OS DADOS • Representação gráfica de dados • Demonstrar padrões e tendências • Comparar informações qualitativas e/ou quantitativas • NÃO TESTAM, apenas ilustram! O QUE SÃO GRÁFICOS? O QUE SÃO GRÁFICOS? Difícil perceber padrões e associações Fácil perceber padrões e associações • Existem vários tipos de gráficos • Cada um deles aplicável a um tipo de informação ou dado estatístico • Conhecê-los é fundamental para realizar a sua leitura correta TIPOS DE GRÁFICOS Média aritmética: Soma do valor das observações dividido pelo número de observações MÉDIA DA AMOSTRA nn x n i i n xxxxx == +++ = 1...321 Indica o centro de gravidade do conjunto de dados Valor em um conjunto de observações que divide igualmente o número de observações MEDIANA DA AMOSTRA Série 01 = ( 7, 5, 4, 1, 8, 3) Série 02 = ( 7, 5, 4, 8, 3) Mediana Série 01 = (1, 3, 4, 5, 7, 8) -> 4 +5 = 9 -> 9/2= 4,5 Mediana Série 02 = (3, 4, 5, 7, 20) = 5 Utilizado quando os dados possuem valores discrepantes Valor que ocorre com maior frequência na amostragem. É facilmente visualizada em um histograma MODA DA AMOSTRA Mediana e Moda são bons descritores de posição dos dados quando a distribuição das observações não se ajusta a uma distribuição normal – podem haver duas ou mais modas. Amplitude = Máximo – Mínimo MÁXIMO, MÍNIMO E AMPLITUDE 0 50 100 150 200 250 1,5 1,55 1,6 1,65 1,7 1,75 1,8 1,85 1,9 F re q u ê n c ia N d e p e s s o a s Classes de tamanho Histograma Mínimo = 1,55 Máximo = 1,9 Amplitude = 0,35 As pessoas apresentam em média 1,72 (1,55 – 1,90) Demonstra quanto os valoresobservados diferem do valor esperado (média) para aquele evento. Distância dos valores em relação a média Quanto menor é a variância, mais próximos os valores estão da média VARIÂNCIA A medida da variância é igual ao quadrado da medida das observações ( ) 1 1 2 2 − = − = n i n i xx s DP É a raiz quadrada da variância Demonstra quanto de variação ou dispersão dos dados existe em relação à média Possui a mesma unidade de medida da variável em questão DESVIO PADRÃO Ajuda a visualizar o “quão confiável” são os valores amostrados Divisão do desvio padrão amostral pela raiz quadrada do tamanho amostral ERRO PADRÃO n S SE x = Quanto melhor a precisão no cálculo da média populacional, menor será o erro padrão. O erro padrão é uma medida de variação de uma média amostral em relação à média da população É muito frequente a confusão entre os conceitos de erro padrão e desvio padrão Apesar de ambos tratarem sobre a variação da média, são conceitos bem diferentes entre si O DP trata de um índice de dispersão da amostra em relação à média O EP padrão é uma medida que ajuda a avaliar a confiabilidade da média calculada Desvio Padrão x Erro Padrão Também conhecida como Distribuição de Gauss DISTRIBUIÇÃO NORMAL Friedrich Gauss 1777 - 1855 Principais características Definida por dois parâmetros: A área total sob a curva é 1 (100%), pois abriga toda a população em estudo DISTRIBUIÇÃO NORMAL Média ( µ ) Desvio Padrão ( σ ) Principais características A média, mediana e moda coincidem no centro Forma de “sino” Curva simétrica em torno da média DISTRIBUIÇÃO NORMAL A grande vantagem de pressupor que uma variável tem distribuição normal é o fato de ser possível calcular as probabilidades (área sob a curva) relacionadas a essa variável. Como calcular esta área? DISTRIBUIÇÃO NORMAL µ + σ 34,13% µ - σ 34,13% µ O QUE É PROBABILIDADE ? Pierre-Simon Laplace 1749 – 1827 “A teoria da probabilidade nada mais é do que o bom senso transformado em cálculo ...” FÓRMULA DA PROBABILIDADE 𝑃 𝐴 = 𝑋 𝑁 𝑃 𝐴 = 𝑛º 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑓𝑎𝑣𝑜𝑟á𝑣𝑒𝑖𝑠 𝑎 𝐴 𝑛° 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑝𝑜𝑠𝑠í𝑣𝑒𝑖𝑠 A probabilidade de um evento A acontecer é igual ao número de elementos favoráveis ao evento A, dividido pelo número de elementos possíveis Quando uma moeda é lançada, qual é a probabilidade de obtermos a face coroa? PROBABILIDADE Qual o ESPAÇO AMOSTRAL desse evento? R: Possibilidade total de resultados em um experimento Qual o EVENTO que estamos analisando? R: Qualquer Subconjunto do espaço amostral Quais os ELEMENTOS desse evento ? R: Cara (elemento que queremos saber a probabilidade) Qual a probabilidade? 𝑃 𝐴 = 𝑛º 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑓𝑎𝑣𝑜𝑟á𝑣𝑒𝑖𝑠 𝑎 𝐴 𝑛° 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑝𝑜𝑠𝑠í𝑣𝑒𝑖𝑠 = 1 2 REPRESENTAÇÃO GRÁFICA DE UM EXPERIMENTO PROBABILÍSTICO Espaço amostral Evento Elementos EXEMPLOS Quando um dado é lançado, qual é a probabilidade de obtermos o número 6? Qual o evento que estamos analisando? R: Qual o espaço amostral avaliado n(S)? R: Qual a probabilidade? 𝑃 𝐴 = 𝑛º 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑓𝑎𝑣𝑜𝑟á𝑣𝑒𝑖𝑠 𝑎 𝐴 𝑛° 𝑑𝑒 𝑒𝑣𝑒𝑛𝑡𝑜𝑠 𝑝𝑜𝑠𝑠í𝑣𝑒𝑖𝑠 = 1 6 = 𝟎, 𝟏𝟔𝟔 Ocorrência do número 6 (evento composto por um elemento) Possibilidades totais de resultado S = {1,2,3,4,5,6,} FREQUÊNCIA RELATIVA COMO ESTIMATIVA DE PROBABILIDADE • Quando não se tem conhecimento do espaço amostral • Necessário uma série grande de experimentos para reduzir o acúmulo de resultados alternativos • Quando não se tem a oportunidade de definir a priori qual a probabilidade de um acontecimento • Estimar a probabilidade com base na frequência relativa PROPRIEDADES DA PROBABILIDADE • Probabilidade de um evento impossível: 𝑃 ∅ = 0 • Evento certo (próprio espaço amostral): 𝑃 𝑐𝑒𝑟𝑡𝑜 = 1 • Probabilidade de um evento complementar: 𝑃 ҧ𝐴 = 1 − 𝑃(𝐴) Qual a probabilidade de jogar um dado e obter um número 5? E qual a probabilidade complementar desse evento? RESUMINDO AS PROPRIEDADES (AXIOMAS) DA PROBABILIDADE A probabilidade de um evento será sempre um número real positivo A soma das probabilidades de todos os eventos possíveis (dados no espaço amostral) é obrigatoriamente 1 (ou 100%) 𝑃 𝐴 = 𝑛º 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑓𝑎𝑣𝑜𝑟á𝑣𝑒𝑖𝑠 𝑎𝑜 𝑒𝑣𝑒𝑛𝑡𝑜 𝐴 𝑛° 𝑑𝑒 𝑒𝑣𝑒𝑛𝑡𝑜𝑠 𝑝𝑜𝑠𝑠í𝑣𝑒𝑖𝑠 EVENTO E PROBABILIDADE COMPLEMENTAR Espaço amostral = 1,2,3,4,5,6 3, 1,2,4, 5,6 Evento A = número 3 Qual a probabilidade do evento A ocorrer? 𝑃 𝐴 = 𝑛º 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑓𝑎𝑣𝑜𝑟á𝑣𝑒𝑖𝑠 𝑎𝑜 𝑒𝑣𝑒𝑛𝑡𝑜 𝐴 𝑛° 𝑑𝑒 𝑒𝑣𝑒𝑛𝑡𝑜𝑠 𝑝𝑜𝑠𝑠í𝑣𝑒𝑖𝑠 𝑃 𝐴 = 1 6 = 0,16 𝑜𝑢 16% Qual a probabilidade complementar do evento A ocorrer? 𝑃 ҧ𝐴 = 1 − 𝑃(𝐴) 𝑃 ҧ𝐴 = 1 − 0,16 = 0,84 PROBABILIDADE CONDICIONAL Probabilidade de ocorrer um dado evento (A) sabendo que outro evento (B) já ocorreu 𝑃 𝐴 𝐵 = 𝑃(𝐴) 𝑃(𝐵) PROBABILIDADE CONDICIONAL Qual a probabilidade de tirar o número 5? Qual a probabilidade de tirar o número 5 sabendo que ocorreu um número impar? 𝑃 𝐴 𝐵 = 𝑃(𝐴) 𝑃(𝐵) 𝑃 𝐴 (5) = 1 6 𝑃 𝐵 (𝑖𝑚𝑝𝑎𝑟) = 3 6 23 4 5 1 6 𝑃 5 𝐼𝑚𝑝𝑎𝑟 = 𝑃(𝐴) 𝑃(𝐵) = 1 6 3 6 = 1 3 = 0,333 COMBINAÇÃO DE EVENTOS 1, 3, 5, 4,6 2 Evento A = números impares Evento B = números > 3 Espaço amostral = 1,2,3,4,5,6 Qual seria a união do evento A com o evento B? 𝐴 ∪ B ou soma dos eventos Qual seria a interseção do evento A com o evento B? A ∩ B ou em comum EVENTOS MUTUAMENTE EXCLUSIVOS Evento A = números impares A Evento B = números pares B Qual seria a interseção do evento A com o evento B? 𝐴 ∩ B = vazio A, ҧ𝐴 Qual seria a união do evento A com o evento ҧ𝐴? 𝐴 ∪ ҧ𝐴 = Espaço amostral SOMA DE PROBABILIDADES Regra do “OU” URNA = 10 bolas 4 bolas vermelhas 3 bolas pretas 2 bolas verdes 1 bola amarela Ao somar as probabilidades de todos os eventos possíveis em um espaço amostral, o total será 1 (100%) SOMA DE PROBABILIDADES Quando você joga um dado, só pode ocorrer uma das faces. Qual é a probabilidade de, em um lançamento, ocorrer 1 ou 6? 1 6 2 3 45 Eventos MUTUAMENTE EXCLUSIVOS 𝑷 𝑨 ∪ 𝑩 = 𝑷 𝑨 + 𝑷(𝑩) 𝑃 1 ∪ 6 = 1 6 + 1 6 = 2 6 𝑃 1 = 1 6 𝑃 6 = 1 6 = SOMA DE PROBABILIDADES Regra do “OU” SOMA DE PROBABILIDADES Quando você joga um dado, só pode ocorrer uma das faces. Qual é a probabilidade de, em um lançamento, ocorrer um número par ou um número >3? Eventos NÃO EXCLUSIVOS 𝑃 𝑝𝑎𝑟 = 3 6 𝑃 > 3 = 3 6 = 2 3 4 5 1 6 𝑷 𝑨 ∪ 𝑩 = 𝑷 𝑨 + 𝑷 𝑩 − 𝑷(𝑨 ∩ 𝑩) 𝑃 𝐴 ∪ 𝐵 = 3 6 + 3 6 − 2 6 = 4 6 = 2 3 SOMA DE PROBABILIDADES Regra do “OU” PRODUTOS DE PROBABILIDADE REGRA DO “E” Se dois eventos são independentes a probabilidades desses de ocorrerem juntos é igual a probabilidade do primeiro multiplicado pela probabilidade do segundo 𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐴 ∗ 𝑃(𝐵) PRODUTOS DE PROBABILIDADE REGRA DO “E” Se dois eventos são dependentes a probabilidades desses de ocorrerem juntos é igual a probabilidade do primeiro multiplicado pela probabilidade do segundo condicionada ao primeiro 𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐴 ∗ 𝑃(𝐵|𝐴) Distribuição Normal padronizada Padronizar significa remover a escala da variável original, em geral transformando-a emum índice Permitir a comparação entre variáveis DISTRIBUIÇÃO Z A principal transformação da curva normal é a Z Quando a variável é transformada em Z ela passa a ter µ = 0 e σ = 1 DISTRIBUIÇÃO Z Variável Média Desvio padrão DISTRIBUIÇÃO Z Tabela de estimativas de áreas sob a curva DISTRIBUIÇÃO Z Calculando áreas distantes da média DISTRIBUIÇÃO Z 50,00 – 34,13 = 15,87 Se (0 ≤ σ ≤ 1) = 34,13% Então (σ > 1) = 15,87% Calculando áreas distantes da média DISTRIBUIÇÃO Z 50,00 – 47,72 = 2,28 Se (0 ≤ σ ≤ 2) = 47,72% Então (σ > 2) = 2,28% Intervalo de valores que considera a variação presente na amostra e que contenha o seu verdadeiro valor com determinada confiança INTERVALO DE CONFIANÇA Medida de imprecisão do verdadeiro tamanho do efeito na população de interesse estimado na população de estudo Tamanho da amostra Imagine que temos tempo e recursos ilimitados para repetir o processo de amostragem infinitamente Poderíamos estimar qual é a “estabilidade” das médias estimadas com base em muitas amostras INTERVALO DE CONFIANÇA Quanto maior forem as amostras, mais semelhante será a média estimada entre amostras Assim, quando as amostras forem iguais a população, todas terão médias idênticas Com recursos limitados, como fazer? INTERVALO DE CONFIANÇA Variância da amostra Esforço amostral Erro Padrão da amostra O erro padrão é uma medida de variação de uma média amostral em relação à média da população Intervalo de Confiança da média INTERVALO DE CONFIANÇA Valor de z, da curva normal Erro padrão da amostra A confiança é baseada no balanço entre variabilidade e esforço amostral INTERVALO DE CONFIANÇA Exemplo 1 Mediu-se a estatura de 40 alunos do curso de Biologia da UFPA. A média e desvio padrão estimados foram: µ = 170 e σ = 5 Qual o intervalo de confiança da média a 95%? INTERVALO DE CONFIANÇA Chance do resultados estar dentro do IC INTERVALO DE CONFIANÇA Testar se o resultado encontrado é condicionado ao efeito ou mero fruto do ao acaso Diferença entre a média dos dados observados (amostrados) pela média dos dados aleatorizados (ao acaso) DIFERENÇAS DE MÉDIA DIFERENÇAS DE MÉDIA Tendo a tabela preenchida, vamos calcular a média de cada grupo ( , ) Agora, calcula-se a diferença entre as médias observadas: Esse valor será o DIF(Obs) SEXO TAMANHO DO PÉ µ - µ DIFERENÇAS DE MÉDIA Aleatorizar as medidas X vezes Calcular as médias aleatorizadas para cada grupo ( , ) Calcular a diferença entre as médias aleatorizadas Esse valor será o DIF(Ale) µALE - µALE DIFERENÇAS DE MÉDIA Plotar um HISTOGRAMA com os dados aleatorizados Verificar onde o DIF(Obs) se localiza no eixo de DIF(Ale) Aceita ou Rejeita a H0? DIFERENÇAS DE MÉDIA Aceita ou Rejeita a H0? 95% 0,95 2,5% 0,025 2,5% 0,025
Compartilhar