Baixe o app para aproveitar ainda mais
Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
Elementos de Bioestatística (21036): M. Rosário Ramos-UAb 1/11 Elementos de Bioestatística (21036) Introdução à Inferência Estatística Paramétrica Resumo e Formulário Estimação pontual e por intervalos de Confiança Testes paramétricos para 2 amostras Resumo de Estatística Descritiva (revisões) Dada uma amostra com n elementos, denotados por x1, x2, …..xn, calculam-se as seguintes estatísticas amostrais. Média amostral denotada por �̅� n x x n x n i in i i 1 1 1 nota: só faz sentido calcular média de variáveis quantitativas! Não faz sentido calcular o valor médio das 5 cores de uma amostra de 5 automóveis; não faz sentido calcular valor médio do sexo/género do indivíduo. Variância amostral, denotada por S2 Significa uma média de desvios ao quadrado, relativamente à média amostral. �̅�. , 2xxi . 2 1 2 1 22 11 xx n xx n s n i i n i i (chamada variância não corrigida, utilizada para amostras grandes, 𝑛 ≥30) Variância amostral corrigida , denotada por S’2 2 1 2 1 22 1 1 1 1 ' xnx n xx n s n i i n i i (chamada variância corrigida, utilizada geralmente nos métodos de inferência estatística, testes paramétricos e intervalos de confiança. Usada quando 𝑛 <30). A diferença em relação à fórmula anterior é que divide por n-1 em vez de n.) Pode calcular-se em alternativa, através de 22 1 ' s n n s Desvio padrão amostral S. - raíz quadrada positiva da variância. n i i xx n ss 1 22 1 (desvio padrão não corrigido) n i i xx n ss 1 22 1 1 '' (designa-se desvio padrão corrigido, utilizado essencialmente nos métodos de inferência estatística, quando n<30.) Elementos de Bioestatística (21036): M. Rosário Ramos-UAb 2/11 Cálculo de �̅� quando os dados estão em tabela de frequências k i ii k i ii xfxn n x 11 1 . 𝑛𝑖 significa frequência absoluta da observação i Em alternativa, pode ser calculada com base nas frequências relativas, n n f ii de cada 𝑥𝑖 observado na amostra. Variância para dados em Tabela de frequências 2 1 2 1 22 11 xxn n xxn n s k i ii k i ii 2 1 2 1 2 xxfxxf k i ii k i ii Mediana Se n é par, a mediana Me,( ou �̃� ) é a média aritmética das observações se encontram nas posições 2 n 2 1n , estando a amostra ordenada por ordem crescente. Se n é ímpar a mediana Me( �̃� ) é a observação x se encontra na posição 2 1n , estando a amostra ordenada por ordem crescente. Exemplo: Perguntou-se a 9 jovens licenciados o montante liquido mensal auferido pelo do trabalho em part-time que lhes foi proposto pelo centro de emprego da sua área. Os valores, em euros, foram os seguintes: 300 200 400 250 400 300 400 750 650 Determine a média e mediana dos montantes auferidos pelos 9 jovens licenciados. 55.405 9 650750400300400250400200300 x euros Determinar a mediana n é ímpar – 9. Ordenando os montantes auferidos por ordem crescente temos: 200 250 300 300 400 400 400 650 750 A mediana é o valor central dos montantes, ou seja, 400 euros. Analisando os dois valores das estatísticas calculadas, concluímos que a média dos montantes auferidos é de 405, 55 euros, no entanto, este indicador pode deve ser complementado com o valor da mediana, que nos leva a concluir que, apesar da média calculada, podemos afirmar metade dos jovens licenciados tem um rendimento que é, no máximo, 400 euros (i.e., tem valor menor ou igual que 400). Quartis Dividem a amostra em quatro partes iguais. Para os determinarmos teremos que em primeiro lugar ordenar a nossa amostra por ordem crescente, e o valor do quartil k (Qk com k=1, 2, 3, 4) é então a observação que se encontra na ordem 4 1 k n , ou seja 4 1 k n x . Coeficiente de variação (percentagem de variabilidade dos dados em relação à média) Cv s x 100 % Elementos de Bioestatística (21036): M. Rosário Ramos-UAb 3/11 Inferência Estatística Paramétrica O processo de Inferência Estatística tem como objetivo fazer afirmações credíveis (ou seja, com um certo grau de confiança) para a generalidade da população que está em estudo. Para fazer estas afirmações, o processo parte da informação contida numa amostra que seja representativa dessa mesma população e recolhida de forma aleatória (uma técnica probabilística, que ajuda a contornar a tendenciosidade nos dados). Fazer inferência Estatística resulta da aplicação de um conjunto de metodologias desenvolvidas para responder aos seguintes problemas, entre outros: - Estimação - Ensaios (ou Testes) de Hipóteses Sendo uma extrapolação de uma afirmação, feita a partir de uma amostra da população (e não de toda a população), a inferência estatística tem necessariamente um erro associado, isto é, existe uma probabilidade da afirmação/conclusão extraída estar errada. Essa probabilidade de erro pode ser controlada pelo Investigador que está a realizar a análise, graças à teoria dos modelos probabilísticos em que assentam estes métodos estatísticos. Conceitos básicos para a Inferência: População: Conjunto de todos os indivíduos ou objetos com pelo menos uma característica em comum (definida pelo interesse do investigador). Podemos considerar os funcionários de um serviço de atendimento ao público, os cidadãos europeus, população de cegonhas que habita o centro do País, empresas de tecnologia nacionais, as cotações diárias das acções em bolsa; utentes de um serviço de saúde; as macieiras de um pomar que pretendemos estudar. Amostra: É um subconjunto da população (que pode não ser representativa nem ter sido selecionada aleatoriamente) Parâmetro: Grandeza que se supõe fixa na população em estudo, e que é importante para a caracterizar. Por outras palavras, é um indicador que permite representar alguma característica da população. O valor médio dos vencimentos de toda a população portuguesa é um parâmetro que serve para fazer comparações, entre outros, com os restantes países da União Europeia. Estimação: Neste campo vamos concentrar o nosso estudo sobre a estimação de um valor de um parâmetro da população, que não é conhecido, e que queremos conhecer. Consideramos a estimação de um valor médio de uma população (quantitativa) e a estimação de uma proporção de uma característica de interesse. por exemplo, estimar a produção média anual de açúcar (em Kg) que é consumida por cada português; estimar o número de utilizadores do comboio de alta velocidade; estimar a percentagem de homens e mulheres que sofre de depressão grave; estimar a despesa média mensal com alimentação biológica; estimar a percentagem de pessoas de uma cidade que frequentam semanalmente ao parque da cidade. Etc.. Estimação Pontual: A partir da informação disponível na amostra recolhida, indica-se um valor único, designada uma estimativa (pontual), para o parâmetro desconhecido. Elementos de Bioestatística (21036): M. Rosário Ramos-UAb 4/11 Estimador: O estimador é uma expressão matemática (pode ser uma fórmula) que serve para obter uma estimativa de parâmetro da população cujo valor desconhecemos, através das observações de uma amostra. Formalmente: O estimador é uma função dos elementos da amostra; é variável, não é fixo, pois para cada amostra que é recolhida, vai tomar um valor. Exemplo: Pretende-se estimar o tempo médio que cada habitante das zonas urbanas gasta diariamente a ver televisão. Para estimar o tempo médio gasto pelos habitantes das zonas urbanas podemos usar a média calculada sobre uma amostra. Assim, o estimador que é aconselhado neste caso é n i ix n X 1 1 Suponhamos que numa amostra de 100 espetadores a média foi de 3.2x horas diárias. Para outra amostra também com 100 indivíduos, diferentes dos anteriores e recolhida no mesmo dia, obteve-se uma média amostral de 9.1x horas diárias. Portanto, um estimador é uma variável aleatória que depende de uma amostra. Amostras diferentes, resultam em estimativas diferentes (mesmo que sejam muito próximas, como é desejado) Estimação e Testes de Hipóteses paramétricos Notação relevante: No que respeita à notação, quando estamos a falar da População utilizam-se os seguintes símbolos: Parâmetro Símbolo (e pronuncia) Valor médio (miu) Variância 2 (sigma ao quadrado) Desvio padrão (sigma) Proporção de indivíduos da população que tem determinada característica p Quando estamos a falar de valores calculados sobre uma Amostra, temos a seguinte notação: Estimativa (do parâmetro) Média x (lê-se x barra) Variância s2 (s ao quadrado) Desvio padrão s Proporção de individuos da amostra com determinada característica x ou p* ou p (lê-se p ‘chapéu’) Nota: Uma probabilidade é um valor compreendido entre 0 e 1, tal como uma proporção. Na linguagem comum as pessoas falam em probabilidades como se de percentagens se tratasse, porque a interpretação é mais fácil. No entanto, quando digo que há 35% de chance de chover amanhã, estou formalmente a dizer que a probabilidade de chover amanhã é 0.35. Elementos de Bioestatística (21036): M. Rosário Ramos-UAb 5/11 Mais em detalhe: – Significa o valor médio da população (parâmetro valor médio) – geralmente representa a média de uma quantidade, variável contínua/de razão; i – indica valor médio da população i, quando há mais do que uma população em estudo (i=2, 3, etc..) – indica desvio padrão da população ; 2 – Indica variância da população (quadrado do desvio- padrão); p – indica proporção da população que tem a característica de interesse (em estudo). d – indica valor médio da diferença entre duas populações emparelhadas. (i – j)0 – diferença hipotética entre as duas médias da população (diferença que está na hipótese nula. α : nível de significância do Intervalo de Confiança ou do Teste Estatístico (valor fixado pelo investigador que representa um limite para o erro cometido na decisão estatística – é a probabilidade de tomar a seguinte decisão errada – Rejeitar a Hipótese nula H0 com base na amostra, quando na realidade na população ela é verdadeira. Os valores mais habituais para α são 5%(5/100=0.05), 1%(1/100=0.01) e 10%(10/100=0.10) 1 – α : nível (ou grau) de confiança do I.C. ou Teste estatístico. É o grau de confiança que o investigador tem na sua decisão (prob. de estar correta). É o complementar do nível de significância. Os valores mais habituais para o grau de confiança são 95%(0.95), 99%(0.99) e 90%(0.90). Estimação por Intervalos de Confiança A estimação pontual pode ser insuficiente para fazer afirmações sobre a população. Mesmo que se tenha selecionado um bom estimador (fórmula que verifica certas propriedades estatísticas), ter um único valor como estimativa, não nos dá ideia da incerteza associada a essa estimativa (incerteza que existe sempre). Assim, é comum determinar um intervalo de valores (uma região de confiança) que, contém o verdadeiro valor do parâmetro desconhecido, com um certo grau de confiança (probabilidade de estar correto). Exemplo: Considere-se uma amostra de 50 indivíduos com menos de 40 anos que responderam a um questionário. Determinou-se que, para esta amostra, 0.45 (45%, em percentagem) dos respondentes disseram que tomariam a vacina contra a Gripe quando fossem idosos. Utilizando esta estimativa pontual poderíamos dizer que se estima que 45% de toda a população tenciona vacinar-se mais tarde (na 3ª idade). Este indicador é um pouco limitado, pois sendo resultado de uma amostra, tem uma probabilidade de estar afastado da realidade. O investigador pode então calcular um intervalo cuja probabilidade de estar correto (de conter o valor da população) pode ser indicada. Assim, através de métodos estatísticos é possível determinar um intervalo (uma região) estabelecendo à partida que teria 95% de hipóteses (confiança 1-𝛼) de estar correto, ou seja, de conter a verdadeira percentagem de pessoas com menos de 40 anos que tencionam vacinar-se contra a gripe, mais tarde. Dizer que a proporção está entre 0.40 e 0.53 (intervalo) com uma confiança de 95%, quer dizer que tenho 95% de probabilidade de acertar e que existe uma probabilidade de 0.05 (na linguagem comum, 5%) de estar a fazer uma afirmação errada!! (por isso existem as conhecidas falhas nas previsões de resultados eleitorais) Os intervalos de confiança que estudamos nesta unidade curricular resumem-se aos que tratam dois tipos de parâmetros (mas existem muitos mais!!!): intervalos para o valor médio (média de uma quantidade, 𝜇), para a diferença entre duas médias populacionais (𝜇1 − 𝜇2), ), e Intervalos de confiança para proporções (ou percentagens p, - o mais usual em sondagens eleitorais, por exemplo). Como se determina um intervalo de confiança? Elementos de Bioestatística (21036): M. Rosário Ramos-UAb 6/11 ● Escolher o estimador (fórmula) mais indicado para estimar o parâmetro de interesse (consoante se pretende estimar a média, uma proporção, uma diferença entre médias, etc.); ● Escolher o nível de confiança 1 – α do intervalo e fixar o respetivo nível de significância . Por exemplo, se eu pretendo ter 90% de confiança na minha afirmação estatística, então terei obviamente 10% de significância, ou seja, 0.1 é a probabilidade máxima de estar a indicar um intervalo que está errado. ● Ter presente a dimensão da amostra, n; ● Identificar a distribuição de probabilidades que corresponde ao estimador escolhido. Nesta UC são estudados apenas Intervalos de Confiança que são simétricos em relação a um eixo central (geralmente a média). As leis de distribuição preferenciais são então a distribuição Normal e a distribuição T de Student. ● Depois de escolher o estimador adequado à situação em causa, substituir os valores necessários na expressão do intervalo e obter os seus limites inferior e superior do intervalo de Confiança. ● Amplitude do Intervalo – é a diferença (Limite Superior – Limite Inferior). ● Margem de erro do intervalo de confiança, e. É frequente acompanhar o cálculo do I.C. com a indicação da margem de erro do intervalo. Esta é facilmente obtida, pois é metade da amplitude do Intervalo. Elementos de Bioestatística (21036): M. Rosário Ramos-UAb 7/11 Quadro Resumo dos Intervalos de Confiança Parâmetro a estimar Tipo de população Dimensã o da amostra Conhec e-se ? Expressão do Intervalo (valor médio) Normal qualquer n sim SupLimiteInfLimite n zx n zx 2/12/1 Normal 𝑛 < 30 Não (estimar com s’) n s tx n s tx nn '' 2/1;12/1;1 Normal n ≥ 30 Não (estimar com s) n s zx n s zx 2/12/1 1 2 (diferença entre duas médias populacionai s) Populações Independent es e Normais quaisquer n1 e n2 sim (1 e 2) (*) ΑA )2/1(2121)2/1(21 zxxzxx 2 2 2 1 2 1 nn A 1 2 Populações Independent es e Normais n1 e n2 ambos ≥ 30 não (usar s1 e s2) (*) BB )2/1(2121)2/1(21 zxxzxx 2 2 2 1 2 1 n s n s B 1 2 Populações Independent es e Normais n1 ou n2 < 30 (*) atxxatxx lglg .2121.21 2 21 1 2 2 1 2 1 2 1 ' 1 '1 1 2 n s n s a n n n n )2/1;2(. 21 nnlg p (uma proporção populaciona l) Bernoulli n ≥ 30 n pp zpp n pp zp )ˆ1(ˆ ˆ )ˆ1(ˆ ˆ 2/12/1 p1 p 2 (diferença entre duas proporçõe) Bernoulli n1 e n2 ambos ≥ 30 AA )2/1(2121)2/1(21 ˆˆˆˆ zppppzpp (**) 2 22 1 11 )ˆ1(ˆ)ˆ1(ˆ n pp n pp A (*) Colocar em x1 a média amostral mais elevada, para facilitar a interpretação da diferença. (**) Para facilitar a interpretação, colocar em p1 a proporção amostral mais elevada. O aplicativo Excel é um bom auxílio para o cálculo de Intervalos de Confiança. Para a sua utilização deve instalar o suplemento Analise de Dados (gratuito) Elementos de Bioestatística (21036): M. Rosário Ramos-UAb 8/11 Testes de Hipóteses Paramétricos – duas amostras A realização de um teste estatístico permite confirmar ou refutar, com um certo grau de confiança, determinadas afirmações ou suspeitas sobre as populações em estudo. A decisão tomada com base no teste acarreta sempre algum risco ou, mais formalmente, alguns tipos de erro. Estes) erro estão diretamente associados com as hipóteses do teste. Definem-se em primeiro lugar as hipóteses do teste: Hipótese nula, H0 , e Hipótese alternativa, H1. Não pode haver nada em comum (situações ou valores) nas duas hipóteses, isto é, uma hipótese está em contraposição à outra. Ex: H0: Homens e mulheres vêem telenovelas com a mesma frequência (não há diferenças) H1: As mulheres vêem telenovelas com maior frequência do que os homens. (há diferenças) Notação relevante: (na continuidade da notação já mencionada nos I.C.). – Significa o valor médio da população (parâmetro valor médio) – geralmente representa a média de uma quantidade, variável contínua/de razão; i – indica valor médio da população i, quando há mais do que uma população em estudo. – indica desvio padrão da população e 2 – Indica variância da população; p – indica proporção da população que tem a característica de interesse (em estudo). d – indica valor médio da diferença entre duas populações emparelhadas. (i – j)0 – diferença hipotética entre as duas médias da população (diferença que está na hipótese nula. Tipo de lateralidade do teste: Indica o sentido da diferença entre parâmetros que estamos a testar. Genericamente, o teste estatístico classifica-se em Teste unilateral ou teste bilateral). A lateralidade do teste é indicada na hipótese alternativa H1.: Tomemos o exemplo de teste sobre duas médias populacionais 1 e 2 : Teste bilateral- H1: 1 ≠ 2 H1: 1 – 2 ≠0 (quando interessa testar se há diferenças em geral, testa-se simplesmente de a média da população 1 é significativamente diferente da média da população 2) Teste unilateral direito- H1: 1 > 2 H1: 1 – 2 > 0 (quando interessa testar se o parâmetro 1 toma valores superiores (à direita) de outro parâmetro, ou é superior a uma constante, 1 >5, p.ex. ) Teste unilateral esquerdo- H1: 1 < 2 H1: 1 – 2 < 0 (quando interessa testar se o parâmetro 1 tem valores significativamente inferiores (à esquerda) de outro parâmetro ou a uma constante . Por exemplo, teste se 1<5. Pressupostos de aplicabilidade: As amostras são recolhidas por amostragem aleatória (outros pressupostos encontram-se no quadro resumo). Amostras independentes: quando os indivíduos ou objetos/animais das duas amostras são diferentes. No fundo, é quando o resultado de observação da amostra 1 não é afetado pelo resultado Elementos de Bioestatística (21036): M. Rosário Ramos-UAb 9/11 da observação da amostra 2 à partida (por exemplo, comparar uma amostra de homens com uma amostra de mulheres no que respeita ao tempo despendido em transportes na viagem para o trabalho). Amostras emparelhadas: existe um efeito de uma amostra sobre os resultados da outra que não se pode desprezar. Os grupos são dependentes, são os mesmos indivíduos em duas situações, por exemplo. Por exemplo, analisar a eficácia de um medicamento, medindo a febre antes e após 30min da toma do medicamento em teste. Existe um efeito do indivíduo (condicionado às condições físicas do próprio) que não podemos desprezar. O nível de febre antes está emparelhado com o nível de febre depois, para um mesmo indivíduo. Sequência metodológica para realizar um teste de hipóteses: 1 – Formulação das Hipóteses H0 (hipótese nula) e H1 (Hipótese alternativa, que (define simultaneamente se o teste é unilateral ou bilateral); 2 – Fixar o nível de significância (isto é, fixar um valor para o erro de tipo I -> ); 3 – Escolha da Estatística (ou variável fulcral) mais adequada para a situação, e definir as regiões de aceitação e de rejeição da hipótese nula; 4 – Tomar a decisão estatística e traduzi-la para a situação real que estava em teste. Elementos de Bioestatística (21036): M. Rosário Ramos-UAb 10/11 Quadro Resumo dos Testes de Hipóteses (2 amostras independentes) Nota: a regra de decisão é apresentada de uma forma simplificada, considerando o valor absoluto da variável fulcral em grande parte dos casos. Esta forma é equivalente à decisão tomada sem recorrer ao valor absoluto (para os testes unilaterais). Nota: os testes paramétricos para médias aplicam-se a variáveis contínuas (escala métrica), ou pelo menos escala intervalar. Se os dados estiverem numa escala ordinal é necessário recorrer a uma alternativa não paramétrica, principalmente se a amostra tiver uma pequena dimensão. Parâmetros a testar e hipóteses Tipo de população Dimensão da amostra Conhece- se ? Estatística de teste ou Valor do Teste, variável fulcral (sinónimos) Regra de decisão Teste para comparar 2 valores médios Hipótese nula H0: 1 = 2 Versus (consoante o enunciado) H1: 1 ≠ 2 ou H1: 1 < 2 H1: 1 - 2<0 ou H1: 1 > 2 H1: 1 - 2 > 0 Populações Independentes e Normais quaisquer n1 e n2 sim (1 e 2) z0= 2 2 2 1 2 1 02121 n σ n σ )μ(μ)XX( Rejeito H0 se O valor calculado for igual ou superior ao valor tabelado Teste bilateral |z0|≥ ztab= z(1-/2) Teste unilateral: |z0|≥ ztab= z(1-) (tabela da distribuição Normal padrão) Populações Independentes e Normais n1 e n2 ambos > 30 Não (1 e 2) z0= 2 2 2S 1 2 1S 02121 nn )μ(μ)XX( Populações Independentes e Normais n1 ou n2 30 não (1 e 2) Mas assumem- se idênticas 2 2 1 2 t0= 21 21 '2 12 '2 11 02121 n´n )μ(μ)XX( 11 2-n n 1)S'-(n1)S'-(n Rejeito H0 se O valor calculado for igual ou superior ao valor tabelado Teste bilateral: )2/1;2(0 21 nntt Teste unilateral: )1;2(0 21 nntt (tabela da distribuição t- Student) Duas proporções H0: p1 = p2 versus a- H1: p1≠ p2 ou b- H1: p1 < p2 ou c- H1: p1 > p2 Bernoulli n1 e n2 > 30 ------- 2 22 1 11 02121 0 )ˆ1(ˆ)ˆ1(ˆ )()ˆˆ( n pp n pp pppp z Rej. H0 se a- |z0|≥ztab=z(1-/2) ou b- z0≤ -ztab=z(1-) ou c- z0≥ztab=z(1-) Elementos de Bioestatística (21036): M. Rosário Ramos-UAb 11/11 Quadro resumo (para 2 amostras emparelhadas) Parâmetro(s) a testar e hipóteses Tipo de população Dimensão da amostra Conhece- se d? (desv.pad da diferença) Estatística de teste ou Valor do Teste Regra de decisão Hipótese nula H0: 1 = 2 H0: d=0 Versus (consoante o enunciado) H1: 1 ≠ 2 d≠0 ou H1: 1 < 2 H1: d<0 ou H1: 1 > 2 H1: d>0 Populações emparelhadas e Normais n 30 n é o num. de pares de sujeitos não Calcula-se para cada par emparelhado a diferença 21 XXd ou 12 XXd Consoante o que foi definido em H0. t0= 1 2 11 2 1 n ddn d n i i n i i n i i Rejeito H0 se O valor calculado for igual ou superior ao valor tabelado Teste bilateral: )2/1;1(0 ntt Teste unilateral: )1;1(0 ntt (tabela da distribuição t- Student) Regra de Decisão utilizando o valor p (inglês p-value) -significância do teste para um conjunto de dados concreto). Esta forma de tomar a decisão tornou-se mais generalizada a partir do momento em que os problemas estatísticos são resolvidos com recurso aos programas informáticos. Basicamente, a decisão do investigador é baseada no p-value gerado nos cálculos. O valor p de um teste de hipóteses, é o nível de significância a partir do qual já se rejeita a hipótese nula, tendo em conta o valor observado na estatística de teste para uma amostra concreta. Mais precisamente, para qualquer nível de significância pré fixado que seja superior ao valor p há evidência para rejeitar H0. Para níveis de significância inferiores ao valor p, não se deverá rejeitar H0 Fixado o nível de significância α,tem-se então Rejeita-se H0 se valor-p ≤ (válido em qualquer tipo de teste: unilateral ou bilateral) Um valor-p igual 0.05 por exemplo, indica que existe uma probabilidade de 5% de que a amostra que estamos a testar possa ser tirada, assumindo que a hipótese nula é verdadeira. (p-value nos packages, e chamado também de significância do teste).
Compartilhar