Baixe o app para aproveitar ainda mais
Prévia do material em texto
Metodologia Científica Bioestatística Prof. Emídio Cavalcanti de Albuquerque PESQUISA Definição: pesquisa é uma indagação ou busca minuciosa para averiguação da realidade; é a investigação e estudo, minudentes e istemáticos, com o fim de descobrir ou estabelecer fatos ou princípios relativos a um campo qualquer do conhecimento (Ferreira, 1975). Pesquisar é encontrar respostas para questões propostas, utilizando métodos científicos. A pesquisa sempre parte de um tipo de problema, de uma interrogação. Através de um tratamento científico ela vai responder às necessidades de conhecimento de certo problema. Hipóteses serão levantadas e os resultados da pesquisa confirmarão ou invalidarão as mesmas. ALGUNS TIPOS DE PESQUISA PESQUISA DE COMUNICAÇÃO - Tipo de pesquisa realizada para aferir aspectos ligados à comunicação de marketing, como percepção da marca, índice de recall, compreensão da mensagem, etc. (Ver demais definições de pesquisa e Recall) PESQUISA DE MERCADO - Tipo de pesquisa realizada para aferir aspectos ligados ao produto em si e ao mercado, como motivações de consumo, necessidades e desejos dos consumidores e prospects, conceito dos principais concorrentes, etc. (Ver demais definições de pesquisa e Prospect) PESQUISA DE MÍDIA - Tipo de pesquisa realizada para aferir aspectos ligados à mídia, como índices e perfil de audiência, hábitos de consumo de veículos e programas, relacionamento com os veículos, etc. (Ver demais definições de pesquisa) PESQUISA QUANTITATIVA - Tipo de pesquisa realizada para mensurar segmentos do mercado e as informações qualitativas pré-existentes ou levantadas pela pesquisa qualitativa. (Ver demais definições de pesquisa) PESQUISA QUALITATIVA - Tipo de pesquisa realizada para aferir aspectos qualitativos de alguma questão, como percepção de imagem, atitudes diante de marcas e veículos, motivações, etc. (Ver demais definições de pesquisa) PASSOS BÁSICOS PARA REALIZAR UMA PESQUISA • Seleção do tópico ou tema para investigação; • Definição e diferenciação do problema; • Levantamento de hipóteses de trabalho; • Coleta, sistematização e classificação dos dados; • Análise e interpretação dos dados; • Relatório do resultado da pesquisa. TEMA Primeira etapa de uma pesquisa. A investigação pressupõe uma série de conhecimentos anteriores e exige do pesquisador dedicação, persistência, paciência e esforço contínuo. PROBLEMA Dificuldade, teórica ou prática, dentro de um tema, para a qual se quer encontrar uma solução. Deve haver clareza, concisão e objetividade. Um problema muito abrangente torna a pesquisa mais complexa; quando bem delimitado, simplifica e facilita a maneira de conduzir a investigação. O problema, para ser considerado apropriado, deve ser analisado sob os seguintes aspectos: a. Viabilidade - pode ser resolvido através da pesquisa; b. Relevância - estar adequado ao estágio atual da evolução científica; c. Novidade - trazer conhecimentos novos; d. Exequibilidade - chegar a uma conclusão válida; e. Oportunidade - atender a interesses particulares e gerais. HIPÓTESE • Tentativa de se dar resposta a um problema existente. • Antecede a constatação dos fatos • Caracterizada por uma formulação provisória; • Deve ser testada para determinar sua validade; • A definição prévia da hipótese torna mais simples o estabelecimento do objetivo da pesquisa; • É necessário que ela seja formulada com embasamento teórico, e de tal maneira que sirva de guia na tarefa da investigação . Coleta e organização: envolve os processos de definição da população de estudo, construção do instrumento de coleta (questionário), definição do processo de amostragem, controle de viés, construção de banco de dados, validação e consistência do banco de dados. Representação e descrição dos dados: se refere a melhor maneira de apresentar os dados estatísticos, sejam eles na forma de tabelas ou gráficos, de forma que a sumarização dos dados facilite a descrição dos fenômenos observados. COLETA, SISTEMATIZAÇÃO E CLASSIFICAÇÃO DOS DADOS Pesquisa Qualitativa x Quantitativa POPULAÇÃO E AMOSTRA POPULAÇÃO (N): É o conjunto de indivíduos, objetos ou informações que tenham uma específica característica de interesse, podendo, quanto ao número de elementos, ser: finita (tamanho N) ou infinita. Como exemplo de população estatística podemos citar: População de pacientes internados no IMIP, no período entre 01 de janeiro e 31 de dezembro de 2006; População de adolescentes usuários do ambulatório do PROSAD no CISAM/Recife, atendidos no período de fevereiro a maio de 2004; População do mosquito Aedes aegypti, para pesquisa de infestação. AMOSTRA (n): É um subconjunto não vazio ou parte da população. N n Extrapolação para a população (estimativas) Resultados na amostra: representação da população PROCESSOS ESTATÍSTICOS DE AMOSTRAGEM - CENSO - avaliação direta de um parâmetro, utilizando-se todos os componentes da população. Estudos por meio de censo são caros, lentos, porém, admite erro processual zero e tem confiabilidade 100%. Como exemplo, o Censo Demográfico Brasileiro, que ocorre de dez em dez anos. - AMOSTRAGEM (Inferência) - avaliação indireta de um parâmetro, com base em um estimador através do cálculo das probabilidades. São estudos de baixo custo, rápidos, no entanto, admite erro amostral e tem confiabilidade menor que 100%. Definições: Parâmetro, Estimador e Estimativa a) As medidas numéricas descritivas de toda a população (proporção, média, total, desvio padrão) são denominadas parâmetro. b) Uma característica numérica estabelecida para uma amostra é denominada estimador. O estimador sempre será uma função de variáveis aleatórias observáveis, usada para estimar um parâmetro. Por exemplo, a média de uma amostra (), pode ser usada como estimador da média da população. é um estimador dado ser uma função de observações de uma amostra. c) O valor numérico assumido pelo estimador numa determinada amostra é denominada estimativa. TÉCNICAS DE AMOSTRAGEM -Probabilística ou aleatória; -Não probabilística ou não aleatória, viciada; PROBABILÍSTICA OU ALEATÓRIA-quando cada unidade amostral na população tem a probabilidade conhecida e é diferente de zero. NÃO PROBABILÍSTICA OU NÃO ALEATÓRIA (Tendência) - quando não é conhecida a probabilidade de cada unidade pertencer à amostra, podendo prejudicar a sua representatividade em relação à população. PRINCIPAIS TIPOS DE AMOSTRAGEM PROBABILÍSTICAS Aleatória Simples Aleatória Sistemática Estratificada Com e Sem Partilha Proporcional Conglomerados AMOSTRAGEM ALEATÓRIA SIMPLES (AAS) -É semelhante a um sorteio lotérico; -A população deve ser razoavelmente homogênea; -Na formação da amostra, cada elemento da população a ser sorteada deve apresentar igual probabilidade de pertencer a amostra; -Os elementos da população são listados e devem ser enumerados de 1 a n, em qualquer ordem, seja ela alfabética ou pelo número do prontuário ou data de entrada. - Para o sorteio, a tabela de números aleatórios (anexo 1) pode ser utilizada, como também uso de software ou calculadora estatística. AMOSTRAGEM ALEATÓRIA SISTEMÁTICA - Selecionam-se sistematicamente as observações que participarão da amostra, em intervalos fixos a partir de uma observação inicial selecionada ao acaso. - É utilizada quando as unidades amostrais estão dispostas em alguma ordenação que possibilite o sorteio em intervalos iguais. Como por exemplo, prontuário médicos em um arquivo, ficha da família no arquivo do PSF, entre outros. A amostragem sistemática seguem os seguintes passos: 1. É necessário definir o intervalo amostral (k), calculado por onde, N é o tamanho da população e n é o tamanho a amostra2. O primeiro indivíduo a compor a amostra é obtido através do sorteio de um número entre 1 e o intervalo amostral (k) - Início aleatório (i). n Nk = n Nk = n Nk = Exemplo: População de tamanho 20, numerada sequencialmente e amostra de tamanho 5. 1º Passo: Calcular o intervalo amostral 2º Passo: Sortear o início aleatório entre 1 a 4 Número sorteado = 2 (primeiro sorteado - 2º da lista) 3º Passo: Determinar as unidades amostrais i = 2 i + K = 2 + 4 = 6 (6º da lista) i +2K= 2 + 8 = 10 (10º da lista) i + 3K = 2 + 12 = 14 (14º da lista) i + 4K= 2 + 16 = 18 (18º da lista) Então, as unidades amostrais que farão parte da amostra serão: 2, 6, 10, 14 e 18. AMOSTRAGEM ESTRATIFICADA Formados os estratos, o tamanho da amostra por estrato pode ser calculado de duas formas: Partilhando proporcionalmente os estratos de acordo com a proporção, na população, da característica de interesse adotada como formadora do estrato. Essa forma é a mais recomendada dada à facilidade da estimação no processo de análise. A divisão pode ser feita sem partilha proporcional, ou seja, a amostra é dividida igualmente entre os estratos. Na amostragem sem partilha proporcional, a estimação da característica de interesse da população tem que ser ponderada pelo tamanho de cada estrato no momento da análise, tornando-a mais dificultosa. Exemplo: Uma pesquisa tem o objetivo de avaliar o perfil de atendimentos em 3 grandes Hospitais regionais – Hospital de Arcoverde, Agreste e Palmares. Para isso, foi calculada uma amostra de 696 atendimentos. A tabela abaixo mostra a divisão da amostra utilizando os métodos sem partilha proporcional e com partilha proporcional pelo número de atendimentos semanal. Atendimentos semanal Número de Amostras por hospital Hospitais N % Proporcional Não proporcional Arcoverde 1.345 37,0 258 232 Agreste 1.173 32,2 224 232 Palmares 1.122 30,9 214 232 Total 3.640 100,0 696 696 AMOSTRAGEM POR CONGLOMERADOS Exemplo: Um pesquisador deseja estudar a prevalência de AIDS em adolescentes estudantes universitários da rede particular no Recife em 2006. Primeiro deverá realizar o cálculo para o tamanho da amostra. Obter a listagem das faculdades da rede privada em 2006, e o número de adolescentes em cada uma delas. Ele sorteia algumas delas e realiza o exame para o vírus HIV em todos os estudantes adolescentes das faculdades sorteadas. DADOS ESTATÍSTICOS E VARIÁVEIS VARIÁVEL - categoria que descreve mudança ou variação nos fenômenos. Qualquer aspecto de um indivíduo que seja mensurado ou qualificado e registrado é chamado de variável. Entenda-se indivíduos em estatística não só como pessoas mas como a domicílios, hospitais, cobaias etc. VARIÁVEL QUANTITATIVA QUALITATIVA DISCRETA CONTÍNUA NOMINAL ORDINAL Tipos básicos de variáveis Quanto à natureza, as variáveis podem ser classificadas como qualitativas ou quantitativas. Variável qualitativa: é uma variável cujas manifestações (ocorrências ou realizações) apresentam diferenças de natureza, ou seja, são qualitativamente distintas. Essas manifestações constituem as modalidades ou categorias da variável. O gênero, o estado civil, o credo religioso, a nacionalidade e o tipo de sangue são exemplos de variáveis qualitativas. Variável quantitativa: é uma variável cujas manifestações mantém sempre a mesma natureza, diferindo entre si apenas em magnitude. A altura, o peso, a idade, o nível de hemoglobina, o número de filhos, o estágio de uma doença são exemplos de variáveis quantitativas. Escala nominal. É uma escala apenas classificatória. Suas categorias não têm qualquer tipo de ordenação entre elas. As escalas nominais são as escalas naturais para mensurar as variáveis qualitativas. Um exemplo de escala nominal é a escala formada pelas palavras masculino e feminino. Esta escala é freqüentemente usada para registrar o gênero. O conjunto {O, A, B, AB} define uma escala nominal para o grupo sangüíneo do sistema ABO. Observação: Os numerais podem ser usados para representar as categorias de uma escala nominal. Nesses casos, os numerais não estão representando quantidades. Eles devem ser vistos apenas como rótulos identificadores. Visto que uma escala nominal é apenas uma escala classificatória, e, sendo a classificação a mais básica operação efetuada em qualquer ciência, as escalas nominais são consideradas as escalas que possuem o mais baixo nível de mensuração. Escala ordinal. É um conjunto de categorias ordenadas. Escalas ordinais são apropriadas para variáveis quantitativas quando não é viável definir uma unidade de medida, mas é possível ordenar dois casos que sejam considerados diferentes. É o que acontece, por exemplo, com o estádio de câncer de mama, cuja progressão é registrada usando-se uma escala ordinal com as seguintes categorias: estádio I, estádio II, estádio III e estádio IV, com a seguinte ordem definida entre elas: estádio I < estádio II < estádio III < estádio IV A ordenação é definida de maneira que qualquer estádio situado à direita de um sinal “< “ significa uma progressão em relação aos estádios situados à sua esquerda. Entretanto, a inexistência de uma unidade de medida, nesse caso, não permite quantificar a magnitude da diferença entre dois casos situados em estádios diferentes. Por conta disso, não é possível dizer, por exemplo, que a diferença entre o estádio II e o estádio I é igual à diferença entre o estádio III e o estádio II. Uma escala ordinal, que, além de classificar os elementos em categorias, permite a ordenação das mesmas, é considerada uma escala com nível de mensuração mais elevado do que as escalas nominais. Em algumas variáveis quantitativas existe um limite (em valor absoluto) para a diferença de magnitude entre dois casos considerados distintos. Tais variáveis são denominadas de variáveis discretas. Por exemplo, se dois pacientes tiverem número de internações diferentes durante certo período de tempo, a diferença entre esses dois números, em valor absoluto, não pode ser inferior a um. Portanto, o número de internações (durante certo período de tempo) é uma variável discreta. O número de filhos de uma família e o número diário de nascimentos em uma maternidade são também variáveis discretas. Uma variável contínua é uma variável quantitativa em que não existe um limite para a diferença entre dois valores distintos dessa variável. Por exemplo, entre duas pessoas com idades diferentes, a diferença das idades poderia ser inferior a um ano, a um mês, a um dia, a uma hora, a um minuto, a um segundo, etc. Peso, altura, área, volume, temperatura, pressão arterial e nível de glicose são exemplos de variáveis contínuas. Sempre que os valores de uma variável são necessariamente registrados com erro de arrendondamento, essa variável é contínua. Em análises onde se pretende buscar associação entre variáveis, a variável principal de interesse é denominada como dependente e as outras variáveis que possivelmente possam estar relacionadas com a variável dependente é denominada de independente ou explicativa. VARIÁVEIS INDEPENDENTES - são as causas presumidas que estão associadas a variável dependente ou efeito. VARIÁVEIS DEPENDENTES - é ou são o(s) efeito(s) presumido(s) das variáveis independentes. Exemplo: consumo de açúcar (possível causa) e cárie dentária (efeito do consumo de açúcar nos dentes). Então, consumo de açúcar é a variável independente e cárie a variável dependente. COLETA E PROCESSAMENTO DOS DADOS Após cuidadoso planejamento, escolha das variáveis e determinação da amostra, o pesquisador deverá dar início à coleta de dados para a sua descrição, apresentação e, posterior análise. Quanto aos métodos de coleta de dados, podemos descrever alguns mais usados e discutir oscuidados que devemos ter com cada um deles: • Entrevista pessoal • Entrevista por telefone • Questionário auto-administrado • Observação direta Todos esses métodos pressupõem a existência de um instrumento de coleta (questionário ou de um elenco de perguntas e observações a serem realizadas) que também deve ser planejado com bastante critério. A fonte de informação para a coleta dos dados pode ser primária ou secundária. FONTE PRIMÁRIA DOS DADOS - quando estes são levantados diretamente da população de estudo no momento da pesquisa. Exemplo: dados de inquérito. FONTE SECUNDÁRIA - quando o pesquisador utiliza dados já existentes, por exemplo, dados do prontuário médico, do censo. Processamento através da criação de um banco de dados Banco de dados Um banco de dados é uma coleção de realizações ou observações sobre as variáveis mensuradas numa pesquisa. Exemplo 1. Parte inicial de um banco de dados proveniente de um estudo sobre fatores de risco para óbito infantil. N sexo pesonasc gesta tipograv tipoparto idademae instrmae cathosp desfecho 1 1 4130 4 1 1 25 2 2 2 2 2 3100 4 1 2 33 4 0 2 3 2 3600 4 1 1 19 2 2 2 4 1 3000 4 1 2 21 2 2 2 5 2 3500 4 1 1 17 2 2 2 6 1 3350 4 1 1 25 2 2 2 7 2 3350 4 1 2 17 2 2 2 8 2 3900 4 1 2 27 2 2 2 9 1 3850 4 1 1 25 3 2 2 10 2 3420 4 1 1 24 3 2 2 Descrição das variáveis do banco de dados sobre fatores de risco para óbito infantil. Variável Descrição Códio Descrição do código Sexo Sexo da criança 1 2 Masculino Feminino Peso Peso ao nascer (gramas) 300 a 6000 Gesta Duração da gestação 1 2 3 4 5 0 – 21 semanas 22 – 27 semanas 28 – 36 semanas 37 – 41 semanas >= 42 semanas Tipograv Tipo de gravidez 1 2 3 4 Única Dupla Tríplice > Três Tipoparto Tipo de parto 1 2 Espontâneo Operatório Idademae Idade da mãe 12 a 46 anos Instrmae Grau de instrução da mãe 1 2 3 4 5 Nenhuma Primeiro grau incompleto Primeiro grau completo Segundo grau Superior Cathosp Categoria do hospital 0 1 2 Privado não SUS Público-estatal Privado contratado pelo SUS Desfecho Variável indicadora de óbito ou sobrevida 1 2 Óbito Vivo Seguido da digitação, o pesquisador deverá fazer a crítica dos dados colhidos, dados brutos, visando eliminar valores impróprios ou inconsistentes, que possam interferir nos resultados finais do estudo. Observação: Recomenda-se que essa digitação seja feita em duas entradas, além disso, por dois digitadores diferentes, para que haja a confrontação dos dois bancos de dados, a fim de identificar possíveis erros de digitação. Isso se justifica pelo fato que é muito pouco provável que os dois digitadores errem no mesmo dado. Estatística Descritiva Após a coleta e armazenamento num arquivo, tem início a análise e a interpretação dos dados. Para que sejam informativos ou comparáveis com outros resultados, ou ainda, para julgar a adequação deles a alguma teoria, percebe-se a necessidade de organizá-los e resumi-los de forma adequada. Os meios necessários a essa finalidade constituem a Estatística Descritiva. São eles: tabelas, gráficos e medidas numéricas tais como médias e percentagens. Estatística Descritiva Após a coleta e armazenamento num arquivo, tem início a análise e a interpretação dos dados. Para que sejam informativos ou comparáveis com outros resultados, ou ainda, para julgar a adequação deles a alguma teoria, percebe-se a necessidade de organizá-los e resumi-los de forma adequada. Os meios necessários a essa finalidade constituem a Estatística Descritiva. São eles: tabelas, gráficos e medidas numéricas tais como médias e percentagens. Tabela 1. Freqüência e percentagem da escolaridade das mães, numa coorte de nascidos vivos em 1992. Goiânia, GO. Escolaridade N % Nenhuma 586 3,2 Primeiro grau incompleto 8679 47,0 Primeiro grau completo 3229 17,5 Segundo grau 4461 24,2 Superior 1502 8,1 Total 18457 100,0 Distribuição de freqüência de variáveis numéricas discretas A distribuição de freqüência de uma variável discreta numérica é obtida de maneira similar à distribuição de freqüência de uma variável categórica (nominal ou ordinal). No caso de variáveis discretas numéricas, o número de elementos com um dado valor da variável é a freqüência desse valor. Associando-se cada valor com a respectiva freqüência, obtém-se a distribuição de freqüência da variável. A Tabela 2 ilustra a maneira usual de representar uma distribuição de freqüência de uma variável numérica discreta com poucos valores. Tabela 2. Distribuição de escolares de 103 unidades das redes de ensino público e privado do Município de São Paulo, 1996. Idade (anos) N % 5 490 19,7 6 266 10,7 7 245 9,8 8 264 10,6 9 263 10,6 10 246 9,9 11 222 8,9 12 495 19,9 Total 2491 100,0 Classes A maneira usual de resumir dados de uma variável contínua, quando existe um grande número de elementos, é adotar um procedimento similar àquele usado para as variáveis categóricas. Ou seja, define-se uma nova escala, agora uma escala categórica, e os dados são reclassificados de acordo com as categorias dessa escala. Essas categorias, chamadas de classes, são intervalos de números reais que contêm valores da variável. A questão básica é decidir número, amplitude e limites (inferior e superior) das classes que vão formar a nova escala. A determinação do número, amplitude e limites de classes, não obedece a regras precisas e detalhadas, mas subordinam-se a um procedimento geral constituído das seguintes etapas: 1. escolher classes justapostas, mas sem superposição e em número suficiente para englobar todas as observações. 2. Contar o número de observações que pertencem a cada classe. Esse número é chamado de freqüência absoluta. 3. Determinara a freqüência relativa de cada classe. Observação: Recomenda-se que o número de classes fique compreendido entre 5 e 15. A Tabela 3 apresenta uma distribuição de freqüência da idade das mães (banco de dados do estudo sobre óbito infantil). Tabela 3. Distribuição de freqüência da idade das mães, numa coorte de nascidos vivos em 1992. Goiânia, GO.. Idade (anos) N (%) Menos de 14 116 0,6 15 a 19 3941 21,4 20 a 24 6782 36,7 25 a 29 4739 25,7 30 a 34 2046 11,1 35 a 39 684 3,7 40 ou mais 149 0,8 Total 18457 100,0 A divisão por intervalos de classes iguais é construída de acordo com os seguintes procedimentos: 1. Efetua-se um ROL ESTATÍSTICO (ordenação crescente ou decrescente de grandeza) nos Dados Brutos (aqueles ainda não organizados numericamente). 2. Determina-se a AMPLITUDE TOTAL dos dados AT = Xmáx - Xmín onde Xmáx : maior valor observado e Xmín : menor valor observado 3. Escolhe-se convenientemente o número de classes K (no. inteiro). O número de classes pode ser calculada por: 4. Calcular a amplitude das classes (h), pela formula . 5. Efetua-se o AGRUPAMENTO EM CLASSES e, a seguir, toma-se as FREQUÊNCIAS SIMPLES DE CLASSES, elaborando-se, portanto, a tabela de distribuição de freqüências. K n≅ ou K n≅ + ⋅1 3 3, log (Fórmula de Sturges) Exemplo: - Distribuição de frequências das alturas das vítimas de acidentes de trânsito, Cidade X, ano 2006. ALTURAS (cm) Freq. Simples fi Freq. Relativa fri Freq. Percentual fi % Freq.Simples Acum. Fi Freq.Perc. Acum. Fi % 150 |----- 157 1 0,034 3,4 1 3,4 157 |----- 164 4 0,138 13,8 5 17,2 164 |----- 171 12 0,415 41,5 17 58,7 171 |----- 178 9 0,310 31,0 26 89,7 178 |----- 185 3 0,103 10,3 29 100,0 Total ou ∑ 29 1,000 100,0 Elementos constituintes de tabelas estatísticas As tabelasestatísticas são compostas de elementos essenciais e elementos complementares. Os elementos essenciais são título, cabeçalho, coluna indicadora e corpo. O título especifica as variáveis observadas, o local e a época em que os dados foram coletados; o cabeçalho, que vem logo após o título, identifica o conteúdo das colunas; a coluna indicadora (que pode ser mais de uma) especifica o conteúdo das linhas; o corpo é o conjunto de linhas e colunas que contém as informações obtidas. Os elementos complementares de uma tabela são fonte, e chamadas que se situam, preferencialmente no rodapé da tabela. Fonte identifica a entidade responsável pelo fornecimento ou elaboração dos dados; chamadas são informações de natureza específica sobre determinada parte da tabela, com a finalidade de conceituar ou esclarecer dados. Representação Gráfica de Uma Distribuição de Freqüência A apresentação de dados pode também ser feita sob a forma de gráficos. O objetivo é o mesmo de uma tabela: mostrar o essencial de um conjunto de dados de forma rápida e de fácil compreensão. Aqui só apresentaremos três tipos de gráficos: o diagrama de colunas, o histograma e o polígono de freqüência. Representação gráfica de uma distribuição de freqüência de uma variável categórica. Diagrama de colunas ABBAO 45 40 35 30 25 20 15 10 5 0 Tipo de sangue P e r c e n t a g e m Figura 1. Distribuição do tipo de sangue de 502 pessoas DomingoSábadoSextaQuintaQuartaTerçaSegunda 15 10 5 0 Dia da semana P e r c e n t a g e m Figura 2. Hospitalização por infarto do miocárdio, segundo o dia da semana. Região de Ribeirão Preto, 1987 - 1996. Fonte:Ver Tabela 1. Representação gráfica de uma distribuição de freqüência de uma variável contínua -Histograma Tabela 1. Distribuição do nível de colesterol de um grupo de homens, com idade entre 40 e 50 anos. Nível de colesterol (mg/100ml) Freqüência absoluta Freqüência relativa (%) 120 ├─ 140 10 0,96 140 ├─ 160 21 2,02 160 ├─ 180 37 3,55 180 ├─ 200 97 9,32 200 ├─ 220 152 14,60 220 ├─ 240 206 19,80 240 ├─ 260 195 18,73 260 ├─ 280 131 12,58 280 ├─ 300 96 9,22 300 ├─ 320 47 4,51 320 ├─ 340 30 2,88 340 ├─ 360 13 1,25 360 ├─ 380 6 0,58 Total 1041 100,0 Figura 3. Distribuição do nível de colesterol em um grupo de homens com idade entre 40 e 50 anos Nível de colesterol sérico (mg/100ml) F r e q ü ê n c i a 0 20 40 60 80 100 120 140 160 180 200 220 240 120 140 160 180 200 220 240 260 280 300 320 340 360 380 400 Figura 4. Distribuição do nível de colesterol em um grupo de homens com idade entre 40 e 50 anos Nível de colesterol sérico (mg/100ml) D e n s i d a d e 0 0.2 0.4 0.6 0.8 1 1.2 100 120 140 160 180 200 220 240 260 280 300 320 340 360 380 400 Polígonos de freqüência Figura 5. Distribuição do nível de colesterol em um grupo de homens com idade entre 40 e 50 anos Nível de colesterol sérico (mg/100ml) D e n s i d a d e 0 0.2 0.4 0.6 0.8 1 1.2 100 120 140 160 180 200 220 240 260 280 300 320 340 360 380 400 Distribuições simétricas e assimétricas Uma característica facilmente identificável na Figura 4 é uma marcante simetria exibida pelo nível de colesterol no grupo estudado. A Figura 6, que representa a distribuição de freqüência do peso de escolares, exibe uma marcada assimetria, que é denominada de assimetria positiva. Figura 6. Distribuição de pesos de escolares Peso (kg) D e n s i d a d e ( % / k g ) 0 3 6 9 12 15 18 21 24 27 30 9.4 14 18.6 23.2 27.8 32.4 37 41.6 46.2 50.8 55.4 60 Por outro lado, a assimetria também está presente na Figura 7. Nesse caso, a assimetria é chamada de assimetria negativa. 80706050403020 0.042 0.036 0.030 0.024 0.018 0.012 0.006 0.000 Idade (anos) D e n s i d a d e 3.75% 3.25% 3.5% 4% 1.5% 4.0% 0.75% 0.5% 0.25%0.25%0.25% Figura 7. Distribuição da idade de 80 pacientes portadores de câncer de estômago detectados em Campinas, SP em 1991. MEDIDAS DE TENDÊNCIA CENTRAL Vimos anteriormente a apresentação dos dados sob a forma de tabelas, e distribuições de freqüências, ou seja, a análise descritiva das variáveis qualitativas ou categóricas. Agora, abordaremos o cálculo das medidas que possibilitem analisar de forma descritiva dados referentes a uma variável quantitativa, isto é, informações numéricas. Essas informações estatísticas são as MEDIDAS DE POSIÇÃO e, dentre as mais importantes, citamos as Medidas de Tendência Central, que recebem tal denominação pelo fato dos dados observados tenderem, em geral, a se concentrar em torno de valores centrais. Dentre as medidas de tendência central, destacamos: Média aritmética ou Média; Moda; Mediana. As outras medidas de posição são as SEPARATRIZES, que englobam: a própria mediana; os quartis; os percentis. MÉDIA ARITMÉTICA (ou simplesmenteMÉDIA) Dada uma população constituída de N elementos, X1, X2, ..., XN sua média, denotada por μ , mede o valor médio do conjunto de dados, sendo expressa na mesma unidade, e definida por: Dada uma amostra constituída de n elementos, X1, X2, ..., Xn , sua média, denotada , será definida por: = = Exemplo: Determinar a média do seguinte conjunto (amostra) de valores Xi : 3, 7, 8, 10, 11 μ = + + +X X X N N1 2 ... μ = ∑ X N i X X n XXX n+⋅⋅⋅++ 21 X Xn i∑ VANTAGENS E DESVANTAGENS DA MÉDIA 1. É uma medida de tendência central que por uniformizar os valores de um conjunto de dados, não representa bem os conjuntos que revelam tendências extremas. Ou seja, é grandemente influenciada pelos valores extremos (grandes) do conjunto. 2. É a medida mais conhecida e de maior emprego. 3. É facilmente calculável 4. Pode ser tratada algebricamente (ver propriedades). 5. Serve para compararmos conjuntos semelhantes. 6. É particularmente indicada para séries (conjuntos) que possuem os valores simétricos em relação a um valor médio e de freqüência máxima. 7. Depende de todos os valores do conjunto de dados. MODA Dado um conjunto de valores, a moda, denotada Mo, é o valor que ocorre com maior freqüência, ou seja, é o valor que mais se repete no conjunto de dados. Observação: i) A moda de um conjunto de dados pode não existir, basta que não haja valor mais freqüente ii) A moda de um conjunto de dados pode não ser única. Denominamos a distribuição de dados com 2 modas de Bimodal , 3 modas Trimodal e mais de 3 modas denominamos Polimodal. VANTAGENS E DESVANTAGENS DA MODA 1. Não depende de todos os valores do conjunto de dados, podendo mesmo não se alterar com a modificação de alguns deles. 2. Não é influenciada por valores extremos (grandes) do conjunto de dados. No conjunto de dados 1, 3, 4, 5, 5, 5, 7, 9 a moda é 5; no conjunto 1, 3, 4, 5, 5, 5, 7, 7, 7, 9 existem duas modas: 5 e 7; no conjunto 1,1,2,2,3,3 não existe moda. A moda é útil quando a observação mais freqüente é a que tem relevância. Isto costuma ocorrer com variáveis categóricas. MEDIANA Considere uma série (conjunto de dados) ordenada, constituído de n valores. A mediana, denotada Me , é o valor que divide o conjunto em duas partes iguais (isto é, em duas partes de 50% cada). Exemplos: a) Calcular a mediana do seguinte conjunto de dados: 2, 3, 5, 8, 9, 11, 13 (n = 7 ímpar) Me = 8 (termo de ordem central ) b) Calcular a mediana do seguinte conjunto de dados: 2, 3, 5, 8, 9, 11, 13, 15 (n= 8 par) Me = (8+9)/2 = 8,5 (Média aritmética dos termos de ordens centrais) Verificamos que, estando ordenados os valores de uma série (conjunto de dados) e sendo n o número de elementos da série, o valor mediano será: -o termo de ordem central (n+1)/2, Me=X(n+1)/2 se n for ímpar; - a mediana será a média aritmética dos dois valores centrais, termos de ordem n n 2 2 1e + 2 1 22 + + = nn XX Me se n for par. PROPRIEDADES DA MEDIANA A mediana não é influenciada por valores extremos (grandes) de uma série ou conjunto de dados. A escolha de uma medida de tendência central Tendo em vista a existência de mais de uma medida de tendência central, uma questão pertinente é a escolha de uma delas para ser empregada num particular conjunto de dados. Dois fatores são importantes para a escolha: a escala de mensuração e a forma da distribuição. A média é mais apropriada para as distribuições simétricas ou aproximadamente simétricas que não apresentam mais de uma moda. A mediana é mais indicada quando os dados incluem valores aberrantes ocasionais ou quando a distribuição é marcadamente assimétrica. Além disso, a mediana é a única medida de tendência central que pode ser empregada quando os dados são ordinais. MEDIDAS DE POSIÇÃO E ORDENAMENTO Principais medidas de ordenamento e posição As medidas de ordenamento e posição fornecem uma idéia sobre a distribuição dos dados ordenados, como a mediana, que representa o ponto de divisão dos dados (50% dos dados são superiores à mediana, 50% inferiores). De um modo geral, existem três grandes grupos de medidas de ordenamento: •quartis •decis •percentis. QUARTIS Os quartis dividem a distribuição ordenada em quatro partes iguais. A medida de posição onde se encontra o quartil na relação ordenada dos valores, é obtido através da aplicação da seguinte expressão: ⎥⎦ ⎤⎢⎣ ⎡ +× = 2 1 4 nii XQ Exemplo : encontre os quartis da seguinte série bruta de dados : 1, 3, 2, 6, 5, 9. Para encontrar os quartis, valores que dividem a série ordenada em quatro partes iguais, torna-se necessário a obtenção do Rol : 1, 2, 3, 5, 6, e 9. Percebe-se que os números 2 (quartil 1) , 4 (quartil 2, média entre 3 e 5) e 6 (quartil 3) dividem a série ordenada em quatro partes iguais, cada uma contendo um elemento. Outra forma para encontrar os quartis envolveria a aplicação da fórmula para encontrar a medida de posição [ ]2 2 1 4 611 XXQ == ⎥⎦⎤⎢⎣⎡ +× [ ]5,3 2 1 4 622 XXQ == ⎥⎦⎤⎢⎣⎡ +× [ ]5 2 1 4 633 XXQ == ⎥⎦⎤⎢⎣⎡ +× O primeiro quartil é igual ao valor do segundo elemento da série ordenada, que é igual a 2. O segundo quartil é igual ao valor do elemento 3,5 (entre o elemento3 e o elemento 4) da série ordenada, que é igual a média entre 3 e 5, que é igual a 4. O terceiro quartil é igual ao valor do elemento 5 da série ordenada, que é igual a 6. DECIS Os decis dividem a distribuição ordenada em dez partes iguais. A medida de posição do decil pode ser obtido através da aplicação da seguinte expressão: PERCENTIS Os percentis dividem a distribuição ordenada em cem partes iguais. A medida de posição pode ser obtida através da aplicação da seguinte expressão: ⎥⎦ ⎤⎢⎣ ⎡ +× = 2 1 10 nii XD ⎥⎦ ⎤⎢⎣ ⎡ +× = 2 1 100 nii XP MEDIDAS DE DISPERSÃO Na seção anterior, aprendemos a calcular e entender convenientemente as medidas de posição representativas de um determinado conjunto de dados, onde destacamos a média, a moda e a mediana. Sejam quatro conjuntos A, B, C e D com os seguintes valores: Conjunto A ====> 7, 7, 7, 7, 7 Conjunto B ====> 5, 6, 7, 8, 9 Conjunto C ====> 4, 5, 7, 9, 10 Conjunto D ====> 0, 5, 10, 10, 10 Para representarmos cada conjunto, podemos calcular a sua respectiva média. Vemos assim que apesar de constituídos de valores diferentes, os grupos revelam uma mesma média aritmética. As medidas estatísticas responsáveis pela variação ou dispersão dos valores de um conjunto são as medidas de dispersão ou de variabilidade, onde se destacam a amplitude total, a variância, o desvio padrão e o coeficiente de variação. Em princípio, diremos que entre dois ou mais conjuntos de dados, o mais disperso (ou menos homogêneo ) é aquele que tem a maior medida de dispersão. AMPLITUDE TOTAL Medida já apresentada na elaboração de uma distribuição de freqüências com dados agrupados em classes, denotamos AT. AT= Xmáx – Xmín, onde Xmáx = maior valor do conjunto e Xmín = menor valor do conjunto. VARIÂNCIA A variância de um conjunto de dados (amostra ou população) mede a variabilidade do conjunto em termos de desvios quadrados em relação à média aritmética do conjunto. É uma quantidade sempre não negativa e expressa em unidades quadradas do conjunto de dados, sendo de difícil interpretação. a) Seja um conjunto ( população ) constituído de N elementos X1, X2, . . ., XN. Sua variância denotada , é definida por: ( )σ μ2 2= −∑ X N i σ2 b) Seja um conjunto ( amostra ) constituído de n elementos X1, X2, . . . , Xn. Sua variância, denotada S2 , é definida por: ( ) S X X n i2 2 1 = −− ∑ Observação: A equação acima é utilizada quando nosso interesse não se restringe à descrição dos dados mas, partindo da amostra, visamos tirar inferências válidas para sua respectiva população. No caso de estarmos interessados apenas na descrição dos dados, podemos usar no divisor n em lugar de n – 1 Exemplo : Determine a variância do seguinte conjunto (amostra) Xi : 2, 3, 5, 7, 8 ( ) ( ) ( ) ( ) ( ) S 2 2 2 2 2 22 5 3 5 5 5 7 5 8 5 5 1 = − + − + − + − + −− ( ) ( ) ( ) ( ) ( ) 5,6 4 26 4 94049 4 32023 222222 ==++++=+++−+−=∴S DESVIO PADRÃO É uma outra medida de dispersão mais comumente empregada do que a variância, por ser expresso na mesma unidade do conjunto de dados. Mede a "DISPERSÃO ABSOLUTA" de um conjunto de valores e é obtida a partir da variância. Desvio Padrão = Raiz quadrada da Variância Conforme, o conjunto de dados, trate-se de uma população ou uma amostra, teremos o desvio padrão dado por: VariânciaDP = ( )σ μ= −∑ X N i 2 ( ) S X X n i= −− ∑ 1 2 População (N) Amostra (n) Do exemplo anterior , dado acima, temos o desvio padrão dado por => S = 2,55 COEFICIENTE DE VARIAÇÃO É uma quantidade adimensional e serve para comparar dois ou mais conjuntos de dados de unidades diferentes. Mede a "DISPERSÃO RELATIVA" de um conjunto de dados. É expresso, usualmente, em percentagem ( % ). CV = ×σμ 100 CV S X = × 100 População (N) Amostra (n) Exemplo : Calcule o coeficiente de variação (dispersão relativa) das ALTURAS das 26 crianças e adolescentes Temos: altura média 169,67 cm e o Desvio Padrão de 6,77 cm CV S X cm cm = × = × =100 6 77 169 67 100 3 99 , , , CV = 3 99%, Amplitude interquartil. A amplitude interquartil é a diferença entre o terceiro e o primeiro quartil. É o comprimento do intervalo dentro do qual espera-se encontrar cerca de 50% das observações. Além disso, é pouco influenciado pela presença de valores muito afastados do resto dos dados, o que não acontece com o desvio padrão. Para conjuntos simétricos ou razoavelmente simétricos onde os dados tendem a se aglomerar no centro, a média e o desvio padrão são boas medidas do valor típico e da variabilidade, respectivamente. Entretanto, quando o conjunto apresenta uma pronunciada simetria positiva ou negativa, a mediana e a amplitude interquartil são as medidas mais adequadas para representar o "valor típico" e a variabilidade, respectivamente. A escolha de uma medida de variabilidade Devido a existência de várias medidas de variabilidade, é também pertinente aquestão da escolha de uma delas para ser empregada num particular conjunto de dados. Para isso, deve-se considerar que: O desvio padrão deve ser usado quando a média é usada, ou seja, em dados numéricos provenientes de distribuições simétricas ou razoavelmente simétricas. A amplitude interquartil deve ser usada em três situações: quando os dados são ordinais; quando os dados incluem valores aberrantes ocasionais; quando a distribuição é marcadamente assimétrica. Box Plots Um boxplot é um tipo de gráfico utilizado na descrição de dados. Baseia-se apenas no primeiro e terceiro quartil e na mediana. Um retângulo é desenhado de forma que a base representa o primeiro quartil e o topo, o terceiro quartil 50 40 30 20 10 i d a d e d a s m ã e s ( a n o s ) Gráfico 1. Distribuição da idade das mães. Coorte de recém-nascidos.Goiana, GO, 1992. Gráfico 2. Distribuição da idade das mães, segundo o tipo de gravidez. Coorte de RNs. Goiana, GO, 1992. > TrêsTríplaDuplaÚnica 50 40 30 20 10 Tipo de gravidez I d a d e d a m ã e ( a n o s ) A curva de densidade normal Uma forma alternativa de descrever graficamente uma distribuição de uma variável numérica contínua é substituir o histograma pela área definida pelo gráfico de uma função matemática apropriada. Mas esse procedimento só produz resultados satisfatórios quando se dispõe de um número razoavelmente grande de observações. Observe que o histograma correspondente à distribuição de freqüência pode ser bem representado pela área sob a curva sobreposta. Essa curva é chamada de curva (de densidade) normal ou curva de Gauss. A curva de Gauss é o gráfico da seguinte função matemática: 2 2 2 )( 2 1)( σ μ πσ −−= x exf μ e σ são parâmetros. O parâmetro μ pode ser qualquer número real, mas o parâmetro σ só pode assumir valores positivos. Figura1. Curva normal ajustada a um histograma Propriedades da curva de Gauss • A curva normal é simétrica e tem a forma aproximada de um sino. Estende-se indefinidamente tanto para a esquerda como para a direita de seu eixo de simetria, cuja abcissa é o parâmetro μ; • A área delimitada pelo gráfico da curva e o eixo horizontal é igual a 1. • O “achatamento” da curva depende do valor do parâmetro σ. Quanto maior for o valor de σ, mais achatada será a curva de Gauss; quanto menor for o valor de σ, mais “pontiaguda” será a curva. Quando uma curva de Gauss é utilizada para representar a distribuição de uma variável contínua, os parâmetros μ e σ representam, respectivamente, o valor médio e o desvio padrão da variável. A curva normal padrão A curva normal em que μ = 0 e σ = 1, denomina-se de curva normal padrão ou curva normal reduzida ou curva normal 0-1. Escore z A partir de qualquer variável numérica é sempre possível construir outra variável Z, através da seguinte fórmula: σ μ−= XZ Os valores de Z são chamados de escores z da variável X. O escore z de um dado valor de x, diz quantos desvios padrão, acima ou abaixo da média, o valor x se encontra. A variável Z tem sempre média igual a 0 e desvio padrão igual a 1. Mas quando X tem uma distribuição normal de média μ e desvio padrão igual a σ, então a variável segue uma distribuição normal padrão σ μ−= XZ Intervalos de Confiança Estimação é o procedimento de obtenção de um valor amostral para ser usado como estimativa de um parâmetro populacional. A inferência estatística usa dados amostrais para formar dois tipos de estimativas de parâmetros: a estimativa pontual e a estimativa intervalar. Uma estimativa pontual de um parâmetro é o valor de um estimador escolhido para estimar o parâmetro. A estimativa pontual é constituída por um único valor numérico e representa uma avaliação do valor do parâmetro obtida com os dados amostrais disponíveis. Exemplo Numa pesquisa eleitoral foram entrevistados 1560 eleitores, dos quais 312 declararam intenção de voto para um determinado candidato. Nessa amostra, 20% (312/1560) dos eleitores disseram que votariam no candidato. Essa proporção, 20% , obtida na amostra é a estimativa pontual para a proporção populacional do eleitorado que tem a intenção de votar no candidato. Ou seja, com base nos dados amostrais, estima-se que 20% do eleitorado têm a intenção de votar no candidato Uma estimativa intervalar consiste de um intervalo de números reais no qual deposita-se um certo grau de confiança de que contenha o parâmetro. O grau de confiança é expresso por um número entre 0 e 100%. Esse número é chamado de nível de confiança do intervalo. No caso da pesquisa eleitoral mencionada acima, mostra-se que uma estimativa intervalar para a proporção do eleitorado que está disposto a votar no candidato é o intervalo que vai de 18% a 22%. O nível de confiança desse intervalo é 95%. Ou seja, afirma-se, com uma confiança de 95%, que a proporção do eleitorado, disposta a votar no candidato, está entre 18% e 22%. Estimador pontual Uma estimativa pontual é um valor de uma estatística. No exemplo citado no item anterior, 20% é o valor da proporção amostral, definida em todas as possíveis amostras de tamanho 1570, que poderiam ser escolhidas da população de eleitores. Quando o valor de uma estatística é utilizado para prever ou estimar o valor de um parâmetro, a estatística recebe o nome de estimador desse parâmetro. O desvio padrão de um estimador chama-se de erro padrão (do estimador). A diferença entre um valor de um estimador e o valor do parâmetro que pretende estimar é denominado de erro de estimativa ou erro amostral. O erro amostral é um ingrediente básico no planejamento de uma pesquisa. É responsabilidade do pesquisador decidir sobre a magnitude do erro de estimativa que deseja tolerar. Estimadores da média e do desvio padrão de uma população Considere uma população com média μ e desvio padrão σ, ambos desconhecidos. Para qualquer amostra extraída dessa população, os estimadores naturais para μ e σ são, respectivamente, a média e o desvio padrão amostrais. Mais especificamente: é o estimador natural de μ e DP é o estimador natural de σ. Observação: O desvio padrão amostral é representado, quase universalmente, em textos de Estatística, pela letra S ou s. X Intervalo de confiança para uma média populacional ⎟⎟⎠ ⎞⎜⎜⎝ ⎛ +−= n xX n xXIC σσ 96,1,96,1%95 ⎟⎟⎠ ⎞⎜⎜⎝ ⎛ ×+×−=− n zX n zXIC σσα ,)1( Variância populacional conhecida Observação 1: O número representa o erro máximo que se deseja tolerar na estimativa de μ. A magnitude de ε depende do nível de confiança do intervalo, do tamanho da amostra e do desvio padrão de X. Observação 2: É responsabilidade do pesquisador estabelecer a magnitude do erro de estimação que deseja tolerar bem como o nível de confiança (1-α). n z σε ×= Exemplo: O nível de uma certa enzima numa população humana segue uma distribuição normal de média desconhecida e variância igual a 45. Numa amostra aleatória de 10 pessoas dessa população encontrou-se uma média amostral de 22. Determine um intervalo de 95% de confiança para a média populacional μ. 26,2) (17,8; 10 71,696,122, 10 71,696,122%95 =⎟⎟⎠ ⎞⎜⎜⎝ ⎛ +−= xxIC Interpretação: pode-se afirmar, com uma confiança de 95%, que a média populacional da enzima é um valor compreendido entre 17,8 e 26,2. Adotando-se 22 como o valor médio populacional da enzima, verifica-se, com base no intervalo de confiança obtido, que o erro de estimação não é superior a 4,2, para mais ou para menos. Ou seja, a média populacional da enzima, que continua sendo um valor desconhecido, não deve estar afastado de 22 por uma distância superiora 4,2, para mais ou para menos. O grau de confiança dessa conclusão é 95%. Intervalo de confiança para uma média populacional ⎟⎠ ⎞⎜⎝ ⎛ +−= n SxX n SxXIC 96,1,96,1%95 ⎟⎠ ⎞⎜⎝ ⎛ ×+×−=− n SzX n SzXIC ,)1( α Variância populacional desconhecida a) O tamanho da amostra é igual ou maior que 30 Nessa fórmula, z é o percentil (1 − α/2) da distribuição normal padrão Exemplo: Numa amostra de 298 crianças, com idade variando de 6 meses a 6 anos, a média de IgM sérico foi de 0,80 g/l e o desvio padrão, 0,47 g/l. Determinar um intervalo de 95% de confiança para a média do IgM sérico na população da qual a amostra foi selecionada. 0,85) (0,75; 298 47,096,180,0, 298 47,096,180,0%95 =⎟⎟⎠ ⎞⎜⎜⎝ ⎛ +−= xxIC Com base nesse intervalo prevê-se, com uma confiança de 95%, que o valor médio da variável IgM, na população pertinente, está compreendido entre 0,75 e 0,85. A média do IgM sérico na população continua sendo um valor desconhecido. Substituindo-o por 0,80 (valor obtido na amostra), conclui-se que o erro de estimação não deve ser superior a 0,05 g/l, para mais ou para menos. O grau de confiança dessa conclusão é 95%. Variância populacional desconhecida b) o tamanho da amostra é menor que 30 ⎟⎠ ⎞⎜⎝ ⎛ ×+×−=− n StX n StXIC ,)1( α onde t é o percentil () da distribuição T de “Student” com n−1 graus de liberdade Exemplo: Um conjunto de 12 animais de experiência foi alimentado com uma certa dieta durante 3 semanas e produziu os seguintes aumentos de peso: 30, 22, 32, 26, 24, 40, 34, 36, 32, 33, 28, 30. Admitindo que o aumento de peso segue uma distribuição normal, determine um intervalo de 90% de confiança para μ. 33,2) (27,9; 12 1,580,16,30, 12 1,580,16,30%95 =⎟⎠ ⎞⎜⎝ ⎛ +−= xxIC Interpretação: Em uma população de animais do tipo usado na experiência, estima-se que, após 3 semanas de alimentação, utilizando a referida dieta, o ganho médio de peso populacional ficará entre 27,9 e 33,2. O grau de confiança dessa conclusão é 90%. Intervalo de confiança para uma proporção populacional ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ −+−−=− −− n ppzp n ppzpIC )1(,)1()1( 2121 ααα Exemplo: Numa amostra aleatória de 150 famílias de uma certa comunidade urbana, verificou- se que em 131 delas ao menos um de seus membros tinha algum tipo de seguro saúde. Determine um intervalo de 95% de confiança para a proporção populacional de famílias, em que pelo menos um de seus membros tem algum tipo de seguro saúde. )92,0;82,0( 150 )87,01(87,096,187,0, 150 )87,01(87,096,187,0%95 =⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ −+−−=IC Conclusão: Com base na amostra, estima-se que a proporção populacional de famílias, onde pelos menos um de seus membros tem algum plano de saúde, é um valor compreendido entre 82% e 92%. A confiança dessa conclusão é de 95%. TESTE DE HIPÓTES Trata-se de uma técnica para se fazer a inferência estatística sobre uma população a partir de uma amostra Hipóteses Estatísticas Um objetivo freqüente em muitas pesquisas científicas é verificar se os dados obtidos estão de acordo com certas suposições sobre um ou mais parâmetros populacionais. Essas suposições sobre parâmetros populacionais são denominadas de hipóteses estatísticas. Daqui por diante, por simplicidade, as hipóteses estatísticas serão simplesmente chamadas de hipóteses. TEORIA POPPERIANA • NÃO SE PODE PROVAR NADA, APENAS “DESPROVAR”. • SÓ APRENDEMOS QUANDO ERRAMOS. • É MAIS FACIL REFUTAR DO QUE PROVAR ALGUMA ASSERTIVA. • OS ESTATÍSTICOS NÃO PERGUNTAM QUAL É A PROBABILIDADE DE ESTAREM CERTOS, MAS A PROBABILIDADE DE ESTAREM ERRADOS. Para fazerem isso estabelecem um hipótese nula. PRINCIPAIS CONCEITOS HIPÓTESE ESTATÍSTICA Trata-se de uma suposição quanto ao valor de um parâmetro populacional, ou quanto à natureza da distribuição de probabilidade de uma variável populacional. TESTE DE HIPÓTESE É uma regra de decisão para aceitar ou rejeitar uma hipótese estatística com base nos elementos amostrais TIPOS DE HIPÓTESES Designa-se por Ho, chamada hipótese nula, a hipótese estatística a ser testada, e por H1, a hipótese alternativa. A HIPÓTESE NULA É UMA ASSERTIVA DE COMO O MUNDO DEVERIA SER, SE NOSSA SUPOSIÇÃO ESTIVESSE ERRADA. A hipótese nula expressa uma igualdade, enquanto a hipótese alternativa é dada por uma desigualdade. Ex: Ho - μ = 1,65 m H1 - μ 1,65 m EXISTEM DOIS TIPOS DE ERRO DE HIPÓTESE Erro tipo 1 - rejeição de uma hipótese verdadeira; Erro tipo 2 – aceitação de uma hipótese falsa. As probabilidades desses dois tipos de erros são designadas α e β. A probabilidade α do erro tipo I é denominada “nível de significância” do teste. LÓGICA DO TESTE DE SIGNIFICÂNCIA • ATRIBUEM-SE BAIXOS VALORES PARA α, GERALMENTE 5%; • FORMULA-SE Ho COM A PRETENSÃO DE REJEITÁ-LA, DAÍ O NOME DE HIPÓTESE NULA; • SE O TESTE INDICAR A REJEIÇÃO DE Ho TEM-SE UM INDICADOR MAIS SEGURO DA DECISÃO; • CASO O TESTE INDIQUE A ACEITAÇÃO DE Ho, DIZ-SE QUE, COM O NÍVEL DE SIGNIFICÂNCIA α, NÃO SE PODE REJEITAR Ho. Tabela de contingência (2x2) Objetivo: Mostra se existe dependência entre duas variáveis Se pertencem à mesma população. a = Indivíduos com fator de risco e doença. b = Indivíduos com fator de risco, sem doença. c = Indivíduos sem o fator de risco mas com doença. d = Indivíduos sem fator de risco e sem doença. a + b = Todos os Indivíduos com fator de risco. c + d = Todos os Indivíduos sem fator de risco. a + c = Todos os Indivíduos com doença. b + d = Todos os Indivíduos sem doença. Distribuição na Tabela de Contingência Exemplo 1: Dois grupos de 100 pacientes foram acompanhados quanto a incidência de câncer do pulmão associado ao tabagismo. No grupo de fumantes a incidência de câncer foi igual a 28 pacientes, no grupo controle (não-fumantes) foi igual a 8 pacientes. Qual a distribuição na tabela de contingência? Exemplo 2: Em um estudo experimental, com 300 pacientes, para testar uma nova droga contra AIDS, 240 receberam o medicamento A, ao passo que, 60 receberam um placebo. A taxa de mortalidade em 2 anos foi de 88 e 12 pacientes, respectivamente. Qual a distribuição na tabela de contingência? QUI-QUADRADO (χ2) Teste mais popular Denominado teste de adequação ou ajustamento. Usos 1. Adequação ou Aderência dos dados: freqüência observada adequada a uma freqüência esperada); 2. Independência ou Associação entre duas variáveis Comportamento de uma variável depende de outra ∑ = −k i Fei FeiFoi 1 2)(χ2 = INDEPENDÊNCIA OU ASSOCIAINDEPENDÊNCIA OU ASSOCIAÇÇÃO ENTRE DUAS ÃO ENTRE DUAS VARIVARIÁÁVEISVEIS A representaA representaçção das freqão das freqüüências observadas ências observadas éé dada por uma tabela de dupla dada por uma tabela de dupla entrada ou tabela de contingência.entrada ou tabela de contingência. PROCEDIMENTOPROCEDIMENTO 1.1. HoHo: as vari: as variááveis são independentes/ Não Associaveis são independentes/ Não Associaçção /= ;ão /= ; H1: as variH1: as variááveis são dependentes/ Associaveis são dependentes/ Associaçção /ão /≠≠ ;; 2.2. Fixar Fixar α α. . Escolher a variEscolher a variáável quivel qui--quadrado com quadrado com ϕϕ = (L= (L--1) x (C1) x (C--1), onde 1), onde L = nL = núúmero de linhas da tabela de contingência e C+ nmero de linhas da tabela de contingência e C+ núúmero de colunas.mero de colunas. 3.3. Com auxCom auxíílio da tabela calculamlio da tabela calculam--se RA e RCse RA e RC Objetivo Prediz o comportamento de uma variável dependente com base no conhecimento de uma ou mais variáveis independentes. Componentes Compara contagens observadas com contagens esperadas. Cálculo das Contagens Esperadas Cálculo das Porcentagens Cálculo do Valor do Qui--Quadrado Restrições ao uso • Se o número de classesé k=2, a freqüência esperada mínima deve ser ≥5; • Se k >2, o teste não deve ser usado se mais de 20% das freqüências esperadas forem abaixo de 5 ou se qualquer uma delas for inferior a 1.
Compartilhar