Baixe o app para aproveitar ainda mais
Prévia do material em texto
Bioestatística • O Método e a Ciência; • Estatística e Bioestatística; • Os Níveis de Mensuração; • População e Amostra; • As Técnicas de Amostragem. • Conceituar Bioestatística e Estatística a partir das necessidades da Pesquisa Científi ca. • Estudar os tipos de variáveis e a necessidade de coletar amostras que refl itam o compor- tamento de uma população em análise. OBJETIVOS DE APRENDIZADO Bioestatística UNIDADE Bioestatística O Método e a Ciência Pensamento científico O Pensamento Científico ocorre a partir de uma linguagem teórica sobre con- ceitos e hipóteses científicas; porém, a comprovação dele necessita de uma lin- guagem e de um método operacional, que é a morada das hipóteses estatísticas. Exemplo Quanto maior o grau de Educação de uma pessoa, menor será o preconceito em aceitar uma Campanha Sanitária. Temos aqui então dois conceitos teóricos: • Preconceito: atitude negativa baseada em um pré-julgamento; • Educação: conjunto de conhecimentos acumulados que permite a uma pessoa um julgamento global do mundo. Como podemos instituir um método operacional para medir esses concei- tos teóricos? • Preconceito: atribuir escores, valores ou notas a partir de um questionário sobre o assunto; • Educação: quantidade de anos de estudo escolar. Hipótese estatística: “Quanto maior os anos de Escolaridade, menor a sua nota (escore) em uma escala de preconceito”; o que significa dizer que é negativa a cor- relação em anos de Escolaridade e nota em uma escala de preconceito. Caso essa afirmação seja a respeito de um grupo de pessoas, por exemplo: João, Maria, Kátia, José e Pedro, basta somente verificar a veracidade entre eles e pronto. Porém, as hipóteses estatísticas são gerais e se relacionam às populações. Após formular uma hipótese, o passo seguinte é testá-la, antes de formular uma nova Teoria sobre o assunto (Figura 1). Portanto, para atingir esse objetivo, uma série de passos deve ser seguida. Esses passos visam a reunir informações seguras para que seja feita uma tomada de decisão e uma posterior formulação da Teoria. São passos a serem seguidos para formular uma nova teoria científica: • Formular uma Hipótese Científica, o que chamamos de Inferência dedutiva. Essa é a ideia que surgiu após a pergunta do pesquisador a partir de seu conhe- cimento prévio e observacional, sem a utilização de métodos comprobatórios; • Organizar um plano para a coleta de dados e análise: onde e como vou con- seguir as informações? 8 9 • Estabelecer uma regra de decisão: após a obtenção e a análise dos resultados – Qual parâmetro vou utilizar para considerar se minha hipótese inicial pode ser confirmada ou negada? • Coletar os dados: é a busca propriamente dita das informações, por mensura- ções dos conceitos teóricos pré-estabelecidos; • Proceder à análise da hipótese estatística: estabelecimento de hipótese estatís- tica a partir de um método operacional; • Tomar decisões com relação à hipótese, após a análise dos dados e seguindo a regra de decisão estabelecida anteriormente; • A partir da verificação da verdade ou da falsidade da hipótese inicial por meio da análise estatística, induz-se (inferência indutiva) a uma verdade cientí- fica correspondente. Mundo do Pesquisador Mundo da Estatística Hipótese cientí�ca PLANEJAMENTO • Hipótese cientí�ca • De�nição das variáveis • Plano de coleta • Tipo de análise dos dados • De�nição das regras decisão INFERÊNCIA INDUTIVA Formulação de teoria a respeito da verdade cientí�ca Aceitação ou rejeição da hipótese estatística COLETA DE DADOS ANÁLISE ESTATÍSTICA DOS DADOS Figura 1 – O Método Científi co: da hipótese até a formulação de uma nova Teoria Fonte: Acervo do Conteudista Portanto, a Estatística tem como seu papel na Pesquisa Científica contribuir junto ao pesquisador: • Na formulação de hipóteses estatísticas; • Fixação de regras de decisão; • Técnicas para um delineamento da pesquisa; • Coleta; • Tabulação e Análise dos Dados (Estatística Descritiva); • Testes de hipóteses para expressar as incertezas da inferência indutiva em um nível probabilístico. 9 UNIDADE Bioestatística Estatística e Bioestatística A palavra Estatística deriva do latim status, significando Estado Político ou a situação de alguma coisa. J. F. Von Bielfel publicou o termo no livro The elements of universal erudition, em 1770, em um capítulo chamado Statistics, e foi defi- nido como: “A Ciência que nos ensina qual a situação política de todos os estados modernos do nosso mundo”. Depois de uma série de publicações, a Estatística adquiriu um significado menos amplo: “A exposição das características de um estado por meio de métodos numé- ricos”. Em 1834, ocorreu fundação da Royal Statistical Society. Após várias mudanças do significado de Estatística, passou-se a estudar séries de dados numéricos que operavam e a falar em: a) Estatísticas médicas; b) Estatísticas vitais; c) Estatísticas marítimas. Bérquó (1981) define em seu livro: Estatística é um ramo do conhecimento científico que consta de um conjunto de processos que têm por objeto a observação, a classificação formal e a análise dos fenômenos coletivos ou de massa (descritivos) e, por fim, investigar a possibilidade de fazer inferências indutivas válidas a partir dos dados observados e buscar métodos capazes de permitir esta inferência (indutiva). A Estatística pode ser dividida em: • Geral ou metodológica: elabora métodos gerais e aplicáveis e estuda as pro- priedades matemáticas dos fenômenos de massa e a demonstração dos proce- dimentos e fórmulas; • Aplicada: ramo do conhecimento que procede exclusivamente por intermédio de metodologia estatística. E Bioestatística é definida como: “A Ciência que trata os planos e os métodos de coleta, tabulação e análise de fatos numéricos nas Ciências da vida”. Conceito de Variáveis Quando estudamos as populações utilizando a óptica da Estatística, necessita- mos, então, classificar os indivíduos de acordo com características mensuráveis. 10 11 Essas características são chamadas de variáveis. A identificação e o estudo das variáveis vão permitir a descrição da população e o estabelecimento de compara ções entre grupos, o que constitui, então, a base da Bioestatística. O entendimento do nível de mensuração que se estabelece em uma população vai permitir a escolha de técnicas corretas de demonstração dos Dados (Tabelas e Gráficos), de utilização de medidas comparativas, técnicas de inferência e a tomada de decisão. Portanto, reside aqui a base da Bioestatística, de onde seguem todas as demais Teorias. Os Níveis de Mensuração Classifi cação da população de acordo com uma característica nominal Esse tipo de classificação pressupõe separar a população em grupos que possuem ou não a característica em estudo, como, por exemplo, sexo, cor de olhos, peso, peso ao nascer, raça etc. As características se expressam nominalmente, em escala nominal, ou seja, são dadas por um nome e não por um número, e devem ser: • Exaustivas: todos os indivíduos estudados possuem a característica; • Mutuamente exclusivas: cada indivíduo possui somente uma categoria. Classifi cação da população de acordo com uma característica que se ordena Nesta situação, as características possuem um ordenamento natural, medidas, então, em uma escala ordinal. Nessa mensuração, não existe informação sobre a magnitude da característica – veja que, embora exista ordem, não existe grandeza (número). Se colocarmos a situação de um estudo sobre escolaridade de uma de- terminada população e decidirmos classificá-lo segundo o critério Fundamental, Médio e Superior, fica clara a ordem natural desses nomes. Classifi cação por características mensuráveis e com zero arbitrário Nesta escala de mensuração, além da ordenação, pode-se dizer quanto vale exatamente a diferença entre elas. Por exemplo, a diferença entre 30° e 10° é de exatamente 20°; porém não se pode dizer que 30° é três vezes mais quente que 10°, pois o zeroé um ponto arbitrariamente estabelecido e não fruto de uma men- suração objetiva. Nesse caso, a escala é dita intervalar, ou seja, os intervalos podem ser determinados. 11 UNIDADE Bioestatística Classificação por características mensuráveis e com zero não arbitrário Aqui, a característica é mensurável e, portanto, são permitidas as operações aritméticas, pois o zero não é arbitrário como em uma escala de temperatura. Um bom exemplo é quando trabalhamos com a altura de indivíduos: pode-se dizer que um indivíduo de 2,00m é duas vezes maior que um indivíduo de 1,00m. Esta se trata de uma escala de razões. Nesse tipo de classificação, podemos utilizar uma infinidade de operações matemáticas e estabelecer medidas que permitam melhor entender o comportamento da característica. Deve-se perceber, então, que temos características que podem ser medidas, por exemplo, ao utilizarmos de instrumentos como a régua, que gera números e características que são apenas contadas, permitindo uma quantidade limitada de operações para descrever seu comportamento. Esses atributos (características) que variam entre os indivíduos são chamados de variáveis, que podem ser classificadas em qualitativas, aquelas medidas em escala nominal ou ordinal, e quantitativas. As variáveis quantitativas podem ser contínuas ou discretas: • Contínuas: assumem qualquer valor. Por exemplo, peso, altura. Veja que entre a altura de 1,50m e a de 1,55m, por exemplo, existe uma infinidade de valores possíveis, dependendo da precisão do instrumento de medida utilizado; • Discretas: assumem valores de um conjunto enumerável. Por exemplo, nú- mero de indivíduos nascidos de cada mãe. Perceba que podemos ter 1, 2, 3, 4, 5...10 filhos, mas nunca números fracionados; entre 1 e 2 filhos não existe nenhum valor possível. Os tipos de variáveis estão resumidos na Figura 2: Variável Qualitativa Quantitativa Nominal Ordinal Contínua Discreta Figura 2 – Classificação das variáveis Fonte: Acervo do Conteudista 12 13 População e Amostra A Pesquisa Científica, Observacional ou Experimental busca dados sobre a tese a ser comprovada e estabelece comparações entre grupos com características dis- tintas. A primeira pergunta do pesquisador, no início da Pesquisa, é se os dados serão coletados de toda uma população ou de uma parcela representativa da popu- lação. Para tanto, é necessário definir População e Amostra (Figura 3). • População: conjunto de elementos que têm, em comum, determinada caracte- rística. Por exemplo, pessoas que vivem em uma determinada região: popula- ção da cidade de São Paulo; animais de uma determinada espécie – tamanduá- -mirim; pessoas com um determinado tumor – portadores de melanoma; • Amostra: todo subconjunto não vazio e com número menor de elementos da população. Qualquer parcela de indivíduos que pertence a uma população é uma amostra. Por exemplo, 50 pessoas da cidade de São Paulo é uma amostra desta população. a A População Amostra Figura 3 – População e Amostra Fonte: Acervo do Conteudista Assim, as populações podem ser classificadas como finitas e infinitas: • Finita: é aquela população com um número total possível de se determinar – Por exemplo, o conjunto de alunos de um curso; • Infinita: é aquela em que o número de elementos que faz parte dessa popu- lação é impossível de se determinar – Por exemplo, o número de vezes que posso jogar os dados. Em alguns casos, as populações finitas são tão grandes que as podemos consi- derar infinitas – Por exemplo: pessoas com mais de 18 anos no Brasil. Para acessar os dados para comprovação da tese, podemos escolher trabalhar com populações inteiras ou com o estudo de amostras. Assim, quando a coleta é feita de toda uma população, recebe o nome de Recenseamento, e quando é feita de uma parcela da população, recebe o nome de Amostragem. 13 UNIDADE Bioestatística • Recenseamento: coleta de dados de TODA a população. Censo é o conjunto de dados obtidos; • Amostragem: coleta de informações de PARTE da população. Muitas vezes, o estudo CUIDADOSO de uma amostra tem mais valor científico do que o estudo sumário de uma população. Por vezes, o pesquisador tem a impressão de que um conjunto de dados muito grande, como o de toda uma população, pode trazer mais informações do que uma amostra; porém, a dificuldade em analisar esses dados se torna tão grande que as conclusões obtidas são fracas e de pouco valor. Um número limitado de dados provenientes de uma boa amostra permite um estudo detalhado, de onde se chega a conclusões mais consistentes. As Técnicas de Amostragem A amostra foi definida como qualquer subconjunto de uma população, mas nem toda amostra (ou subconjunto) representa adequadamente uma população a ponto de servir a uma pesquisa. Para que uma amostra seja adequada para um estudo científico, ela deve apre- sentar características similares a da população para permitir que o resultado de seu estudo seja aplicado à população que a originou. Amostragem é o ato de obter uma amostra de uma população, é o procedimento que será adotado para escolher os elementos que irão compor a amostra. Amostras obtidas de forma incorreta, ou seja, que representam mal uma população, são cha- madas de amostras viciadas. Apesar de o risco sempre presente de uma amostra representar mal uma popu- lação, seu uso oferece muitas vantagens: • Custo menor: toda pesquisa envolve custos financeiros, quanto menor o nú- mero de indivíduos analisados, menor o seu custo. Muitas vezes o custo finan- ceiro é fator limitante para que uma pesquisa ocorra; • Menor tempo: outro fator limitante é o tempo. A utilização de estudos amos- trais diminui em muito o tempo de realização de uma pesquisa; • Objetivos mais amplos: imagine que gostaríamos de conhecer profundamen- te os hábitos alimentares, culturais e financeiros da população brasileira. Para isso, seria necessário buscar uma centena de informações. Caso fossemos acessar essas informações em toda a população, seria de se esperar que o nú- mero de perguntas fosse minimizado a ponto do trabalho não se tornar longo e exaustivo. Quando limitamos uma amostra, certamente podemos alongar os questionamentos e conseguir uma quantidade melhor de informações. 14 15 Muitas vezes, o trabalho com amostras é imperativo e não resta ao pesquisador outra opção. São situações em que isso ocorre: • Populações tão grandes que se assemelham a infinitas. Por exemplo, estudo da presença de enzimas séricas na população mundial; • Casos em que o processo de investigação da característica é destrutivo. Por exemplo, o resultado a ser obtido necessita do sacrifício de animais ou da des- truição do objeto de análise; • Casos em que existem problemas éticos impeditivos para utilizar toda uma população. Por exemplo, testes com drogas ou vacinas; • Casos em que a população é hipotética, ou seja, desconhecida, e a amostra é real. Por exemplo, estudo com usuários de drogas de abuso. Feita a opção por estudar uma amostra, algumas etapas que devem ser obedecidas: Etapas do levantamento por amostragem: 1. Estabelecer os objetivos com clareza. Defi nir qual a unidade elementar ou de trabalho; 2. Defi nição da população a ser amostrada; 3. Escolha das variáveis a serem observadas em cada unidade de análise; 4. Especifi cação do grau de precisão desejado. O grau de incerteza pode ser reduzido ao tomarmos amostras maiores e empregar melhores técnicas de medição; 5. Escolha dos instrumentos de medida e da forma de abordagem; 6. Escolha da unidade amostral: a menor parte distinta e identifi cável da po- pulação para fi ns de enumeração e sorteio; 7. Execução de prova experimental, piloto ou pré-teste. Isso orienta os ajus- tes necessários; 8. Seleção da amostra depois de decidido o seu tamanho. A próxima questão é: sabendo que nem toda amostra é adequada e representati- va de uma população, qual a metodologia a ser utilizada para que a minha amostra represente a população da melhor maneira possível?Existem algumas técnicas que podem ser utilizadas para diminuir a probabilida- de da ocorrência de vício na amostra. As amostras podem ser, então, obtidas de maneira probabilística ou não probabi- lística. As amostras probabilísticas somente serão preteridas na absoluta impossibili- dade de utilização, são amostras obtidas sem a utilização de técnicas específicas, as quais nos garantem que todos os elementos da população tiveram a mesma chance de fazer parte da amostra. Exemplos: se necessitamos avaliar o desempenho de um 15 UNIDADE Bioestatística docente a partir de um questionário aplicado aos 1000 alunos que esse docente atende e para isso decidimos fazer uma amostragem da turma com 50 alunos; se, para a realização da pesquisa, eu escolho os alunos que vão fazer parte dessa pes- quisa, estou diante de uma amostra não probabilística, pois excluí a possibilidade de vários alunos participarem; porém, se estabeleço um sorteio utilizando o número de matrícula desses alunos, então todos terão a mesma oportunidade de participar e, dessa maneira, faço, então, uma amostra probabilística. • Probabilística: cada unidade amostral tem uma probabilidade conhecida dife- rente de zero; • Não probabilística: não se conhece a probabilidade de cada unidade amostral pertencer à amostra. Algumas unidades terão probabilidade zero de pertencer à amostra. São tipos de amostragem probabilística: • Casual simples; • Casual simples estratificada; • Sistemática. Amostra casual simples sem reposição É a amostra composta por elementos retirados ao acaso da população. Todo elemento tem igual probabilidade de ser escolhido, qualquer subconjunto de n ele- mentos diferentes de uma população de N elementos tem a mesma probabilidade de ser sorteado. Por exemplo, o Curso necessita de uma amostra casual simples de cinco de seus alunos para uma avaliação de conhecimentos gerais. O total de alunos é 100 e to- dos têm um número de matrícula de 1 a 100. A partir de bolinhas numeradas de 1 a 100, sorteia-se, ao acaso (sem nenhum tipo de interferência intencional), uma das bolas com o número dos alunos, sem retornar à bola, por cinco vezes (Tabela 1): Tabela 1 – Resultado do sorteio de 5 alunos para uma avaliação Sorteio Número do aluno sorteado 1 005 2 093 3 015 4 100 5 002 16 17 Amostra casual simples estratifi cada É a amostra composta por elementos de todos os diferentes estratos da população. Vamos chamar de estrato todo subconjunto de uma população que possua ca- racterísticas comuns e que interfira no resultado da variável estudada. Por exemplo, na Pesquisa Eleitoral, as populações de faixa socioeconômicas diferentes possuem opiniões diferentes a respeito dos candidatos. Temos as variáveis: sexo, renda, idade, escolaridade etc., que podem interferir no resultado da pesquisa cuja pergunta é: “Qual o seu candidato?” Portanto, para que a amostra não seja viciada, devemos ob- ter uma amostra de cada estrato da Sociedade e reunir tudo em uma única amostra. Se uma população é composta de h estratos, define-se: N= Tamanho da população Nh = Tamanho de cada estrato populacional N= Tamanho total da amostra nh = Tamanho da amostra do estrato h Amostragem sistemática Esse tipo de amostragem utiliza a ordenação natural dos elementos de uma dada população. Muitas populações são ordenadas naturalmente, como, por exemplo, a população dos pacientes de uma clínica ou de qualquer serviço de atendimento à Saúde. Os indivíduos pertencentes a essa população, tão logo chegam ao serviço, são cadastradas por ordem de entrada. Esse cadastramento tem correlação direta com o tempo, sendo que os primeiros números são dos primeiros pacientes e os núme- ros mais altos se referem aos pacientes mais recentes. Sempre que esse ordenamento natural for observado, a criação de um sistema para formar a amostragem é conveniente. Por exemplo, ao desejar estudar uma amostra de 100 elementos da população de 10.000 pacientes cadastrados em uma Clínica, retira-se uma ficha a cada mil, iniciando-se da primeira. Define-se então: • N: tamanho da população • n: tamanho da amostras • K: intervalo de amostragem = N/n , • i: início casual, sorteado entre 1 e k, inclusive • Amostra sorteada é composta pelos elementos: i, i+k, i+2k, ...., i+(n-1)k. 17 UNIDADE Bioestatística Observação É necessário ter cuidado com a periodicidade dos dados. Por exemplo, se for feito sorteio de dia no mês, podemos ter como resultado sempre um domingo, em que o padrão de ocorrência do evento pode ser diferente. Amostra de conveniência É a amostra não probabilística composta por elementos que o pesquisador reuniu simplesmente por que dispunha deles, sem qualquer tipo de técnica. Existe uma série de restrições estatísticas a essa amostragem; porém, ela é comum na área da saúde, pois, por dificuldades de ordem ética, nem sempre é possível formar uma amostra probabilística. Imagine a seguinte situação: um pesquisador deseja conhecer o perfil de usuários de drogas ilícitas e, para tanto, precisa fazer entrevistas com 100 indiví- duos, qual é a população desses usuários? Essa população se declara? Em situações como essa, o pesquisar recorre a uma amostra que encontra, como, por exemplo, os indivíduos de uma clínica de recuperação. Vício de uma amostra Vício, viés ou tendenciosidade caracterizam-se pela diferença entre a média ob- tida de todas as possíveis amostras e o verdadeiro valor do parâmetro populacional em estudo. De maneira simples, é o erro que a amostra carrega por ser composta por indivíduos com valores distantes do verdadeiro valor que se pesquisa. Voltando a um exemplo anterior em que, para avaliar o desempenho de um docente, aplicava-se um questionário aos alunos e o docente escolhia a amostra, conclui-se que essa amostra (grupo de alunos) tende a atribuir a esse professor uma nota média superior àquela que a média da turma toda iria conferir. Essa tendência chama-se, então, vício da amostra. Dados discrepantes São considerados dados discrepantes os valores aparentemente incompatíveis com os demais valores obtidos em um levantamento de dados. Diz-se aparentemente, pois é impossível para um pesquisador avaliar se existe um dado errado ou incompatível. Veja, se um pesquisador deseja conhecer o tipo físico dos alunos matriculados em uma grande instituição de Ensino Superior, se- guindo nossos critérios, ele vai optar por uma amostra. Se essa Instituição tem 10.000 alunos matriculados, ele pode perfeitamente fazer uma amostra casual simples de 100 alunos para aferir altura e peso. Analise essa situação hipotética: dos 100 alunos sorteados, apareceu um com altura de 1,40m e 100Kg, ou seja, esse aluno, tipicamente fora do padrão corporal 18 19 de qualquer população, está representando 1% da amostra, mas será que 1% da população, ou seja, 100 alunos, possuem esse tipo físico? Essa é uma típica situação de dado discrepante. O que fazer com os dados discrepantes? Leve em consideração os pontos a seguir: • Deve-se verificar todo o valor suspeito e descartá-los, se forem verificados er- ros em um ou mais pontos do processo; • Os dados discrepantes influenciam os resultados estatísticos; • A inclusão ou exclusão deve ser minuciosamente analisada. 19 Material Complementar Indicações para saber mais sobre os assuntos abordados nesta Unidade: Leitura O Caminho da Ciência: O método científico https://goo.gl/2Mdyic Estatística/Bioestatística/Métodos Estatísticos/Bioestatística e Epistemologia da Investigação https://goo.gl/WbMtS8 Níveis de Mensuração da Variável https://goo.gl/2d8Qtd Etapas do Método Estatístico https://goo.gl/NM2MTN Referências BERQUÓ, E. S.; SOUZA, J. M. P.; GOTLIEB, S. L. D. Bioestatística. 2.ed. São Paulo:Editora pedagógica e Universitária, 1981. VIEIRA, S. Introdução à Bioestatística. 5.ed.São Paulo: Campus, 2008. ______.Bioestatística: tópicos avançados. 2.ed. São Paulo: Campus, 2003. • Introdução; • Elaboração de Questionários e de Instrumentosde Coleta de Dados; • Elaboração de Tabelas e Gráficos. • Apresentar como é elaborado um questionário e demais instrumentos para coleta de dados; • Discutir como é feita a tabulação dos dados; • Abordar o processo de elaboração de tabelas e gráfi cos. OBJETIVOS DE APRENDIZADO Obtenção e Expressão de Dados Utilizados em Bioestatística UNIDADE Obtenção e Expressão de Dados Utilizados em Bioestatística Introdução Hoje iremos falar sobre assuntos importantes que serão preparatórios para as análises estatísticas ou a finalização (exposição) dos resultados obtidos. São eles: 1. Elaboração de questionários e de instrumentos de coleta de dados; 2. Tabulação de dados; 3. Elaboração de tabelas e gráficos. Será um módulo bem interessante. Esperamos que você o aproveite e aprenda da melhor forma possível. Elaboração de Questionários e de Instrumentos de Coleta de Dados Depois do nosso primeiro módulo, percebemos que toda linguagem teórica precisa ser transformada em uma linguagem operacional, isto é, ser convertida para condições que nos permita agrupar e relacionar uma informação (dados) com outra, bem como expressar informações a respeito do fenômeno investigado. Isso porque será a partir dessa transformação, do teórico para o operacional, que poderemos avançar na estatística. Tomemos como ponto inicial deste conteúdo o mesmo exemplo já abordado na aula anterior: Linguagem teórica Linguagem operacional Preconceito – Um possível escore que varie de zero a dez (variável quantitativa); – Categorizar as respostas de acordo com a intensidade do preconceito: “muito”, “razoável”, “nenhum” (variável qualitativa); Escolaridade – Nível de estudo: fundamental, médio ou superior (variável qualitativa); – Anos de escolaridade (variável quantitativa); – Quantidade de anos cursados, não importando o tipo de curso: técnicos, de idiomas etc. (variável quantitativa). Perceba que, no exemplo acima, se fôssemos criar um questionário para cole tar as informações de pessoas, possivelmente teríamos alguns problemas, já que teríamos mais de uma forma de entender o que seria “preconceito” e “escolari dade”. Sendo assim, qual seria a melhor forma de se obter informações sobre esses dois conceitos? 8 9 Figura 1 Fonte: Getty Images Problematização Para discutirmos isso, vamos pensar na seguinte situação (que poderia ser bem real!): Figura 2 Fonte: Getty Images Situação A: imagine que fosse apresentado aos participantes de uma pesquisa de uma grande empresa de tratamento de água e de esgoto o seguinte formulário: 1. Qual o seu preconceito para aceitar uma campanha sanitária? (__) muito (__) razoável (__) nenhum 9 UNIDADE Obtenção e Expressão de Dados Utilizados em Bioestatística 2. Qual a sua escolaridade? (__) fundamental incompleto (__) fundamental completo (__) médio incompleto (__) médio completo (__) superior incompleto (__) superior completo Na sua opinião, temos um formulário de fácil entendimento? Figura 3 Fonte: Getty Images Pense nessa condição e, ao final deste módulo, veremos se você acertou ou errou. Quando se pretende realizar análise estatística, precisamos de dados. No mó dulo anterior, vimos que os dados são definidos a partir da criação de variáveis. A classificação dos dados em variáveis é que permitirá a elaboração de tabelas, gráficos e também a investigação das relações de duas ou mais variáveis. Uma das formas mais usuais de obtenção de dados é a partir do uso de questionários ou de roteiros. Esses podem obter informações (dados) pela simples observação (por exemplo, se a pessoa é muito alta ou muito baixa), pelo questionamento (saber a opinião de uma pessoa sobre o atendimento que teve em uma determinada loja), 10 11 medição (por exemplo, a circunferência abdominal de uma mulher) ou por testes (um exame de sangue, um teste ergométrico). Todas essas formas permitem a ob tenção de dados. Exemplo: Se desejarmos saber o sexo e a idade de uma pessoa, o questionário poderia ser elaborado assim: Orientações: Gostaríamos que o(a) senhor(a) nos fornecesse algumas informa ções a seu respeito. Por favor, responda as seguintes questões: 1. Qual o seu sexo? (__) Masculino (__) Feminino 2. Qual a sua idade? _____ anos Comentários: Nesse exemplo, podese perceber que as informações quanto ao sexo foram obtidas a partir da criação de uma variável nominal que possui as duas categorias (masculino e feminino), e temos ainda a idade do entrevistado, a partir da criação de uma variável contínua (anos). Tabulação de Dados A tabulação de dados seria a etapa seguinte. Nela, podemos visualizar a quan tidade e a qualidade dos dados obtidos. Consideremos agora uma pesquisa que procurou investigar os fatores socioeconômicos de mulheres frequentadoras de um supermercado. Veja, na tabela abaixo, a distribuição das informações coletadas após a aplicação de um questionário: Figura 4 – Dados sociodemográfi cos de mulheres frequentadoras de um determinado supermercado Fonte: Acervo do Conteudista 11 UNIDADE Obtenção e Expressão de Dados Utilizados em Bioestatística Abaixo, a codificação dos dados. Nesse modelo, foi utilizado um programa dis ponível na grande maioria dos computadores e também nas dependências da nossa universidade, o Excel. Figura 5 – Apresentação da descrição e da forma de mensuração/categorização das variáveis apuradas na Figura 4 Fonte: Acervo do Conteudista Nessa tabulação, podemos verificar a distribuição dos dados. No caso acima, visualizamos as variações de idade, de profissão, número de filhos, renda etc. Ao final, percebemos (Figura 4) que boa parte da amostra possui filhos. Sempre usa- mos a tabulação dos dados para, a partir dessa etapa, começarmos a realizar análises estatísticas descritivas e analíticas. Elaboração de Tabelas e Gráficos Agora que já entendemos como devemos coletar e tabular os dados, vamos expres sar as informações obtidas. Muitos já devem ter lido as informações descritas a partir de textos (parágrafos), tabelas e gráficos. Vamos saber como usálos adequadamente. Texto A divulgação dos dados a partir de textos deverá ser feita sempre com muito cuidado. Não se pode colocar em um único parágrafo muitas informações, pois, ao final da leitura desse parágrafo, o leitor já não se lembrará de tudo o que leu. Veja o exemplo a seguir: 12 13 Foram detectadas duas fases distintas de uso de drogas. A primeira, com drogas lícitas, sendo o cigarro e o álcool as mais citadas pela amostra. Parentes e amigos dos entrevistados foram os incentivadores do consumo, e o motivo alegado para o uso dessas substâncias foi a necessidade de autoconfiança. A idade precoce do consumo e o uso pesado de uma ou ambas as drogas foram determinantes para o início de uma escalada de drogas ilícitas. A maconha foi a primeira droga dessa segunda fase. Uma postura mais ativa na busca da droga como fonte de prazer passou a ser o motivo do consumo. Fonte: Revista de Saúde Pública, v. 36 n. 4, p. 420-430, 2002. Disponível em: https://goo.gl/cWg4b6 Perceba que no texto acima foram sintetizadas as informações mais importantes que os pesquisadores encontraram. É claro que uma pesquisa contém muito mais informação do que a existente em um parágrafo, mas o detalhamento dos dados é melhor compreendido pelo uso de tabelas e gráficos. Gráfi cos Os gráficos, que em estatística e metodologia também podem ser chamados de figuras, servem para expressar de forma generalizada (considerando toda a amos tra ou população) ou detalhada (apresentando cada elemento da amostra) os dados apurados. Há diversos tipos de gráficos, vejamos alguns deles: Exemplo 1: Gráfico de pontos Figura 6 – Curva ajustada para coefi cientes de mortalidade por homicídios segundo local de residência e renda nominal média. Município de São Paulo, 2000 Fonte: Rev. Saúde Pública, 2005 13 UNIDADE Obtenção e Expressão de Dados Utilizados em Bioestatística Exemplo 2: Gráfico de setores Figura 7 – Distribuição do local ondeo agressor foi encontrado Fonte: Saúde Soc. São Paulo, 2008 Exemplo 3: Gráfico de barras Figura 8 – Percentagem de vítimas de acidentes de trânsito segundo sexo, regime de internação e tipo de acidente Fonte: Rev. Saúde Pública, 1993 14 15 Exemplo 4: Gráfico de barras Figura 9 – Número de substâncias psicoativas que motivaram a procura de tratamento pelos farmacodependentes classifi cados como jogador social, jogador problema e jogador patológico Fonte: Rev. Saúde Pública, 2005 Exemplo 5: Gráfico de barras Figura 10 –Frequência de diagnóstico de dependência de álcool, cocaína/crack e maconha Fonte: Rev. Saúde Pública, 2005 As tabelas são muito utilizadas para facilitar (e muito) as informações obtidas e apuradas. Se a variável for qualitativa, realizase a simples contagem; se for quan titativa, usamos os cálculos matemáticos básicos (soma, divisão, multiplicação, di visão etc.). Veja o exemplo seguir, no qual são descritos dados quantitativos: 15 UNIDADE Obtenção e Expressão de Dados Utilizados em Bioestatística Figura 11 – Evolução dos gastos sociais por função nos Estados brasileiros – R$ 2002-04 Fonte: Ciências & Saúde Coletiva, 2007 Já nesta outra tabela temos a descrição de dados qualitativos: Figura 12 – Características quanto ao sexo, idade e ano do curso na amostra de estudantes de Medicina (N = 449). Pelotas, 1996 Fonte: Rev. Saúde Pública, 2001 Os exemplos acima são considerados como modelos simples de tabelas. Há diversos outros formatos de tabelas que expressam as relações de duas ou mais variáveis, sejam elas de natureza quantitativa ou qualitativa. A grande vantagem das tabelas mais complexas, isto é, as que mostram as relações de duas ou mais variáveis, é que essas conseguem explicar e esclarecer melhor o fenômeno investigado. São essas as tabelas que buscaremos compreender e elaborar ao final dos nossos estudos. 16 17 Exemplo 6: Figura 13 – Modelos fi nais para as associações entre categorias de fumo e características associadas Fonte: Rev. Saúde Pública, 2001 E Quanto ao Problema que foi Exposto no Começo desta Unidade? Na verdade, temos duas perguntas que podem gerar uma série de dúvidas quan to às suas respostas. Vamos entender as razões: Sobre o termo “preconceito” 1º) Quando se pergunta qual o nível de preconceito para aceitar uma campa nha sanitária, é possível que muitas pessoas jamais tenham pensado que pudesse ser usado o termo “preconceito” fora das condições sociais, étnicas e socioeconô micas. Daí que muitas poderiam responder sem ter entendido realmente o signi ficado de “preconceito”, que é um préjulgamento, um préconceito a respeito de algo ou alguém; 2º) A falta de conhecimento amplo sobre esse conceito poderia obrigar o pes quisador (aquele que formulou as perguntas) a criar breves definições para conceitos como esse. Possivelmente, ninguém iria admitir muito preconceito, pois, na nossa sociedade, causa má impressão admitir isso. Definir o que seria muito preconceito, razoável ou nenhum preconceito talvez fosse uma forma eficiente de obter respos tas com mais fidedignidade. 17 UNIDADE Obtenção e Expressão de Dados Utilizados em Bioestatística Sobre o termo “escolaridade” 3º) Em relação à escolaridade, se fossemos entrevistar pessoas de todas as ida des, talvez os idosos não tenham a resposta exata, pois, no “tempo deles” de estu do, não existia “esse tal” de ensino fundamental e médio; havia o ginasial e outros níveis de escolaridade. Perceba que o “erro” foi na formulação da pergunta, pois não havia essa divisão de níveis de escolaridade. 4º) Definindo “escolaridade” como “anos de estudo”, você poderia entender que, independentemente da divisão vigente quanto aos níveis de escolaridade, as reais chances de identificarmos os anos estudados de cada participante seria muito maior – isso se fosse do nosso interesse investigar os anos estudados dos entrevistados. No entanto, se a pesquisa fosse realizada apenas com adolescentes, essa divisão de escolaridade não traria qualquer problema. Conclusão Esperamos que, ao final desta unidade, você tenha percebido a importância da coleta, tabulação e expressão de dados. A estatística é também coleta, análise e expressão dos dados. 18 Material Complementar Indicações para saber mais sobre os assuntos abordados nesta Unidade: Leitura Técnicas de coleta de dados e instrumentos de pesquisa https://goo.gl/nJfHKW A elaboração de questionários na pesquisa quantitativa https://goo.gl/vRHQuf Estatística Descritiva: Tabelas e Gráficos https://goo.gl/24BZx Gráficos e tabelas para organizar informações https://goo.gl/V4UwAi Referências HULLEY, Stephen B. Delineando a Pesquisa Clínica – Uma Abordagem Epi- demiológica. 3. ed. Porto Alegre: Artmed, 2008. • Introdução; • Medidas de Tendência Central; • Medidas de Dispersão; • Conclusão. • Ampliar seu conhecimento sobre as Medidas de Tendência Central (Média, Moda e a Mediana) e Medidas de Dispersão: Variância e Desvio Padrão. OBJETIVO DE APRENDIZADO Medidas de Tendência Central e de Dispersão UNIDADE Medidas de Tendência Central e de Dispersão Introdução Vamos abordar um assunto importante a respeito da transmissão das infor- mações relativas à amostra ou à população estudada. Em se tratando dos dados obtidos, a condensação deles facilita a compreensão das características essenciais de uma amostra ou população. Para viabilizar essa etapa, usamos as medidas de tendência central e de dispersão. Hoje vamos conhecer um pouco mais sobre essas medidas. Figura 1 Fonte: Getty Images Medidas de Tendência Central As medidas de tendência central são confiáveis quanto mais representativo for o conjunto de elementos da amostra ou da população. Se o conjunto de elementos for bem selecionado, se guardar características semelhantes às características da popu- lação que foi extraída, e se for suficientemente grande, os dados refletirão melhor o que poderíamos encontrar na população. Pode-se dizer também que essas medi- das – de tendência central e de dispersão – são uma primeira caracterização dos conjuntos populacionais ou amostrais. Média Aritmética A média aritmética consiste na soma dos valores de um conjunto de dados, di vididos pelo número de elementos. Veja o exemplo abaixo. Considere o seguinte conjunto de dados: 11 10 10 12 23 24 30 8 9 A média aritmética será = 11 + 10 + 10 + 12 + 23 + 24 + 30 / 7 = 17,14 Observação 1: Frequentemente a média aritmética vem acompanhada de outra medida, o desvio padrão. Essa é uma medida de dispersão e indica o quanto os valores se afastam ou se aproximam da média. Observação 2: A média aritmética é muito infl uenciada por valores extremos, ou seja, valores muito menores ou maiores infl uenciam de forma marcante o valor real da média. Figura 2 Fonte: Getty Images Dividir a conta em um bar (“rachar a conta”) é um bom exemplo prático de mé- dia aritmética. A fórmula para cálculo da média aritmética é: x x x x n x n n i i n = + + + = = ∑ 1 2 1 Onde o X com uma barra significa média aritmética de uma amostra e n o número de indivíduos da amostra. Exercício resolvido: Uma nutricionista decidiu investigar a circunferência abdominal de 10 gerentes de uma grande empresa multinacional interessados em perder peso por meio de um programa de reeducação alimentar. As medidas seguem abaixo: Gerentes 1 2 3 4 5 6 7 8 9 10 Circunferência 88 83 79 76 78 70 80 82 86 105 9 UNIDADE Medidas de Tendência Central e de Dispersão Devemos primeiro determinar qual o tamanho da amostra (n): Como no caso temos 10 gerentes, então dizemos que n = 10. Cada gerente representa um valor de x, como segue: x1 = 88 x2 = 83 x3 = 79 x4 = 76 x5 = 78 x6 = 70 x7 = 80 x8 = 82 x9 = 86 x10 = 105 Substituindo na fórmula, teremos: x x x = + + + + + + + + + = = 88 83 79 76 78 70 80 82 86 105 10 827 10 82 7, Dizemos então que: a média aritmética da circunferência abdominal dos 10 gerentes é de 82,7 cm. Mediana A mediana é outramedida que indica a caracterização do conjunto de valores. Ela indica o valor que divide ao meio o conjunto de valores, ou seja, indica o valor que ocupa a posição central desse conjunto, não sofrendo qualquer interfe rência dos valores extremos. O seu cálculo depende da ordenação dos dados, o que corresponde a colocá-los em ordem crescente ou decrescente. Continuando com o exemplo usado no calculo da média aritmética: 10 11 11 10 10 12 23 24 30 11 10 12 23 24 10 10 11 12 23 24 30 A mediana seria assim calculada: Segue um exemplo com n par: 10+12=22 22 2=11 Essa é a mediana, pois é o valor central de um conjunto de dados. Quando o número de valores for ímpar (como no caso acima), a mediana será sempre o valor do meio. Como o n é par, soma-se os dois valores centrais e divide-se por “2”. Portanto, nesse exemplo, 11 é a mediana da distribuição apresentada. Moda A moda é o valor que ocorre com maior frequência. Essa medida, juntamente com a média e a mediana, ajudam a compreender o padrão homogêneo dos dados. Quando essas três medidas estão próximas, podemos dizer que o conjunto de dados é homogêneo, ou seja, não há valores extremos, mas sim uma tendência de que boa parte dos números se localizem próximos a essas três medidas. Figura 3 Fonte: Getty Images 11 UNIDADE Medidas de Tendência Central e de Dispersão Se um conjunto de dados possui um único valor que se repete com maior frequên- cia, diz-se que o conjunto é unimodal; quando dois números aparecem com maior frequência, é bimodal; se três ou mais números aparecem com maior frequên cia, é multimodal. A ausência de moda caracteriza um conjunto amodal. Veja o exemplo abaixo. Considere o seguinte conjunto de dados: 0 1 1 2 3 4 4 4 5 Analisando os dados, observa-se que o número 4 é o número que se repete com maior frequência (3 vezes). Dessa forma, dizemos que o conjunto é unimodal. Vamos analisar outro conjunto de dados: 0 1 1 1 3 4 4 4 5 Analisando os dados, observa-se que os números 1 e 4 se repetem com maior frequência (3 vezes cada um). Dessa forma, dizemos que o conjunto é bimodal. Medidas de Dispersão As medidas de tendência central, vistas anteriormente, ajudam a explicar a ten- dência central dos dados, ou seja, o quanto esse conjunto é homogêneo. Essas medidas precisam estar acompanhadas de outras informações que indiquem a VARIABILIDADE dos dados, isto é, o quanto os valores divergem em relação aos valores de caracterização geral da população ou amostra. Considere a situação apresentada no livro Introdução à bioestatística, da autora Sônia Vieira (2008): Considerando 2 domicílios, sendo que em um deles moram 7 pessoas , todas com 22 anos de idade. A média de idade será de 22 anos. No ou- tro domicilio, poderíamos ter a mesma média de idade, no entanto, nesse segundo domicilio, moram uma garota de 17 anos, um garoto com 23 anos, duas crianças de 2 e 3 anos, respectivamente, além de uma mulher de 38 anos, outra criança de 8 anos e uma senhora de 65 anos. Nesse exemplo acima, temos dois conjuntos de valores, cuja variabilidade é diferente, embora a média seja a mesma. No primeiro conjunto de valores, a variabilidade é bem menor, condição contrária à que ocorre no segundo grupo , no qual a variabilidade é maior, pois as idades variam de 2 até 65 anos. 12 13 Quartis e Percentis Já aprendemos que a mediana é o valor que divide ao meio o conjunto de valores. Poderíamos dizer também que a mediana indica que, abaixo daquele valor, temos 50% das observações dos valores. Mas há situações em que podemos dividir o conjunto de valores em partes menores: quartis, decis e percentis indicam essa possibilidade. Sendo assim, o primeiro quartil indica que 25% dos valores estão abaixo desse valor; o segundo quartil indica que 50% da amostra está abaixo desse valor; e assim por diante. Veja o modelo abaixo: 1º quartil 2º quartil 3º quartil 4º quartil 25% 25% 25% 25% 50% DOS VALORES 75% DOS VALORES Já os percentis consideram as posições dividindo o conjunto de valores em 100 partes. Da mesma forma que o quartil, o percentil 70, por exemplo, indica que 70% dos valores de um conjunto encontram-se abaixo desse valor. Observação: percebam, no modelo esquemático abaixo, que uma posição (ou valor) pode ser indicada de mais de uma forma. 25% 25% 25% 25% 50% 2º quartil Percentil 5050% 13 UNIDADE Medidas de Tendência Central e de Dispersão Amplitude, Mínimo e Máximo A amplitude explica a variabilidade de valores, e por isso é considerada uma medida de dispersão. É definida como a diferença entre o maior e o menor valor de um determinado conjunto de valores. Menor, também chamado de mínimo, é o menor valor de um determinado con- junto de valores. Maior, também chamado de máximo, é o maior valor de um determinado con- junto de valores. Maior A M P L I T U D E menor_ Importante! Assim como a média, a amplitude é muito influenciada por valores extremos, isto é, um valor muito baixo ou muito alto altera facilmente essa medida e pode, em determinados casos, não representar a real variabilidade do conjunto de valores, pois houve o compro- metimento em razão desse(s) valor(es) extremo(s). Importante! Variância e Desvio Padrão Essas duas medidas indicam a variabilidade, distância dos valores em torno do valor médio encontrado para um determinado conjunto de dados (valores). Se meno res, a variância e o desvio padrão indicam pouca variabilidade dos valores, caracteri- zando um conjunto de valores mais homogêneo, ou seja, de variabilidade pequena. Considere as informações abaixo: Variância x x n DesvioPadrão x x n somatória x o v = −( ) − = −( ) − ∑ ∑ ∑2 2 1 1 : : aalor de cada uma das observações x a média da amostra n : : o número de obsservações (tamanho da amostra) Perceba que tanto a variância quanto o desvio padrão partem do cálculo da distância de um valor em relação a media (x – x). Faz-se a somatória dessas distâncias e, por “necessidades” matemáticas, eleva-se ao quadrado (para eliminar os valores negativos das distâncias) ou extrai-se a raiz quadrada (pois queremos eliminar a elevação ao quadrado de uma determinada medida). 14 15 Defi niremos como variância a soma dos quadrados dos desvios de cada observação em relação a media, dividida por (n – 1). E desvio padrão como a raiz quadrada da variância. Exercício Resolvido: Vamos considerar o seguinte conjunto de notas de um determinado aluno: 5,0 6,0 5,0 9,0 Calcule a Variância e o Desvio Padrão. Variância é representada por s. Pela fórmula dada, precisamos subtrair cada valor de x da média da amostra, somar todos esses valores, elevar o resultado ao quadrado e depois dividir por n – 1. Vamos fazer passo a passo: Abaixo a fórmula do desvio padrão: s x x n = − − ∑( )2 1 Vamos calcular em primeiro lugar a média: x x x = ÷ = ÷ = (5+6+5+9) 4 425 6 25, Vamos subtrair cada valor de x da média amostral: x x ( x –x ) 5 – 6,25 –1,25 6 – 6,25 –0,25 5 – 6,25 –1,25 9 – 6,25 +2,75 Notas dos alunos Média calculada x menos a média Agora, vamos elevar os valores obtidos ao quadrado: x x ( x –x ) ( x –x )2 5 – 6,25 –1,25 1,5625 6 – 6,25 –0,25 0,0625 5 – 6,25 –1,25 1,5625 9 – 6,25 +2,75 7,5625 15 UNIDADE Medidas de Tendência Central e de Dispersão Precisamos, então, somar os quadrados obtidos: x x ( x –x ) ( x –x )2 5 – 6,25 –1,25 1,56 6 – 6,25 –0,25 0,0625 + 5 – 6,25 –1,25 1,5625 9 – 6,25 +2,75 7,5625 = 10,75 A fórmula pede que esse valor (10,75), seja dividido por n – 1. Em nosso exemplo, n = 4 (quatro notas), então 4 – 1 = 3 Então: 10,75 ÷ 3 = 3,58 Portanto: s (variância) é igual a 3,58. O desvio padrão é representado por s2. s2 é igual a raiz quadrada de s (variância), então: s2 = s s2 = 3 58, s2 = 1,89 ou seja, o desvio padrão das notas desse aluno é 1,89, sendo que a média foi 6,25. Coeficiente de Variação Essa medida indica a dispersão dos valores em relação à média. Para se calcular o coeficiente de variação,usamos o desvio padrão e a média: CV= desvio padrão / média x 100 Percebam que o CV não possuirá unidade de medida (é adimensional). Dessa forma, podemos comparar a dispersão de valores para dados quantitativos que utilizaram medidas diferentes, como metros e quilogramas. O uso de coeficientes não é tão frequente quanto o uso das outras medidas discutidas neste capítulo. Os coeficientes são importantes na elaboração de indicadores de saúde. 16 17 Importante! As medidas de tendência central e de dispersão são úteis na compreensão e caracteri- zação dos dados populacionais ou amostrais. A apresentação dessas medidas ajuda a entender o caráter homogêneo ou não dos dados, bem como a forma de dispersão dos mesmos em relação a um determinado valor médio. Em Síntese 17 Material Complementar Indicações para saber mais sobre os assuntos abordados nesta Unidade: Vídeos Moda, Média e Mediana https://youtu.be/UfupcG1ax6U Média e Mediana de dados agrupados https://youtu.be/7djAJFHYyno Propriedades da Média e Desvio Padrão https://youtu.be/3swCXxdYwdI Cálculo do desvio padrão e da variância https://youtu.be/PEN2M_eo6SY Referências ARANGO, H. G. Bioestatística – Teórica e Computacional. 2. ed. Rio de Janeiro: Guanabara Koogan, 2005. (acompanha CD demonstrativo) VIEIRA, S. Princípios de Estatística. São Paulo: Pioneira Thomson Learning, 2003. VIEIRA, S. Introdução à Bioestatística. 4. ed. Rio de Janeiro: Elsevier, 2008. TRIOLA, M. F. Introdução à Estatística. Rio de Janeiro: LTC, 2005. • Noções de Probabilidade; • Eventos Independentes; • Distribuição Normal ou de Gauss; • Distribuição Normal Reduzida. • Estudar as probabilidades e as distribuições de frequências como estimativas de probabilidade. OBJETIVO DE APRENDIZADO Probabilidade e Distribuição de Frequências como Estimativa da Probabilidade UNIDADE Probabilidade e Distribuição de Frequências como Estimativa da Probabilidade Noções de Probabilidade Após realizar a descrição dos eventos utilizando gráficos, tabelas, calculado mé- dia, desvio padrão, fazendo correlações e regressões, o pesquisador deseja fazer inferências, ou seja, extrapolar seus resultados para a população. Para tanto, é necessário entender de probabilidade, uma vez que as inferências são expressas em probabilidade de aquela conclusão ser falsa ou verdadeira. Probabilidade aleatória Para entender a probabilidade de um evento aleatório, precisamos definir: • S – Espaço amostral: É o conjunto de todos os elementos possíveis; • EVENTO – É qualquer subconjunto de S (Notação A, B, C, ...); • Φ (phi) – Conjunto vazio, ou seja, representa um evento impossível. Definimos, então, probabilidade de um evento A como a razão entre o número de elementos de A e o número de elementos do espaço amostral (S). Representa- mos com a fórmula abaixo: P A Número de elementos de A Número de elementos de S ( ) = Vamos considerar o seguinte exemplo: Um pesquisador deseja saber qual a probabilidade de, ao lançar um dado, esse cair com a face 3 voltada para cima. Analisando esse exemplo simples, porém, muito ilustrativo, temos: • Um dado tem 6 faces; • Cada vez em que um dado é lançado, somente uma face fica voltada para cima, Então temos as seguintes possibilidades: Figura 1 • Portanto, das 6 possibilidades, somente uma satisfaz a condição CAIR FACE 3. Figura 2 8 9 Em termos de probabilidade, temos o seguinte: • O espaço amostral (S) é: S = {1, 2, 3, 4, 5, 6}; • O evento (A) CAIR FACE 3 é: A = {3}; • A probabilidade do evento A (CAIR FACE 3) é dado pela expressão: P A( ) = 1 6 1 ÚNICO ELEMENTO DO EVENTO A {3} 6 elementos do espaço amostral S {1;2;3;4;5;6} Resolvendo a equação: P (A) = 0,1667 ou 16,67% São propriedades da probabilidade: • A probabilidade de qualquer evento é um valor entre 0 e 1: 0 ≤ P ≤ 1; se apre- sentado na forma de porcentagem: 0% ≤ P ≤ 100%; • A probabilidade de um evento vazio é sempre igual a zero: P (Φ) = 0. Voltando ao nosso exemplo anterior, se o pesquisador perguntasse qual a probabili- dade de, ao jogar um dado, CAIR A FACE 7? Como um dado não possui essa face, o evento A é vazio ou A:{ }. Pela fórmula, zero divido por qualquer número continua sendo zero; • A probabilidade de ocorrer um evento igual ao espaço amostral é 1: P(S) = 1. No nosso exemplo, se o pesquisador perguntasse qual a probabilidade de, ao jogar um dado, CAIR UMA FACE ENTRE 1 E 6? Veja que o evento A se satisfaz com qualquer uma das faces do dado, ou seja A:{1;2;3;4;5;6}, que equi- vale ao espaço amostral. Pela fórmula, teremos uma probabilidade dada pela razão entre A, ou seja, 6 e S, que também é a que resulta no valor 1 ou 100%. Probabilidade condicional Chamamos de probabilidade condicional a probabilidade de ocorrer determina- do evento quando ele depende de uma dada condição. A probabilidade de ocorrer o evento A sob a condição de ter ocorrido o evento B é representada então: P(A|B); que se lê: probabilidade de A dado B. De volta ao nosso exemplo dos dados, pense na seguinte pergunta: Qual a probabilidade de, ao se lançar um dado, ocorrer face 6, sabendo antecipada- mente que a face que ocorreu é par? Em termos de estatística, a pergunta deveria ser construída assim: Qual a probabilidade de ocorrer o evento A dado que ocorreu o evento B? Escrevemos da seguinte maneira: P (A|B). 9 UNIDADE Probabilidade e Distribuição de Frequências como Estimativa da Probabilidade A fórmula para a resolução de uma probabilidade condicional é: P A B A B B ( | ) ( ) = Onde se lê: a probabilidade de A dado B é a razão (divisão) entre o número de elementos da intersecção entre A e B e o número de elementos de B. Entendendo a fórmula • Evento A: face 6, já sabemos que o dado tem somente 1 face com o número 6; • Evento B: face par, o dado possui as seguintes faces com números pares: {2; 4; 6}, ou seja, 3 faces com números pares. A intersecção entre os Eventos A e B é a quantidade de elementos que existem nos dois conjuntos: A e B. A B 2 4 6 6 Figura 3 – Evento A e Evento B A B 2 4 6 Figura 4 – Intersecção entre os eventos A e B Sabemos que: A = 1 elemento; B = 3 elementos; P (A ∩ B) = 1 elemento. Então, temos: P A B A B B P A B P A B P A B ( | ) ( ) ( | ) ( | ) , ( | ) , % = = = = 1 3 0 3333 33 33 10 11 Eventos Independentes Dizemos que dois eventos são independentes quando a probabilidade de ocorrer um dos eventos não é modificada pela ocorrência do outro. Vamos pensar nesta situação: Um jogador joga uma moeda e um dado, e ele deseja saber qual a probabilidade de ocorrer cara na moeda sabendo que, no jogo do dado, caiu a face 5. Devemos raciocinar: o resultado do jogo da moeda interfere no resultado do jogo do dado? Uma moeda tem duas faces, uma chamada cara (C) e a outra coroa (K); por sua vez, o dado, como já vimos, tem 6 faces. Visualize, antes do jogo de moe- das: qual o espaço amostral do jogo de dados? É o seguinte: S = {1; 2; 3; 4; 5; 6} Figura 5 A moeda foi lançada, caiu a face cara. Como fica o espaço amostral do jogo de dado após o jogo da moeda? É o seguinte: S={1; 2; 3; 4; 5; 6} Figura 6 Ou seja, não muda. Portanto, dizemos que o evento “Cair 5 no jogo de dados” é independente do evento “Cair cara no jogo de moeda”. Dizemos, então, que a probabilidade de A dado B é igual à probabilidade de A, e representamos isso da seguinte maneira: P (A|B) = P (A) Teorema do produto Esse teorema diz que, se A e B são eventos independentes, a probabilidade de ocorrer A e B é dada pela probabilidade de ocorrer A multiplicada pela de ocorrer B. P (A e B) = P (A) x P (B) Exemplo: Qual a probabilidade de ocorrer cara jogando uma moeda duas vezes? 11 UNIDADE Probabilidade e Distribuição de Frequências como Estimativa da Probabilidade Possibilidades: Tabela 1 – Probabilidades em um jogo duplo de moedas Tentativa 1º. Lançamento 2º. Lançamento 1 C C 2 C K 3 K C 4 K K Veja que a probabilidade de cair cara (C) no primeiro lançamento é de ½, e de cair coroa (K)no 2º Lançamento é de ½. E de cair em dois lançamentos cara (C) e cara (C), é de ¼. Então, aplicando a fórmula, temos: P (C e C) = ½ x ½ = ¼ Teorema da soma Quando A e B são eventos que não podem ocorrer ao mesmo tempo, a probabili- dade de ocorrer A ou B é dada pela seguinte expressão: P (A ou B) = P (A) + P (B). Se uma urna possui duas bolas brancas, uma azul e uma vermelha e retiramos uma ao acaso, qual a probabilidade de sair uma colorida? Figura 7 – Urna com bolas coloridas A condição só é satisfeita se for sorteada a bola vermelha ou a azul. Veja que duas bolas, das quatro existentes, satisfazem a condição. A probabilidade de ser re- tirada tanto a bola azul quanto a bola vermelha é de ¼, portanto, a expressão fica: P (azul ou vermelha) = ¼ + ¼ = ½ 12 13 Distribuição Normal ou de Gauss As frequências obtidas da maioria das medidas biológicas e de outras situações dão origem aos gráficos com características em comum, semelhante ao apresen- tado abaixo. Observem que essa distribuição de frequências apresenta muitos indi- víduos com valores semelhantes. No exemplo, entre 39 e 41, poucos com valores abaixo disso e poucos com valores acima. Vemos então um gráfico com formato de sino. Esse tipo de distribuição de frequências recebe o nome de distribuição normal. Número de soldados Distribuição de medidas do tórax (polegadas) de soldados escoceses diâmetro em polegadas 0 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 200 400 600 800 1000 Figura 8 – Distribuição de medidas do tórax (polegadas) de soldados escoceses Fonte: Adaptado de Daly F. et al. Elements of Statistics, 1999 A distribuição normal tem as seguintes características: • A variável aleatória pode assumir qualquer valor; • O gráfico da distribuição é uma curva em forma de sino, simétrica em torno da média populacional representada pela letra grega µ; • A área total da curva representa uma frequência de 100% da população. A área representa a probabilidade da variável assumir qualquer valor; • Os parâmetros são: µ (média populacional) e a σ2 (variância populacional). Cada população apresentará uma média e uma variância que vai gerar uma curva normal diferente e característica daquela população. Na figura acima, se quisermos saber a probabilidade de um soldado daquela população ter medida de tórax entre 38 e 39 polegadas, basta calcular a área da curva dessa parcela da população. Para isso, são necessários cálculos complexos, pois a figura é uma curva e não uma reta. Para entender melhor esse conceito, faça um exercício mental tentando respon- der às questões propostas abaixo: • Como seria um gráfico de distribuição de frequências da altura da população adulta do Brasil? • Sabendo que a glicemia (quantidade de glicose no sangue) normal das pessoas é de 80 mg/dL, como seria a distribuição de frequências da glicemia da popu- lação de uma cidade? • Em uma prova aplicada a 1000 alunos, valendo de zero a dez, como seria o gráfico da distribuição de frequências das notas? 13 UNIDADE Probabilidade e Distribuição de Frequências como Estimativa da Probabilidade Distribuição Normal Reduzida O cálculo de probabilidades de populações com distribuição do tipo normal é complexo para ser utilizado rotineiramente. Para facilitar esse tipo de cálculo, foi feita o tabelamento de todas as possíveis probabilidades de uma única curva nor- mal, que recebeu o nome de Curva Normal Reduzida. Essa curva possui as seguintes características: • É uma distribuição com média 0 e variância 1; • A variável aleatória representada pela distribuição normal reduzida é a z; • Na distribuição normal reduzida, os valores de probabilidade de 0 até z estão dispostos em tabelas. Exemplo: A probabilidade de ocorrer valores entre 0 e 1,5 corresponde à área pintada: 0 1,5 Z Figura 9 Se formos procurar na tabela a probabilidade entre 0 e 1,5, obtemos o valor de 0,4332 ou 43,32%. Na tabela, devemos procurar a linha que contenha a primeira unidade e o decimal 1,5, e a coluna com o centésimo e o milésimo: 0,00. No cru- zamento da linha com a coluna selecionada, obtemos então o valor 0,4332 que, em porcentagem, fica 43,32%. Observe que a tabela apresenta somente a parte posi- tiva da curva, porém, como a curva é simétrica, a probabilidade do lado positivo é idêntica à do lado negativo. Cálculo de probabilidade com qualquer variável com distribuição normal Vejamos o seguinte exemplo: A quantidade de colesterol no plasma tem distribuição normal com média 200mg e desvio padrão de 20mg, conforme a ilustração a seguir: 14 15 0 μ = 200 y x Figura 10 Perguntamos: Qual a probabilidade de um indivíduo apresentar valores de colesterol entre 200 e 225 mg? Para facilitar o entendimento, coloque os valores em um esboço da curva, como mostrado abaixo: 0 200 225 y x Figura 11 Se X é uma variável com distribuição normal (essa informação tem que ser dada no exercício) de média µ e desvio padrão σ, então devemos transformar a variável X em Z pela seguinte expressão: Z x� � � � Substituindo os valores: • Para X (valor dado na questão) = 225, temos: Z1 = (225-200)/20 = 1,25 • Para X (valor dado na questão) = 200, temos: Z2 = (200-200)/20 = 0 15 UNIDADE Probabilidade e Distribuição de Frequências como Estimativa da Probabilidade Substituímos X1 (=225) e X2 (=200) dados na questão por Z1 e Z2, que foram calcu- lados pela fórmula, assim teremos o seguinte esboço da distribuição normal reduzida: 0 0 1,25 y z Figura 12 O que significa dizer que a probabilidade X entre 200mg e 225mg é a mesma probabilidade de Z assumir valores entre 0 e z=1,25, que, segundo a tabela, vamos buscar a linha 1,2 (veja na tabela abaixo) e a coluna 0,05 (veja na tabela abaixo) onde obtemos o valor: 0,3944 ou 39,44%. Figura 13 – Tábua da distribuição das probabilidades em uma curva normal reduzida, valores entre 0 e z P(0 - z) 16 17 Material Complementar Indicações para saber mais sobre os assuntos abordados nesta Unidade: Vídeos Probabilidade: conceitos básicos https://youtu.be/8g571hUvgeo Construindo a Distribuição de Probabilidade para Variáveis Aleatórias https://youtu.be/lqhsgj4wwbg Teorema da Soma https://youtu.be/3QQ6l-WUBWc Leitura Probabilidade condicional https://goo.gl/Zt7Jb7 17 Referências BERQUÓ, E. S.; SOUZA, J. M. P.; GOTLIEB, S. L. D. Bioestatística. 2. ed. São Paulo: Editora Pedagógica e Universitária, 1981. VIEIRA, S. Introdução à Bioestatística. 5. ed. São Paulo: Campus, 2008. ______. Bioestatística: tópicos avançados. 2. ed. São Paulo: Campus, 2003. • Introdução; • Formulando as Hipóteses e o Estudo dos Erros; • Alguns Testes de Hipótese Utilizados Rotineiramente na Pesquisa Biomédica. • Aprender como propor as hipóteses de um dado experimento; • Conhecer alguns testes de hipótese utilizados rotineiramente na pesquisa biomédica. OBJETIVOS DE APRENDIZADO Testes de Hipótese UNIDADE Testes de Hipótese Introdução Na pesquisa biomédica, necessitamos tomar conclusões com base em amos- tragens, já que, por vezes, é impossível analisar populações inteiras para que pos- samos saber o real efeito daquilo que desejamos estudar. Vários tipos de experi- mentos são feitos com o intuito de tentar entender o que aconteceria de fato na população estudada. Como já foi explicado, um estudo estatístico normalmente está baseado em amostragens. Isso se dá pela dificuldade operacional ou financeira de ter acesso a toda uma população. Como exemplo, vamos analisar a situação a seguir. Uma empresa farmacêutica resolve testar a toxicidade de um determinado fár- maco. Cães serão utilizados como animais de laboratório para os testes antes do lançamento. Como fazer para obter uma resposta confiável sobre a toxicidade, para que o responsável técnico tenha confiança em lançar essa droga no mercado? Algumas sugestões: • Testar a droga em todos os cães do planeta; • Testar a droga em um grupo de cães (amostra). A primeira sugestão parece absurda, tanto pela impossibilidade de operá-la quantopelo altíssimo custo. Portanto, opta-se pela segunda sugestão, o que gera uma quantidade enorme de outras questões: • Todos os cães vão reagir da mesma forma? » SIM: testo em um ou dois animais → fim do experimento; » NÃO: a) Quantos animais devem ser testados? b) Os dois sexos respondem da mesma maneira? c) As diversas raças respondem da mesma maneira? d) As condições ambientais influenciam? Resolvida tais questões e desenhado um grupo experimental representativo, sur- gem outras questões sobre os possíveis resultados: • O fármaco não é tóxico para os cães; • O fármaco é tóxico para TODOS os cães; • O fármaco é tóxico para alguns cães. Nesse momento, o pesquisador fica em outra situação complicada. Os itens a) e b) são conclusivos e encerram o experimento, mas e o item c)? Ele abre para mais questões: • Posso colocar à venda o fármaco se ele for tóxico para alguns indivíduos? 8 9 » Não: Encerra-se o experimento; » SIM: mais dúvidas: a) Qual a proporção de indivíduos intoxicados para que ainda se possa considerar seguro para a venda? Para responder a todas essas questões, são necessários conhecimentos de: • Técnicas de amostragem; • Medidas de tendência central; • Medidas de dispersão; • Probabilidade; • Distribuição Normal; • Distribuição Binomial. O teste de hipótese é uma regra de decisão, na qual se leva em conta uma série de interferências, com uma chance calculada de errar. Veja o esquema a seguir: Hipótese cientí�ca Hipótese estatística em termos operacionais Inferência dedutiva Estimador populacional Delineamento experimental Coleta de dados Regras de decisão Veracidade ou Falsidade cientí�ca Veri�cação da hipótese Inferência indutiva Figura 1 Vamos definir alguns termos: • Inferência estatística: qualquer procedimento utilizado para generalizar afirmações sobre determinada população, baseadas em dados retirados de uma amostra; 9 UNIDADE Testes de Hipótese • Parâmetro: a medida usada para descrever uma característica de uma população; • Estimação: processo por meio do qual estima-se o valor de um parâmetro de uma população com base no valor obtido em uma amostra; • Hipótese: uma forma de especulação relativa a um fenômeno estudado (qual- quer que seja). É qualquer afirmação sobre a distribuição de probabilidade de uma variável aleatória (afirmação sobre um parâmetro); • Hipótese estatística: é uma especulação feita em relação a uma proposição, porém relativa a uma população definida. Formulando as Hipóteses e o Estudo dos Erros Vamos ver como devemos propor as hipóteses de um experimento, com a fina- lidade de testá-las. Partiremos de um exemplo prático. Situação hipotética: Comparar a eficácia de uma Nova droga (Dn) com uma droga padrão (Da). Devemos, antes de iniciar esse experimento, fixar os seguintes parâmetros: • Qual é a Hipótese nula (H0): Diz que a hipótese formulada pelo pesquisador é invalida; • Qual é a Hipótese alternativa (H1): É qualquer resultado que não se encaixe na hipótese nula; • Qual a Probabilidade de ocorrência de um erro durante a tomada de decisão (a). Fixando as hipóteses H Dn Da H Dn Da 0 1 : : = > ( )Teste Monocaudal Na situação colocada acima, a droga nova é mais eficaz do que a droga antiga, chamamos a esse tipo de teste de monocaudal. Se a pergunta do pesquisador é a de que a droga nova é diferente da antiga, ou seja, pode ser mais ou menos eficaz, representaremos como está a seguir. Esse tipo de teste é chamado de bicaudal: H Dn Da H Dn Da 0 1 : : = ≠ ( )Teste Bicaudal 10 11 Se a eficácia da droga antiga for de 50% (0,50), temos para um teste monocau- dal as seguintes hipótese: H Dn H Dn 0 1 0 50 0 50 : , : , = > A eficácia (E) pode ser medida pelo número de curas. Suponhamos que a nova droga será utilizada em 10 pacientes (n=10) e que a eficácia conhecida da droga antiga (DA) é de p=0,5. A probabilidade de ocorrer curas entre 0 e 10 para uma variável como a apresentada anteriormente está apresentada na Tabela 1. Tabela 1 – Distribuição das probabilidades de uma variável X com n=10 e p=50% X número de curas Probabilidade de X 0 0,001 1 0,010 2 0,044 3 0,117 4 0,205 5 0,246 6 0,205 7 0,117 8 0,044 9 0,010 10 0,001 Precisamos agora de um critério para testar H0 e, ao final, decidir ou não por rejeitá-lo. Temos então duas possibilidades: rejeita-se H0 ou se aceita H0. A tomada dessa decisão pode gerar possíveis erros, já que estaremos decidindo com base em uma amostra e não em uma população. Observe no Quadro 1 as possíveis decisões que podemos tomar nesse caso e a consequência dessas decisões. Quadro 1 – Os erros em testes de hipóteses VERDADE Decisão H0 H1 H0 Não cometeu Erro Erro tipo II H1 Erro tipo I Não cometeu Erro Quando aceitamos H0 e essa é a hipótese verdadeira, não cometemos nenhum tipo de erro; da mesma forma quando rejeitamos H0 e essa é a decisão verdadeira. Porém, quando rejeitamos H0 e a hipótese verdadeira é H0, cometemos um erro que é classificado como do Tipo I; e quando aceitamos H0 e a decisão correta seria rejeitá-lo, cometemos um erro classificado como do Tipo II. As probabilidades de cometermos esses erros são as explicitadas abaixo: • a = Probabilidade (erro tipo I) = Probabilidade (Rejeitar H0 e H0 é verdade) 11 UNIDADE Testes de Hipótese • b = Probabilidade (erro tipo II) = Probabilidade (Aceitar H0 e H0 é falsa) A probabilidade de cometer o erro do tipo I (a) é determinada pelo pesquisador no início do experimento e esse é o critério de rejeição de H0. O valor de a é es- tipulado de maneira arbitrária pelo pesquisador e devemos saber de antemão que: quanto maior o valor atribuído, maior a chance de tomarmos uma decisão incor- reta; e se optarmos por um valor excessivamente pequeno, corremos o risco de nunca rejeitarmos o H0, mesmo que isso signifique uma decisão correta. De modo geral, podemos trabalhar com o seguinte critério: • a = 5% (0,05) para a maioria das situações • b = 1% (0,01) para situações onde o erro do tipo I leva a consequências muito graves, como aceitar que uma droga não possui efeitos colaterais, sendo que na verdade ela é letal. A partir da definição de a, podemos estabelecer uma região de aceitação e re- jeição de H0. No exemplo anterior, para a=5% (0,05), definiremos como região de rejeição de H0 a região onde a probabilidade de acontecer o evento seja inferior a 5%. Observe a Tabela 2. Tabela 2 – Distribuição das probabilidades de evento com n = 10 e P (probabilidade) = 0,50, com a delimitação das áreas de aceitação e rejeição de H0 para um alfa de 5% } Região de Aceitação de H 0 } Re giã o d e R eje içã o d e H 0 X número de curas Probabilidade de X 0 0,001 1 0,010 2 0,044 3 0,117 4 0,205 5 0,246 6 0,205 7 0,117 8 0,044 9 0,010 10 0,001 Repare que rejeitamos H0 para o conjunto de valores cuja probabilidade de ocor- rer seja menor do que 0,05 (5%). Na Tabela 2, a soma de 0,010 e 0,001 é 0,011 ou 1,1%; se acrescentarmos a probabilidade de 8 casos (0,044), teremos 0,055 ou 5,5%, que excedem a nossa regra de decisão de aceitar somente os valores com probabilidade abaixo de 5%. A nossa questão exemplo era: a droga nova é mais eficaz que a droga antiga? 12 13 Para um nível de significância de 5%, se testarmos essa droga em 10 indivídu- os, diremos que essa afirmação é verdadeira se ela for eficaz para 9 ou 10 indivídu- os. Veja que chamamos de nível de significância o valor de a que fixamos a priori. São passos necessários para a realização de um teste de hipóteses: • Formular as hipóteses; • Fixar a; • Determinar a região de aceitação/rejeição de H0; • Realizar o estudo, observar os resultados, calcular a estatística do teste; • Confrontar o valor observado da estatística do teste com a região de rejeição/ aceitação do teste; • Tomar a decisão; • Apresentar a conclusão. Alguns Testes de Hipótese Utilizados Rotineiramente na Pesquisa Biomédica Testes Paramétricos Mostraremosa seguir alguns testes paramétricos, ou seja, aqueles que exigem que determinados parâmetros estejam presentes para que o seu resultado tenha valor. Você deve se preocupar mais com a indicação do teste e a interpretação dos resultados do que propriamente com a maneira de proceder com os cálculos. Teste de T O teste de T é utilizado quando desejamos comparar as médias de duas amos- tras, que podem ser o mesmo conjunto de indivíduos onde os valores foram toma- dos antes e depois do tratamento; ou entre dois grupos, sendo um tratado e outro o grupo controle. Para aplicarmos o teste de T como um teste de hipótese em nossa pesquisa, as condições a seguir devem estar satisfeitas: • A variável deve ser quantitativa; • A variável deve ter distribuição normal; • A amostra deve ter uma distribuição próxima a normal. 13 UNIDADE Testes de Hipótese Estudaremos o 1º Caso, onde temos observações independentes. São obser- vações independentes quando estamos diante de dois grupos formados por indiví- duos distintos. Para utilizar esse teste, devemos seguir os seguintes passos: • Estabelecer o nível de significância (a); • Formular as hipóteses; • Calcular a média do grupo 1 e do grupo 2; • Calcular a variância de cada grupo; • Calcular a variância ponderada entre os dois grupos; • Calcular o valor de t utilizando a fórmula; • Comparar o t calculado com um valor da tabela de T utilizando como parâme- tro o valor de alfa e o número de graus de liberdade. A regra de decisão é: Se tcalculado>ttabela, a diferença entre as médias é considerada significativa para um nível de significância (α) previamente estabelecido. Cálculos: n: número de elementos de cada grupo s2: variância Variância ponderada (s2): n s n s n n 1 1 2 2 2 2 1 2 1 1 2 −( ) + −( ) + − Cálculo de t: x x s n n 2 1 2 1 2 1 1 − + Valor na Tabela de T: • Valores de a; • Graus de liberdade dado pela seguinte fórmula: GL = (n1 + n2 – 2). 14 15 Figura 2 – Tabela para o teste de T Estudaremos o 2º Caso, onde temos observações pareadas. São observações pareadas quando estamos diante de um grupo onde foram feitas duas observações. Para utilizar esse teste, devemos seguir os seguintes passos: • Deve-se encontrar a diferença de x (d); • Encontrar a média das diferenças d; 15 UNIDADE Testes de Hipótese • Encontrar a variância das diferenças; • Encontrar o valor de t. A regra de decisão é: Se tcalculado>ttabela, a diferença entre as médias é considerada significativa para um nível de significância (α) previamente estabelecido. Cálculos: X2: valores do grupo 2; X1: valores do grupo 1; S2: Variância; d barra: Média da diferença entre os valores de X1 e X2. Cálculo das diferenças e média das diferenças: d x x d d n = − =∑ 2 1 Variância das diferenças: S d d n n 2 2 1 = − ( ) − ∑∑ Valor de t para teste pareado: t d s n = 2 O valor da tabela de T deve ser procurado para n-1 graus de liberdade. Vamos ver dois exemplos: Exemplo 1 Duas dietas estão sendo comparadas e os resultados em perda de massa em Kg estão na Tabela 3. Decida se é possível dizer se a dieta 2 é mais eficiente do que a 1 para um nível de significância de 5%. 16 17 Tabela 3 Dieta 1 Dieta 2 12 15 8 19 15 15 13 12 10 13 12 16 14 15 11 12 13 Temos então dois grupos independentes: a=5% As hipóteses são: H D D H D D 0 2 1 2 1 1 : : = > perda de massa da dieta 2 maior do qque da dieta 1( ) =n1 10 n2=7 A Média da dieta 1 é de 12Kg e da dieta 2, é 15Kg. A Variância para a dieta 1 é de 4Kg2 e da dieta 2, é de 5 Kg2. Calculando a Variância ponderada, temos: S2 = 5 Kg2. Calculando o valor de t, temos: 2,72. Graus de liberdade = n1+n2–2 = 10+7-2 = 15. Procurando na tabela, a = 5% e GL = 15, encontramos o valor de: 2,13. A nossa regra de decisão diz: se o valor calculado de t (2,72) for maior do que o valor encontrado na tabela de t (2,13), então a diferença observada entre as mé- dias dos grupos 1 e 2 (12 e 15Kg) é estatisticamente significativa para um nível de significância de 5%. Então, para esse nível de significância, a dieta 2 fez os indivíduos perderem mais massa do que a dieta 1. Exemplo 2 Uma dieta está sendo analisada em um grupo de indivíduos. Os resultados de massa em Kg antes e após a dieta estão na Tabela 4. Decida se é possível dizer se a dieta 2 é mais eficiente do que a 1 para um nível de significância de 5%. 17 UNIDADE Testes de Hipótese Tabela 4 Antes da Dieta Depois da Dieta 77 80 62 58 61 61 80 76 90 79 73 69 86 90 59 51 88 81 Temos então amostras pareadas: a=5% As hipóteses são: H D D H D D depois antes depois antes 0 1 : : = < massa depois menorr do que antes observe que temos um único grupo ( ) =n 9( ) Calculamos a diferença de massa para cada indivíduo e a média obtida é: Tabela 5 Antes Depois Diferença 77 80 3 62 58 -4 61 61 0 80 76 -4 90 79 -11 73 69 -4 86 90 4 59 51 -8 88 81 -7 A Média da diferença é de −3,44Kg, os indivíduos perderam em média essa quantidade de massa após a dieta – para os cálculos, utilizaremos esse valor sem o sinal: 3,44 Kg. A Variância da diferença é de 25,03Kg2. Calculando o valor de t, temos: 2,06. Graus de liberdade = n−1 = 9−1 = 8. Procurando na tabela a = 5% e GL= 8, encontramos o valor de: 2,31. 18 19 A nossa regra de decisão diz: se o valor calculado de t (2,0,6) for maior do que o valor encontrado na tabela de t (2,31), então a diferença antes e depois (3,44Kg) é estatisticamente significativa para um nível de significância de 5%. Porém, como o valor de t é menor do que o da tabela, concluímos que para um nível de signifi- cância de 5%, a diferença observada não é estatisticamente significativa, ou seja, não podemos afirmar que essa dieta realmente faria indivíduos perderem massa. Testes Não Paramétricos Mostraremos a seguir alguns testes não paramétricos, ou seja, aqueles nos quais determinados parâmetros, como a normalidade, não estão presentes para que o seu resultado tenha valor. O aluno deve se preocupar mais com a indicação do teste e a interpretação dos resultados do que propriamente com a maneira de proceder com os cálculos. O teste de χ2 é utilizado quando desejamos comparar o resultado de amostras com variáveis qualitativas com um padrão pré-estabelecido, o que denominamos de resultado esperado. • A variável deve ser qualitativa; • Resultados apresentados em uma tabela de contingência com as proporções observadas; ou • Em uma lista de variáveis e proporção observada. No 1º Caso, temos o chamado teste χ2 para aderência. São observações de variáveis qualitativas que devem ser comparadas com um padrão esperado. No 2º Caso, para utilizar esse teste, devemos seguir os seguintes passos: • A partir de uma observação, calcular a frequência observada; • A partir dos totais, calcular a frequência esperada; • Calcular o valor do χ2; • Comparar o valor obtido com a tabela de distribuição de χ2. A regra de decisão é: Se χ2calculado> χ2tabela, a diferença entre o observado e o esperado é considerada signi- fi cativa para um nível de signifi cância (α) previamente estabelecido. Cálculos: c2= −( )Σ O E E 19 UNIDADE Testes de Hipótese O: proporção dos valores observados; E: proporção dos valores esperados; Graus de liberdade: r−1. Exemplo 1 A teoria de Mendel diz que a segregação dos genes em ervilhas ocorre na se- guinte proporção: 9 16 3 16 3 16 1 16 : : Um pesquisador repetiu o experimento e os resultados observados: Tabela 6 Sementes Frequência Amarelo Lisa 315 Amarelo Rugosa 101 Verde Lisa 108 Verde Rugosa 32 Total 556 As hipóteses ficam: H O E0 = ( ) Os dados observados são iguais aos dados esperados HH O E1 ≠ ( ) Os dados observados são diferentes aos esperados Para um total de 556 sementes, seguindo a segregação mendeliana, os resulta- dos esperados seriam: Tabela 7 Sementes Frequência Proporção Amarelo Lisa 312,75 9/16 Amarelo Rugosa 104,25 3/16 Verde
Compartilhar