Baixe o app para aproveitar ainda mais
Prévia do material em texto
Autor: Prof. Giovani Bravin Peres Colaboradores: Prof. Flávio Buratti Gonçalves Profa. Laura Cristina da Cruz Dominciano Bioestatística Aplicada à Biomedicina Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Professor conteudista: Giovani Bravin Peres Giovani Bravin Peres é bacharel em Ciências Biológicas - Modalidade Médica (Biomedicina) pela Escola Paulista de Medicina da Universidade Federal de São Paulo (EPM-Unifesp, 2009). É mestre (2012) e doutor em Ciências (2016) pela mesma instituição e especialista em Administração de Empresas pela Fundação Getulio Vargas (FGV, 2014). Atualmente, é professor titular da Universidade Paulista (UNIP) no Programa de pós-graduação em Patologia Ambiental e Experimental (Medicina Veterinária) e no curso de Biomedicina, responsável na graduação pelas disciplinas Bioestatística, Biofísica, Biologia Molecular e Bioquímica, e na pós-graduação pela disciplina Estatística Aplicada à Pesquisa. © Todos os direitos reservados. Nenhuma parte desta obra pode ser reproduzida ou transmitida por qualquer forma e/ou quaisquer meios (eletrônico, incluindo fotocópia e gravação) ou arquivada em qualquer sistema ou banco de dados sem permissão escrita da Universidade Paulista. Dados Internacionais de Catalogação na Publicação (CIP) P437b Peres, Giovani Bravin. Bioestatística Aplicada à Biomedicina / Giovani Bravin Peres. – São Paulo: Editora Sol, 2019. 208 p., il. Nota: este volume está publicado nos Cadernos de Estudos e Pesquisas da UNIP, Série Didática, ano XXV, n. 2-106/19, ISSN 1517-9230. 1. Estatística. 2. Amostragem. 3. Teste de hipóteses. I.Título. CDU 519.2 U503.16 – 19 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Prof. Dr. João Carlos Di Genio Reitor Prof. Fábio Romeu de Carvalho Vice-Reitor de Planejamento, Administração e Finanças Profa. Melânia Dalla Torre Vice-Reitora de Unidades Universitárias Prof. Dr. Yugo Okida Vice-Reitor de Pós-Graduação e Pesquisa Profa. Dra. Marília Ancona-Lopez Vice-Reitora de Graduação Unip Interativa – EaD Profa. Elisabete Brihy Prof. Marcelo Souza Prof. Dr. Luiz Felipe Scabar Prof. Ivan Daliberto Frugoli Material Didático – EaD Comissão editorial: Dra. Angélica L. Carlini (UNIP) Dra. Divane Alves da Silva (UNIP) Dr. Ivan Dias da Motta (CESUMAR) Dra. Kátia Mosorov Alonso (UFMT) Dra. Valéria de Carvalho (UNIP) Apoio: Profa. Cláudia Regina Baptista – EaD Profa. Betisa Malaman – Comissão de Qualificação e Avaliação de Cursos Projeto gráfico: Prof. Alexandre Ponzetto Revisão: Bruno Barros Elaine Pires Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Sumário Bioestatística Aplicada à Biomedicina APRESENTAÇÃO ......................................................................................................................................................7 INTRODUÇÃO ...........................................................................................................................................................7 Unidade I 1 INTRODUÇÃO À ESTATÍSTICA .........................................................................................................................9 1.1 O propósito da estatística ....................................................................................................................9 1.2 O processo de pesquisa ...................................................................................................................... 13 1.2.1 Variáveis ...................................................................................................................................................... 15 1.2.2 Escala de medição .................................................................................................................................. 17 1.2.3 Erro ............................................................................................................................................................... 19 1.2.4 População e amostra ............................................................................................................................. 20 1.3 Termos estatísticos............................................................................................................................... 20 2 AMOSTRAGEM .................................................................................................................................................. 24 2.1 Técnicas de amostragem ................................................................................................................... 24 3 DISTRIBUIÇÃO DE FREQUÊNCIA ................................................................................................................ 36 3.1 Organização e apresentação de dados ........................................................................................ 36 3.2 Formatos das distribuições de frequência.................................................................................. 45 4 MEDIDAS-RESUMO ........................................................................................................................................ 50 4.1 Medidas de posição central.............................................................................................................. 50 4.2 Medidas de variabilidade (ou de dispersão) .............................................................................. 55 Unidade II 5 INDO ALÉM DOS DADOS .............................................................................................................................. 72 5.1 Distribuição amostral e o teorema central do limite ............................................................. 72 5.2 Calculando intervalos de confiança ............................................................................................. 78 5.3 Probabilidade ......................................................................................................................................... 87 6 TESTES DE HIPÓTESES PARA UMA E DUAS AMOSTRAS................................................................... 90 6.1 Introdução aos testes de hipóteses .............................................................................................. 90 6.2 Teste z para uma amostra ................................................................................................................. 93 6.3 Teste t para uma amostra ...............................................................................................................101 6.4 Teste t para duas amostras independentes .............................................................................109 6.4.1 Teste t para duas amostras independentes com variâncias desiguais ........................... 126 6.5 Teste t para duas amostras pareadas .........................................................................................128 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 7 TESTES DE HIPÓTESES PARA TRÊS OU MAIS AMOSTRAS ..............................................................141 7.1 Análise de variância (ANOVA) de um fator ..............................................................................141 8 TESTES DE HIPÓTESES PARA VARIÁVEIS CATEGÓRICAS ................................................................156 8.1 Teste do chi quadrado ......................................................................................................................156 7 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 APRESENTAÇÃO Atualmente, a sociedade está tomada por números. Eles aparecem em todos os lugares: de manchetes jornalísticas, indicando o índice de aprovação do presidente, a programas de esporte, que discutem as chances de determinada equipe de futebol se tornar campeã. Nas áreas das ciências, o cenário não é distinto,somos bombardeados por números e é importante estar apto a decifrá-los. Novas tecnologias têm fornecido quantidades enormes de dados, particularmente na área molecular, e estão abrindo caminho para novos campos de pesquisa. Entretanto, com essas novas tecnologias, surgem novos desafios e necessidades. Grandes quantidades de informações precisam ser organizadas, apresentadas e compreendidas. O objetivo desta disciplina é bastante concreto: fornecer ferramentas descritivas e de análise de dados que permitam uma melhor compreensão de eventos e estimação de probabilidades, para que sejam tomadas decisões a partir disso. Trata-se de uma ciência básica que fornece subsídios e ferramentas para outras grandes ciências da matriz curricular do curso de Biomedicina, sendo, portanto, de grande importância para a formação e atuação profissional do biomédico. Assim, ao final deste estudo, o(a) aluno(a) deverá ser capaz de analisar dados estatísticos resultantes de pesquisas, interpretar e construir gráficos, executar testes estatísticos e identificar a relação entre variáveis. INTRODUÇÃO A estatística é um ramo da matemática, portanto, para entendê-la completamente, é necessário percorrer várias equações. Alguns campos da estatística simplesmente não podem ser plenamente compreendidos sem o domínio adequado de cálculo e álgebra matricial. Mas não há motivo para desespero. É possível aprender a usar testes estatísticos e a interpretar resultados sem o domínio completo de toda a matemática atrás deles. É possível aprender muito sobre estatística sem mergulhar em cálculos profundos e em equações complexas. Este é o objetivo deste livro-texto, que apresentará poucas equações, com o objetivo de melhor ilustrar conceitos. Tal situação é bastante comum na ciência: é praticamente impossível para os cientistas dominarem todas as áreas do saber em todas as ferramentas que utilizam. É possível a um profissional ser capaz de interpretar os resultados de um medidor de pH (cujos valores indicam a acidez de determinada solução) ou de um contador de cintilação (que mede a radioatividade em um meio), mesmo sem saber em mínimos detalhes como esses equipamentos funcionam. Pense no seu dia a dia: você tem pleno conhecimento do funcionamento dos equipamentos ao seu redor? Sabe exatamente como um motor a combustão funciona? Entretanto, é muito provável que todos os dias você necessite de algum meio de transporte. Ainda sem total domínio da termodinâmica envolvida no funcionamento de um motor, você sabe que o equipamento necessita de manutenção periódica, a condução do veículo demanda capacitação e habilitação e seu uso requer medidas de proteção. Analogamente, em um laboratório, você se deparará com inúmeros reagentes, com os quais serão preparadas soluções necessárias à condução de experimentos. Mesmo sem saber por qual processo de síntese ou de purificação passaram tais reagentes, você saberá, dentro de sua necessidade, quais deverão ser combinados entre si nas proporções e condições adequadas. O mesmo raciocínio pode ser aplicado à bioestatística. 8 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Neste livro-texto, você verá uma introdução à estatística, com apresentação de conceitos fundamentais e informações sobre estatística descritiva; serão abordadas noções de probabilidade e de inferência estatística, com destaque aos testes de hipóteses mais utilizados na área biomédica; ao final, há um apêndice contendo tabelas importantes para os cálculos que serão apresentados ao longo do texto. 9 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA Unidade I 1 INTRODUÇÃO À ESTATÍSTICA 1.1 O propósito da estatística A estatística é a ciência que tem por objetivos planejar e otimizar experimentos, orientar sua condução, coletar, descrever e analisar suas respostas, retirando o maior número possível das informações nelas contidas. Técnicas estatísticas foram desenvolvidas porque os seres humanos são limitados no processamento de informações. Dê a uma pessoa um conjunto muito grande de números de uma só vez e, provavelmente, ela focará em apenas alguns desses – chamarão a atenção os valores mais discrepantes, não os mais típicos. A estatística traz ordem ao caos. Veremos alguns dados retirados dos boletins epidemiológicos da Secretaria de Vigilância em Saúde − Ministério da Saúde, mostrando o número de casos de dengue no ano de 2017. A tabela a seguir está desorganizada, sendo difícil encontrar um estado específico e avaliar em qual houve o maior/menor número de casos reportados da doença ou ainda estimar a média nacional. Tabela 1 – Número de casos prováveis e casos confirmados de dengue em 2017, por unidade da Federação, organizados de forma aleatória Unidade da Federação Casos prováveis Casos confirmados Rio de Janeiro 10.592 83 São Paulo 13.211 82 Rio Grande do Sul 227 1 Santa Catarina 256 0 Amapá 886 11 Amazonas 3.984 16 Ceará 40.604 119 Paraíba 3.837 19 Paraná 4.195 10 Bahia 9.819 17 Roraima 316 1 Minas Gerais 28.779 140 Piauí 5.184 11 Sergipe 609 2 Alagoas 2.930 15 Rondônia 2.460 5 Rio Grande do Norte 7.311 20 Mato Grosso do Sul 2.112 36 10 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I Pará 7.813 9 Espírito Santo 7.019 115 Maranhão 7.049 53 Pernambuco 9.043 52 Distrito Federal 4.210 103 Mato Grosso 8.977 18 Tocantins 5.077 102 Acre 2.124 1 Goiás 63.430 1.820 Adaptada de: Brasil (2018a). Um arranjo desorganizado não é muito útil. Se utilizarmos uma mínima ordenação – digamos, por ordem alfabética do nome dos estados – como disposto na tabela seguinte, encontrar uma determinada unidade da Federação se torna uma tarefa muito mais fácil. Tabela 2 – Número de casos prováveis e casos confirmados de dengue em 2017, por unidade da Federação, em ordem alfabética Unidade da Federação Casos prováveis Casos confirmados Acre 2.124 1 Alagoas 2.930 15 Amapá 886 11 Amazonas 3.984 16 Bahia 9.819 17 Ceará 40.604 119 Distrito Federal 4.210 103 Espírito Santo 7.019 115 Goiás 63.430 1.820 Maranhão 7.049 53 Mato Grosso 8.977 18 Mato Grosso do Sul 2.112 36 Minas Gerais 28.779 140 Pará 7.813 9 Paraíba 3.837 19 Paraná 4.195 10 Pernambuco 9.043 52 Piauí 5.184 11 Rio de Janeiro 10.592 83 Rio Grande do Norte 7.311 20 Rio Grande do Sul 227 1 Rondônia 2.460 5 Roraima 316 1 11 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA Santa Catarina 256 0 São Paulo 13.211 82 Sergipe 609 2 Tocantins 5.077 102 Adaptada de: Brasil (2018a). Já a tabela seguinte, por outro lado, apresenta os dados ordenados de forma decrescente em relação ao número de casos confirmados de dengue no período. Este tipo de ordenação nos chama atenção e permite algumas extrapolações imediatas, tais como: por que não houve nenhum caso confirmado de dengue em 2017 em Santa Catarina? Por que Goiás foi o estado com o maior número de casos confirmados? Tabela 3 – Número de casos prováveis e casos confirmados de dengue em 2017, por unidade da Federação, em ordem decrescente de casos confirmados Unidade da Federação Casos prováveis Casos confirmados Goiás 63.430 1.820 Minas Gerais 28.779 140 Ceará 40.604 119 Espírito Santo 7.019 115 Distrito Federal 4.210 103 Tocantins 5.077 102 Rio de Janeiro 10.592 83 São Paulo 13.211 82 Maranhão 7.049 53 Pernambuco 9.043 52 Mato Grosso do Sul 2.112 36 Rio Grande do Norte 7.311 20 Paraíba 3.837 19 Mato Grosso 8.977 18 Bahia 9.819 17 Amazonas 3.984 16 Alagoas 2.930 15 Amapá 886 11 Piauí 5.184 11 Paraná 4.195 10 Pará 7.813 9 Rondônia 2.460 5 Sergipe 609 2 Acre 2.124 1 Rio Grande do Sul 227 1 Roraima 316 1 Santa Catarina 256 0 Adaptada de: Brasil (2018a). 12 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I Outra forma de sumariaros dados é mostrada na tabela seguinte, organizando a informação pelas regiões brasileiras. Esse tipo de ordenação nos permite ter uma ideia da diferença geográfica do número de casos de dengue no ano de 2017. Todas as três tabelas (tabelas 2, 3 e 4) ordenam os dados diferentemente e respondem a diferentes questionamentos. A estatística envolve a organização e a sumarização de informações para que perguntas sejam respondidas. Tabela 4 – Número de casos prováveis e casos confirmados de dengue em 2017, por unidade da Federação, por regiões brasileiras Região/unidade da Federação Casos prováveis Casos confirmados Norte 22.660 145 Acre 2.124 1 Amapá 886 11 Amazonas 3.984 16 Pará 7.813 9 Rondônia 2.460 5 Roraima 316 1 Tocantins 5.077 102 Nordeste 86.386 308 Alagoas 2.930 15 Bahia 9.819 17 Ceará 40.604 119 Maranhão 7.049 53 Paraíba 3.837 19 Pernambuco 9.043 52 Piauí 5.184 11 Rio Grande do Norte 7.311 20 Sergipe 609 2 Sudeste 59.601 420 Espírito Santo 7.019 115 Minas Gerais 28.779 140 Rio de Janeiro 10.592 83 São Paulo 13.211 82 Sul 4.678 11 Paraná 4.195 10 Rio Grande do Sul 227 1 Santa Catarina 256 0 Centro-oeste 78.729 1.977 Goiás 63.430 1.820 Mato Grosso 8.977 18 Mato Grosso do Sul 2.112 36 Distrito Federal 4.210 103 Brasil 252.054 2.861 Adaptada de: Brasil (2018a). 13 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA 1.2 O processo de pesquisa Como responder a uma pergunta cientificamente? De modo bem geral, podemos dizer que a essência da ciência é a observação e que seu objetivo básico é a inferência. A estatística pode ser dividida em três grandes partes: a estatística descritiva, que cuida da descrição tabular e gráfica dos dados obtidos experimentalmente; probabilidade e estatística matemática, que estudam a ocorrência dos eventos e das variáveis que os descrevem; e inferência estatística, dedicada à estimação por intervalo e por região, bem como aos testes de hipóteses sobre parâmetros populacionais. Cientistas usam o chamado método científico para testar suas teorias e hipóteses. A partir de uma observação, uma pergunta é gerada; esse questionamento pode surgir a partir de uma trivialidade ou pode ser baseado em registros preexistentes. Dessa observação inicial são geradas explicações ou teorias, das quais podem ser criadas predições ou hipóteses. É nesse ponto que os dados se tornam importantes, pois, para testar hipóteses, são necessários dados relevantes. Para coletar dados, são identificadas as variáveis – características medidas pelos investigadores. Elas são chamadas variáveis por uma simples razão: elas variam. Altura, massa corporal, frequência cardíaca e níveis plasmáticos de LDL colesterol são exemplos de variáveis em uma pesquisa hipotética. Em qualquer grupo de pessoas haverá diferenças nessas variáveis: indivíduos diferem quanto à altura e massa corporal, alguns possuem frequência cardíaca de repouso mais baixa ou mais alta e nem todos possuem os mesmos níveis de LDL colesterol no sangue. Os dados coletados são, então, analisados e essa análise poderá indicar se os resultados obtidos apoiam a teoria proposta ou se será necessário modificar a explicação inicial. Dados Identificação das variáveis Geração de hipóteses Coleta de dados para testar a teoria Análise dos dados Geração de uma teoria Observação inicial (pergunta de pesquisa) Mensuração das variáveis Gráficos Modelo Figura 1 – O processo de pesquisa De tal forma, os processos de coleta de dados, análise e geração de teorias estão intrinsicamente ligados: teorias levam à coleta de dados/análises e essa coleta ajuda a formular teorias. Imagine que o dono de um gato de estimação ficou intrigado ao observar que seu animalzinho estava prestando atenção em um documentário sobre aves na televisão. Nesse instante surge uma pergunta: 14 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I será que gatos realmente prestam atenção na televisão? Nosso observador possui poucos dados para responder a essa pergunta, afinal de contas, ele possui apenas um único gato, mas a proposição poderia ser avaliada conduzindo o método científico. A partir de sua pergunta de pesquisa, uma explicação racional – ou teoria – será proposta e posta à prova. Felinos são predadores natos, inclusive os domesticados, e aves podem ser suas potenciais presas. O olho humano é capaz de gerar percepção de fluidez com imagens em movimento a partir de 20 quadros por segundo (ou fps, do inglês frames per second), enquanto olhos de outros animais, que evoluíram para caçar, dependem de velocidades mais elevadas para que se gere percepção de continuidade (MILLER; MURPHY, 1995; CAREY, 2018). Como os equipamentos mais modernos de televisão, em sua maioria, atingem velocidades de 120 ou 240 fps – acima dos tradicionais 50-60 fps dos televisores tradicionais –, é possível imaginar que os animais domésticos consigam observar televisores de alta resolução (HD). A partir desta explicação, hipóteses podem ser propostas para avaliar se a teoria realmente é adequada. Veremos, mais adiante, que um modelo bastante utilizado é o de proposição de duas hipóteses que se anulam mutuamente (diga-se, por exemplo, “gatos prestam atenção na televisão” e “gatos não prestam atenção na televisão”), logo, se uma hipótese tiver uma maior chance de estar correta, a outra, por sua vez, não estará. Com o levantamento das hipóteses será delineada a condução experimental, identificando-se quais variáveis serão registradas no estudo. Imaginemos que um grupo grande de gatos será colocado, um de cada vez, em um ambiente controlado (sala experimental), simulando uma sala de estar. Nesse ambiente, após a adaptação do animal, câmaras registrarão seu movimento e, assim, poderemos quantificar quanto tempo ele permaneceu atento, encarando o televisor em que passava um documentário sobre pássaros. Após a coleta de dados e análise, conclusões poderão ser tomadas, apontando se os resultados obtidos apoiam a teoria inicialmente proposta ou se será necessário modificar a explicação inicial. Saiba mais Para saber mais sobre a visão de animais e sua relação com as televisões, leia: CAREY, T. Why Britain’s cats and dogs have turned into couch pawtatoes. Daily Mail, Dec. 2018. Disponível em: <https://www. dailymail.co.uk/femail/article-6477343/New-HD-TVs-twice-powerful- used-mean-pets-FINALLY-watch-telly.html>. Acesso em: 30 abr. 2019. MILLER, P. E.; MURPHY, C. J. Vision in dogs. Journal of the American Veterinary Medical Association, v. 207, n. 12, p. 1623-1634, Dec. 1995. Proposições científicas devem ser construídas de forma a sempre poderem ser testadas, isto é, a escolha das palavras é importante e devem sempre ser postas de forma clara e objetiva. Assim, afirmativas do tipo “os Beatles são a melhor banda de todos os tempos” ou “a pizza de São Paulo é a 15 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA mais gostosa” não podem ser confirmadas experimentalmente; a melhor banda ou pizza mais gostosa denotam subjetividade. Por outro lado, colocações como “a prática de exercício físico aeróbico aumenta lipoproteínas de alta densidade ligadas ao colesterol” ou “relações sexuais aumentam os níveis de dopamina” são proposições que podem ser testadas, assumindo-se disposição dos materiais e métodos necessários para mensuração das variáveis. Em alguns casos, com a reestruturação das palavras, é possível transformar uma proposição não científica. Digamos que, ao imaginar que os Beatles sejam a melhor banda de todos os tempos, um pesquisador desejava avaliar seu sucesso quanto ao número de discos vendidos ou quanto ao número de semanas com sucessos emplacados nas principais rádios. Perceba que essas reestruturações transformam a proposição inicial em algo objetivo, mensurável: “são os Beatles a bandaque mais vendeu discos?” ou “são os Beatles a banda com mais semanas emplacando trilhas de sucesso nas rádios?”. 1.2.1 Variáveis Para testar hipóteses, precisamos mensurar variáveis. Variáveis são elementos que podem mudar ou variar, por exemplo, entre pessoas (altura, massa corporal), locais (taxa de analfabetismo, taxa de desemprego) ou ainda ao longo do tempo (número de leucócitos, número de horas de sono). A maioria das hipóteses pode ser expressa em termos de duas variáveis: pense em uma como causa e na outra como consequência. Por exemplo, na afirmação “fumar causa câncer de pulmão”, fumar é a causa e câncer de pulmão é a consequência. Ambas são variáveis: para a causa, poderíamos pensar em diferentes hábitos (fumar cigarro, charuto, cachimbo, narguilé), e, como consequência, esses hábitos causarão diferentes tipos de danos. Uma variável que possa ser a causa é conhecida em estatística como variável independente, já a variável que pensamos ser a consequência (ou efeito) é chamada de variável dependente. Muitas perguntas científicas são formuladas a partir da seguinte construção: será que existe efeito da variável independente sobre a variável dependente? Imaginemos uma pesquisa envolvendo pacientes diabéticos que investigue o efeito do controle da glicemia plasmática sobre a função renal: o controle da glicemia plasmática seria a variável independente (causa), enquanto a função renal, a variável dependente (consequência). Exemplo de aplicação Exemplo 1 Se retomarmos o exemplo “são os Beatles a banda que mais vendeu discos?”, qual seria a variável dependente e qual seria a variável independente? Na pergunta anterior, o número de discos vendidos é uma causa ou consequência da banda? Observe e pense de que forma a pergunta faria mais sentido: existe efeito da banda sobre o número de discos vendidos ou existe efeito do número de discos vendidos sobre a banda? 16 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I Resolução A primeira proposição faz muito mais sentido do que a segunda, pois, variando o tipo de banda, seria de se esperar, como consequência, variação no número de discos vendidos. Logo, banda é a variável independente (causa), enquanto número de discos, a variável dependente (consequência). Variáveis podem ser classificadas, ainda, como categóricas (qualitativas ou atributos) ou numéricas (quantitativas). Uma variável categórica é dividida em categorias. Por exemplo, uma mulher pode estar grávida ou não grávida. Não há meio termo, não existe meio grávida. Em uma mesma unidade de tempo, um indivíduo não pode ser classificado, simultaneamente, em mais de uma categoria daquela variável. Se tomarmos a classificação segundo a Organização Mundial da Saúde quanto ao Índice de Massa Corporal (IMC), observamos que valores abaixo ou iguais a 18,4 são considerados abaixo do peso; entre 18,5 e 24,9, peso normal; entre 25,0 e 29,9, sobrepeso; e acima de 30, obesidade. Logo, um indivíduo classificado como abaixo do peso não pode pontuar em duas categorias simultaneamente, visto que os critérios de classificação são objetivos. Assim, as categorias de uma variável qualitativa recebem nomes que as designam. Por exemplo, de acordo com as leis brasileiras, na variável estado civil, observam-se as categorias solteiro(a), casado(a), separado(a), divorciado(a) e viúvo(a). Em determinadas circunstâncias, números podem ser atribuídos como códigos (por exemplo, 1 = solteiro, 2 = casado e assim por diante), entretanto se ressalta que esses números são arbitrários e não deverão ser entendidos de forma quantitativa (uma pessoa casada não vale o dobro de uma pessoa solteira, por lhe ter sido atribuído o número 2). Dessa forma, essas variáveis categóricas são ditas nominais. Quando categorias são ordenadas, a variável categórica é conhecida como ordinal. Dados ordinais não dizem apenas a frequência de ocorrência de cada categoria, mas também dão importância para a ordem do acontecimento. Ao final de um campeonato automobilístico, por exemplo, os pilotos foram distribuídos em categorias conforme seu desempenho – primeiro, segundo e terceiro. Essas categorias estão ordenadas. Sabemos que quem ficou em primeiro foi melhor do que quem ficou em segundo, que, por sua vez, foi melhor do que quem ficou em terceiro. Não sabemos quão melhor quem ficou em primeiro foi em relação ao segundo (quantos pontos, por exemplo). Comumente, em pesquisa de opinião, deparamo-nos com perguntas cujas respostas são categorias de posicionamento do tipo discordo fortemente, discordo parcialmente, neutro, concordo parcialmente, concordo fortemente. Observe a gradação entre as categorias dessa variável ordinal. Uma variável numérica descreve quantidade e, portanto, seus possíveis valores são descritos por números. Elas podem ser classificadas em dois tipos: discretas, quando assumem um número determinado de valores possíveis, como, por exemplo, quando descrevem situações que envolvem contagens, e contínuas, quando a mensuração ocorre em escala que assume continuidade em qualquer nível de precisão. A distinção entre variáveis numéricas discretas e contínuas pode ser confusa em alguns momentos. Por exemplo, por vezes assumimos valores discretos para expressar variáveis numéricas contínuas, como idade. Dificilmente alguém responde à pergunta “qual a sua idade?” com um valor fracionado de anos (23,2 anos, por exemplo). Outras vezes, há tendência em tratar uma variável numérica discreta como contínua. Imagine que, em certo estudo sobre medicina do sono, a seguinte 17 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA afirmativa se destaca: “a média de episódios de insônia por ano, em mulheres na faixa dos 30, aumentou de 10,6 para 19,8”. Essa descrição assume que a variável é contínua, quando na verdade não é: ninguém pode possuir 19,8 episódios de insônia em um ano, pode haver 19 ou 20, mas não um valor fracionado. 1.2.2 Escala de medição As técnicas estatísticas são realizadas com dados coletados, ou seja, números. Ainda que os números possam parecer todos iguais entre si, existem diferentes tipos, que variam na quantidade de informação que eles contêm. Os estatísticos dividem os números em quatro escalas de medição: nominal, ordinal, intervalar e de razão (ou proporcional). À medida que observamos hierarquicamente essas escalas, os números se tornam mais complexos e contêm mais informação. 1 1 2 Nominal Ordinal Intervalar De razão 2 3 3 0 0 CHEGADA Figura 2 – As quatro escalas de medição A escala de medição nominal é a mais simples de todas, pois os indivíduos são simplesmente distribuídos em categorias. Os números escolhidos para representar as categorias são arbitrários e não fornecem informação quantitativa, portanto não podemos realizar operações aritméticas. Elementos serão assinalados com os mesmos números caso compartilhem as mesmas qualidades. Por exemplo, os participantes de um estudo poderiam ser classificados em brancos (1), pardos (2), negros (3), amarelos (4) ou indígenas (5) quanto a sua cor ou raça, segundo as categorias de classificação do Instituto Brasileiro de Geografia e Estatística (IBGE). Se dois casos receberem números distintos, esses números refletem uma diferença no atributo que está sendo medido. Se, além disso, eles indicarem a direção da diferença (qual caso tem mais de um atributo ou qual caso tem menos daquele atributo), estaremos diante de outro tipo de escala de medição, a ordinal – quando os dados têm propriedades nominais e podem ser usados para ordenar as observações nessa variável. Por exemplo, tomemos os três maiores valores de casos confirmados de dengue em 2017 na tabela 3, respectivamente para os estados de Goiás (1.820), Minas Gerais (140) e Ceará (119). Observe que a diferença entre o primeiro e o segundo lugares é de 1.680 casos, já entre o segundo e o terceiro lugares, 21 casos. Independentementeda magnitude da diferença entre o número de casos confirmados de dengue, a diferença de posições entre Goiás e Minas Gerais é igual a 1; entre Minas Gerais e Ceará também é igual a 1. Uma escala de medição ordinal não fornece informação acerca de quão distantes esses postos estão. Também, aqui, não faz sentido qualquer operação aritmética. 18 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I Em uma escala de medição intervalar, podemos dizer quando uma medida é igual ou diferente, maior/menor e quão maior/menor do que outra. Uma escala intervalar permite dizer quão distantes dois valores estão, porque existe igualdade entre as unidades de medição. Por exemplo, se pensarmos em uma escala de temperatura como graus Celsius, a distância entre 30 °C e 35 °C é a mesma distância que entre 100 °C e 105 °C. Entretanto, essa escala possui um zero arbitrário, que não significa ausência do atributo sendo mensurado. Ao observar um termômetro marcando 0 °C, seria tolice afirmar que não há temperatura naquele registro. Para essa escala, já podemos fazer operações aritméticas. A escala de medição para uma variável é de razão quando os dados têm propriedades intervalares e faz sentido dividir duas observações. Ou seja, dadas duas medidas nessa escala, podemos dizer se são iguais ou se são diferentes, qual é maior/menor, quão e quantas vezes maior/menor do que a outra. A diferença com a escala intervalar é que agora existe um zero absoluto. Altura, massa e velocidade são exemplos de variáveis cujas escalas de medição são de razão. Uma pergunta frequente é “como variáveis, como altura e massa, podem possuir valores de zero absoluto?”. Ninguém nunca terá 0 cm de altura, tampouco 0 g de massa; logo, esses valores nunca serão atribuídos a um elemento. Mas não é isso que um zero absoluto significa. Um ponto zero absoluto representa que o zero daquela escala corresponde à ausência daquela característica. Observação Se o zero em uma escala de razão significa ausência do atributo em questão, parece ser impossível haver números negativos nesse tipo de escala. Entretanto é, sim, possível. Qualquer um que já tenha entrado em cheque especial em sua conta bancária e tenha observado um balanço negativo já experimentou este fenômeno. O quadro a seguir apresenta um resumo das informações descritas até o momento. Quadro 1 – Escala de medição: informação contida nos números Escala de medição Igual/diferente Direção da diferença (maior/menor) Quantidade da diferença (quão maior/menor) Proporção (quantas vezes maior/menor) Nominal X Ordinal X X Intervalar X X X De razão X X X X Adaptada de: Corty (2016). 19 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA 1.2.3 Erro Uma coisa é mensurar uma variável, outra é medi-la com precisão. Em uma situação ideal, deseja-se que as medições sejam calibradas de tal forma que os valores possuam o mesmo significado ao longo do tempo e entre diferentes situações. Tomemos o exemplo da variável massa: espera-se que a massa de 1 kg de arroz seja a mesma independentemente de quem meça ou de onde estejamos medindo. Algumas variáveis podem ser medidas diretamente (massa, altura, circunferência abdominal), mas em outros casos são utilizadas medidas indiretas para registrar uma variável (escores obtidos em questionários ou medições de analitos com base na absorbância em determinado comprimento de onda, por exemplo). Quando se comparam resultados de diferentes autores, na literatura científica, para o registro de uma mesma variável, por vezes são observados valores discrepantes. Explicações racionais para esses acontecimentos podem estar em diferentes metodologias adotadas ou na calibragem adequada dos equipamentos envolvidos. Geralmente haverá alguma discrepância entre o valor real do que se mede e os números utilizados para representar essa medição. Essa variação é conhecida como erro de medição. Imagine que, em determinada suspensão de células, contendo exatamente 8,0x104 células/ml, quatro medições independentes foram realizadas a partir da mesma suspensão, utilizando-se um hemocitômetro. Como resultado de cada contagem, obtiveram-se os valores de 7,5x104, 7,0x104, 9,0x104 e 8,5x104 células/ml, respectivamente. Se a suspensão possuía exatamente 8,0x104 células/ml, por que cada um dos registros foi diferente do valor esperado? Justamente por conta do erro. Note que, se tirarmos a média aritmética de todas as observações, será obtido o valor de 8,0x104 células/ml. Por essa razão, é comum, na ciência, não se confiar em um único registro, sendo realizadas repetições para o registro de um mesmo indivíduo em determinada variável. Uma forma de assegurar que o erro de medição seja mínimo é determinar propriedades daquela medição que nos dê confiança no registro. Uma dessas propriedades se chama validade, ou seja, a certeza de que o instrumento que registra o valor para a variável em estudo realmente registre aquilo que se pesquisa. Um sensor que registre a condutância da pele realmente registra a condutância da pele, entretanto, se esse equipamento for utilizado para inferir outra coisa (por exemplo, uso da condutância da pele para medir ansiedade), esse registro indireto somente será válido se não houver nenhum outro fator, além do que estamos interessados em medir, que possa influenciá-lo. A validade é condição importante de uma medida, entretanto não é a única necessária. Uma segunda propriedade é a confiabilidade ou precisão, ou seja, a capacidade de obter os mesmos resultados dentro das mesmas condições. Para ser válido, um instrumento precisa primeiro ser confiável. A forma mais fácil de assegurar a confiabilidade é efetuar a medição mais de uma vez: um instrumento confiável produzirá resultados consistentes (assumindo-se que a variável em questão não se altere ao longo do tempo). Um glicosímetro portátil é um exemplo de equipamento importante no automonitoramento da glicemia plasmática em pacientes diabéticos. É sabido que a glicemia plasmática varia ao longo do dia; contudo, se repetíssemos a medição em um intervalo curto de tempo, esperaríamos resultados precisos no registro da glicemia, com pouca variação entre uma medição e outra. 20 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I 1.2.4 População e amostra Suponha que uma empresa pretenda lançar um novo produto, e, para tal, uma pesquisa de mercado será efetuada para avaliar a opinião de prováveis futuros consumidores. Seria necessário que todos os habitantes daquela região consumissem o novo produto para concluir algo sobre sua aceitabilidade? Sem grandes esforços, é possível deduzir que não, tampouco seria possível, em virtude dos custos e do tempo envolvidos na abordagem de todos os habitantes. População é o conjunto de todos os indivíduos ou elementos que compartilham um grupo de características comuns. Note que, por sua própria natureza, a população é, em geral, intangível. Ainda que os critérios da população sejam cuidadosamente definidos (por exemplo, digamos que o produto se destine a mulheres adultas, com cabelos loiros, ondulados e de natureza potencialmente oleosa) dificilmente um pesquisador terá a capacidade de recrutar todas as pessoas que atendam às características estipuladas. Como consequência, pesquisas quase sempre são conduzidas com subconjuntos da população alvo, conhecidos como amostras. Uma amostra sempre será menor do que a população, não obstante ela ser representativa, pois é selecionada sob certas regras e, de modo confiável, serve para estimar as informações necessárias ao pesquisador. Quando for possível estudar todos os membros da população, estaremos diante de um censo. População Amostra Figura 3 – Amostragem a partir de uma população 1.3 Termos estatísticos Os dados de uma amostra ou população geralmente são reduzidos a um único valor (por exemplo,a média aritmética), para resumir a informação de um conjunto de elementos. Esse número recebe nomes diferentes, dependendo se ele é usado para caracterizar uma amostra ou uma população. Se o número for uma característica da amostra, ele é chamado de estatística. Já se ele descrever uma característica da população, ele é chamado de parâmetro. A diferença entre estatística e parâmetro é importante, logo, diferentes abreviações indicam se um valor se refere a uma amostra ou a uma população. Estatísticos usam, em geral, letras latinas 21 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA para simbolizar estatísticas e letras gregas para simbolizar parâmetros. Quando um pesquisador calcula a média de uma amostra, estamos diante de uma estatística, simbolizada geralmente por M ou X (lê-se “x-barra”). Para o parâmetro de média populacional, utiliza-se a letra grega µ (lê-se “mi”). Este livro-texto procurará simplificar a descrição simbólica de estatísticas e parâmetros, portanto não se preocupe em decorar, mas em compreender os elementos à medida que forem apresentados. Entretanto, ao consultar fontes externas, é importante ter em mente a informação aqui apresentada. Uma estatística descritiva é uma informação-resumo a partir de um conjunto de dados. Ela envolve sua redução a algum valor significativo que descreva suas características. Se, em uma sala de aula, alguém reportasse que 40% de sua turma é composta por homens, isso seria um exemplo de estatística descritiva. Uma estatística inferencial utiliza uma amostra para extrapolar uma conclusão acerca de uma população maior. Por exemplo, imagine que uma amostra de estudantes foi avaliada e, por meio da escala de resiliência para adultos, obteve-se a média do escore. Uma afirmativa como “a média da escala de resiliência para competências sociais foi de 6,08” seria um exemplo de estatística descritiva. Mas uma afirmação construída de outra forma, como “estudantes de graduação possuem, em média, índice de resiliência para competências sociais de 6,08”, seria uma estatística inferencial. Os dados com os quais os estatísticos trabalham quase sempre são números. Quando nos referimos à variável que os números representam, ela em geral é abreviada pela letra X. Se medirmos a idade de um grupo de estudantes, poderíamos representar a variável como “X = idade”. Para informar o número de elementos de uma população, geralmente se usa a letra maiúscula N; a letra minúscula n representa o número de entidades da amostra. Quando elementos são somados entre si, a letra grega maiúscula sigma (Σ) é usada como sinal de somatório. Assim, em uma amostra com n = 5 indivíduos, cujas idades são X = {19, 20, 20, 23, 24}, X∑ significa que deveremos somar todos os valores de X: X 19 20 20 23 24 106∑ = + + + + = . Seguir a ordem das operações em uma equação é importante para chegar ao resultado correto. Lembre-se de que: • a operação dentro de parênteses ou colchetes deve ser efetuada em primeiro lugar; • em seguida lidamos com expoentes (números elevados a uma potência, como 22, ou radicais como 9 ); • a próxima etapa é prosseguir com multiplicações ou divisões, na ordem em que aparecerem da esquerda para a direita; • finalmente, são efetuadas as adições e subtrações, novamente na ordem em que aparecerem da esquerda para a direita. Para não se esquecer, observe a ordem: parênteses, expoentes, multiplicação, divisão, adição e subtração (que gera o acrônimo PEMDAS). 22 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I Exemplo de aplicação Exemplo 2 Observando o seguinte problema, prossiga com o cálculo: ( ) 27 3 3 2 5 4 3 9+ × ÷ + − × × Resolução Primeiro devemos lidar com os parênteses: ( ) 27 3 3 2 5 4 3 9+ × ÷ + − × × = 210 3 2 5 4 3 9× ÷ + − × × Em seguida, os expoentes e radicais: 210 3 2 5 4 3 9× ÷ + − × × = 10 9 2 5 4 3 3× ÷ + − × × Prosseguindo com multiplicações e divisões: 10 9 2 5 4 3 3× ÷ + − × × = 45 5 36+ − Finalmente, adição e subtração: 45 5 36 14+ − = Observação Fique atento quando houver somatórios ( )∑ nas operações. Eles devem ser efetuados antes de outra adição ou subtração. No exemplo do somatório da idade, anteriormente, se fosse solicitado X 1∑ + , deveríamos somar as idades primeiro e em seguida adicionar 1 (ou seja, 106 + 1 = 107). Com base nos valores de idade X = {19, 20, 20, 23, 24}, qual seria a diferença entre X 1∑ + e (X 1)∑ + ? E entre 2X∑ e 2( X)∑ ? Estando atento à ordem das operações, é fácil perceber. Como vimos anteriormente, X 1∑ + significa que à somatória dos valores será adicionada uma unidade (106 + 1 = 107), enquanto, em (X 1)∑ + , deve-se adicionar uma unidade a cada valor de idade antes de efetuar o somatório: 23 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA ( ) ( ) ( ) ( ) ( )(X 1) 19 1 20 1 20 1 23 1 24 1 20 21 21 24 25 111∑ + = + + + + + + + + + = + + + + = Já em 2X∑ , deve-se elevar cada valor de idade ao quadrado antes de somá-los: 2 2 2 2 2 2X 19 20 20 23 24 361 400 400 529 576 2.266∑ = + + + + = + + + + = Enquanto em 2( X)∑ , deve-se efetuar a somatória primeiro e então elevar o resultado ao quadrado: 2 2( X) 106 11.236∑ = = Muitas vezes obteremos casas decimais em cálculos. O arredondamento facilita o trabalho com números, removendo ou simplificando os dígitos à direita da vírgula. É importante ressaltar que um número arredondado deverá refletir, da melhor maneira possível, o número não arredondado. Se alguém possui 1,83 m de altura e desejamos arredondar para apenas uma casa decimal, diríamos que esta pessoa está mais próxima de 1,8 m do que de 1,9 m. Assim 1,8 m seria uma representação mais precisa do número não arredondado 1,83 m. Para facilitar cálculos e a exposição da resposta final, três regras de arredondamento são sugeridas: • Regra número 1: as respostas finais deverão ser arredondadas para duas casas decimais. • Regra número 2: os números não deverão ser arredondados até o resultado final, para não se perder a precisão; entretanto, em cálculos manuais, muitas vezes é impraticável manter todas as casas decimais. Portanto, arredonde valores intermediários para quatro casas decimais (que são duas a mais do que a resposta final terá). Observe a seguinte situação: 123 789 ? 789 × = O denominador (789) e o termo do produto (789) são iguais e, portanto, se cancelarão, de tal forma que o resultado será 123. Se prosseguíssemos pelo cálculo ignorando a regra número 2, arredondando o resultado da fração para duas casas decimais, o resultado final seria: 123 789 0,16 789 126,24 789 × = × = Por outro lado, se o arredondamento do valor intermediário fosse feito para quatro casas decimais, a resposta final seria muito mais próxima do valor real: 123 789 0,1559 789 123,01 789 × = × = 24 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I • Regra número 3: observe o valor do numeral à direita da segunda casa decimal; se estiver entre 0 e 4, arredonde para baixo; se estiver entre 5 e 9, arredonde para cima. Observe: Considerando o número 1,234. Ele está mais próximo de 1,23 ou de 1,24? Uma vez que o valor da terceira casa decimal é 4, é possível deduzir que ele está mais próximo de 1,23. Portanto o arredondamento deverá ser feito para baixo: 1,234 1,23≅ . Agora, considere o número 1,2345, como ficaria seu arredondamento para duas casas decimais? Note que o 5 (na quarta casa decimal) arredondaria o 4 (da terceira casa decimal) para cima, transformando-o em 5. Agora o 5 (na terceira casa decimal) arredondaria o 3 para cima, transformando-o em 4. Logo: 1,2345 1,235 1,24≅ ≅ Observação Por que as regras de arredondamento não são seguidas ao se reportar o tamanho amostral (n)? O tamanho amostral é sempre um número inteiro. Não é possível ter 10,42 casos em uma pesquisa,logo, o n é sempre reportado sem casas decimais. Lembrete Regras de arredondamento: arredondar as respostas finais para duas casas decimais; não arredondar até o final, mas, caso seja necessário, trabalhe os valores intermediários com quatro casas decimais; observe os valores à direita da segunda casa decimal para efetuar o arredondamento de forma significativa (para cima ou para baixo). 2 AMOSTRAGEM 2.1 Técnicas de amostragem Quanto à forma de escolha, a amostragem pode ser aleatória (probabilística) ou determinística (não probabilística). Na amostragem aleatória, cada elemento da população-alvo tem uma probabilidade fixa de ser incluído na amostra, enquanto na determinística não se utiliza seleção aleatória, transferindo-se o critério de seleção para o julgamento pessoal do pesquisador, por exemplo. Observação Uma amostragem aleatória apresenta vantagens, pois além de possuir critérios de seleção rigorosamente definidos, evita subjetividade; além disso, há possibilidade de determinar o tamanho da amostra matematicamente. 25 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA A escolha da técnica de amostragem deve levar em conta vários parâmetros. Fávero e Belfiore (2017) destacam, entre os principais, o objetivo da pesquisa, o erro aceitável nos resultados, a acessibilidade aos elementos da população, a representatividade desejada, o tempo despendido e a disponibilidade de recursos financeiros e humanos. As amostras aleatórias apresentam condições ideais para o tratamento estatístico, o que nem sempre é viável com amostras determinísticas. A figura a seguir apresenta as principais técnicas de amostragem aleatória e determinística. Técnicas de amostragem Aleatória Simples Sistemática Estratificada Por conglomerados Determinística Por conveniência Por julgamento Por quotas Bola de neve Figura 4 – Principais técnicas de amostragem A amostragem aleatória simples é o método mais simples e mais importante para a seleção de uma amostra. O planejamento e a seleção da amostra envolvem o sorteio aleatório de elementos provenientes da população, repetido quantas vezes forem necessárias, até que o tamanho desejado da amostra seja atendido. Quando um elemento sorteado for removido antes do próximo sorteio, estamos diante de uma amostra aleatória simples sem reposição; caso seja permitido o sorteio de um mesmo elemento mais de uma vez, estamos diante de uma amostra aleatória simples com reposição. Segundo Bolfarine e Bussab (2005), do ponto de vista prático, a amostragem aleatória simples sem reposição é muito mais interessante, pois satisfaz o princípio intuitivo de que não se ganha mais informação caso uma mesma unidade apareça mais de uma vez na amostra. Exemplo de aplicação Exemplo 3 Deseja-se entrevistar, aleatoriamente, 5 clientes que frequentaram um laboratório clínico, sendo que, na manhã daquele dia, 60 indivíduos foram cadastrados. Quantas amostras diferentes de 5 indivíduos podem ser extraídas da população? Qual a probabilidade de que uma amostra seja selecionada? 26 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I Resolução Primeiramente, em um total de sessenta indivíduos, quantas amostras de cinco indivíduos diferentes podemos obter? Neste tipo de amostragem, há ( )N,n N N! C n n! N n ! = = − possíveis amostras de n elementos que podem ser extraídas a partir da população, bem como cada amostra tem a mesma probabilidade, 1 N n , de ser selecionada. Assim: ( ) ( ) 60 60! 60.59.58.57.56.55! 60.59.58.57.56 5.461.512 5 5! 60 5 ! 5! 55 ! 5.4.3.2.1 = = = = − amostras diferentes. A probabilidade de que uma única amostra seja selecionada é de 1 5.461.512 (lê-se: uma em 5.461.512). Exemplo 4 Considerando os mesmos dados do exemplo anterior, imaginemos que, ao ser entrevistado, um indivíduo retorne ao banco de dados e possa ser sorteado novamente. Nesse caso, estamos diante de uma amostragem aleatória simples com reposição. Quantas amostras de cinco indivíduos podem ser extraídas da população? Qual a probabilidade de que uma amostra seja selecionada? Resolução Nesse tipo de amostragem, há Nn possíveis amostras de n elementos que podem ser extraídas a partir da população, bem como cada amostra tem a mesma probabilidade, n 1 N , de ser selecionada. Assim: 560 777.600.000 = amostras diferentes. A probabilidade de que uma única amostra seja selecionada é de 777.60 1 0.000 (lê-se: uma em 777.600.000). Exemplo 5 Um pesquisador dispõe de 12 ratos de mesma idade e massa corporal e deseja distribuí-los aleatoriamente em três grupos experimentais com quatro elementos cada. Quantas amostras diferentes de quatro indivíduos podem ser extraídas dessa população? Qual a probabilidade de que uma amostra seja selecionada? 27 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA Conforme vimos anteriormente, em uma amostragem aleatória simples sem reposição há ( )N,n N N! C n n! N n ! = = − possíveis amostras de n elementos que podem ser extraídas a partir da população, com cada amostra tendo a mesma probabilidade, 1 N n , de ser selecionada. Assim: ( ) ( ) 12 12! 12.11.10.9! 12.11.10 220 3 3! 12 3 ! 3! 9 ! 3.2.1 = = = = − amostras diferentes. A probabilidade de que uma única amostra seja selecionada é de 1 220 (lê-se: uma em 220). Lembrete A diferença entre uma amostragem aleatória simples com e sem reposição está no fato de um elemento poder ou não ser sorteado mais de uma vez na mesma amostra. Quando os elementos da população estiverem ordenados e forem retirados periodicamente, teremos uma amostragem sistemática. Como vantagens da amostragem sistemática em relação à amostragem aleatória simples, podemos mencionar que é executada com mais rapidez e menos custos. A principal desvantagem é a possibilidade de existirem ciclos de variação, especialmente se o período de ciclos coincidir com o período de retirada dos elementos da amostra. Exemplo de aplicação Exemplo 6 Em uma fábrica de reagentes químicos, 500 frascos de 1 kg de NaCl, grau de pureza analítico, foram produzidos na última hora. Um funcionário responsável pelo controle de qualidade necessita retirar uma amostra com 20 elementos dessa população para avaliar se a massa dos frascos está dentro dos valores aceitáveis de erro. Selecione 20 frascos com base no procedimento de amostragem sistemática. Primeiramente, deve-se selecionar o intervalo de amostragem (k), obtido pelo quociente entre o tamanho da população e o tamanho da amostra. Em seguida, escolher um elemento a cada k-ésimo elemento da lista de forma sucessiva, até atingir o tamanho da amostra (n). 28 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I Resolução O intervalo de amostragem (k) é: N 500 k 25 n 20 = = = O funcionário deverá retirar um a cada 25 frascos da linha de produção, até completar o total de 20 frascos em sua amostra. O primeiro elemento escolhido pode ser qualquer um entre o primeiro e o vigésimo quinto. Supondo que o primeiro frasco selecionado tenha sido o décimo da linha de produção, o segundo será o trigésimo quinto (10 + 25), o terceiro será o sexagésimo (10 + 50), e assim sucessivamente, até o último elemento da amostra, que será aquele que ocupa a posição número 485 (10 + 19x25). Exemplo 7 Um estudante deseja abordar de forma sistemática indivíduos que saem do hospital mais próximo de sua residência, solicitando-lhes sua participação em uma pesquisa de opinião. Em um dia normal, aproximadamente 400 indivíduos são atendidos nesse hospital e o estudante deseja obter uma amostra contendo 50 participantes. Assumindo que o primeiro entrevistado foi a terceira pessoa que passou por ele na saída do hospital,quais seriam os próximos indivíduos que deveriam ser abordados, assumindo que todos cederiam entrevista? Resolução O intervalo de amostragem (k) é: N 400 k 8 n 50 = = = O estudante deverá abordar um a cada 8 sujeitos que passem por ele na saída do hospital, até completar o total de 50 participantes em sua amostra. Como o primeiro entrevistado foi a terceira pessoa que passou por ele, o segundo será o décimo primeiro (3 + 8), o terceiro será o décimo nono (3 + 16) e assim sucessivamente, até o último elemento da amostra, que ocupará a posição número 395 (3 + 49x8). 3,1 1,1 9, 27, 35, 43, 51, 59, 67, 75, 83, 91, 99,1 07,1 15,1 23,1 31,1 39,1 47, A 155,1 63,1 71,1 79,1 87,1 95, 203, 211, 219, 227, 235, 243, 251, 259, 267, 275, 283, 291, 299, 307, 315, 323, 331, 33 = 9, 347, 355, 363, 371, 379, 387, 395 29 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA Lembrete A amostragem sistemática depende do primeiro elemento escolhido, que pode ser um elemento qualquer entre 1 e k. Se uma população heterogênea for estratificada ou dividida em subpopulações (estratos homogêneos) e em cada estrato uma amostra for retirada, estaremos diante de uma estratégia de amostragem estratificada. Assim, primeiramente, define-se o número de estratos e obtém-se o tamanho de cada um deles. Para cada estrato, especifica-se quantos elementos serão retirados da subpopulação, podendo ser uma alocação uniforme ou proporcional. Costa Neto (2002) recomenda que a amostragem estratificada uniforme pode ser empregada se os estratos forem aproximadamente do mesmo tamanho. Caso contrário, o número de elementos selecionado em cada estrato deverá ser proporcional ao número de elementos totais existente no estrato. Exemplo de aplicação Exemplo 8 Em uma empresa, os colaboradores (N = 2400) foram separados conforme a faixa etária, com o objetivo de implantar atividades físicas, adequadas para cada faixa de idade, na academia da companhia. Entretanto, deseja-se entrevistar os funcionários para ter ideia da taxa de adesão por faixa de idade antes de implantar o novo programa. A quantidade de colaboradores para cada faixa foi: de 18 a 25 anos, N1 = 400; de 26 a 36 anos, N2 = 550; de 37 a 50 anos, N3 = 680; de 51 a 65 anos, N4 = 715; acima de 65 anos, N5 = 55. Deseja-se extrair uma amostra estratificada de 80 indivíduos. Qual deve ser o tamanho da amostra extraída de cada estrato no caso de amostragem uniforme e de amostragem proporcional? Resolução Uma população de tamanho N é dividida em k estratos de tamanhos N1, N2, ..., Nk. Para cada estrato, uma amostra aleatória é selecionada, resultando em k subpopulações de tamanhos n1, n2, ..., nk. Na amostragem estratificada uniforme, temos que n1 = n2 = ... = nk de modo que o tamanho da amostra extraída de cada estrato é i n n k = , para i = 1, 2, ..., k 30 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I Em que: n = n1 + n2 + ... + nk Como se deseja obter uma amostra de 80 indivíduos e temos 5 estratos: i n 80 n 16 k 5 = = = Logo, para uma amostragem uniforme, deverão ser selecionados 16 indivíduos de cada estrato. Já na amostragem estratificada proporcional, temos que: 1 2 k 1 2 k n n n N N N = =…= O tamanho da amostra extraída de cada estrato pode ser obtido de acordo com a seguinte expressão: i i N n .n N = , para i = 1, 2, ..., k Assim, temos que: 1 1 N 400 n .n .80 13,33 13 N 2400 = = = ≅ 2 2 N 550 n .n .80 18,33 18 N 2400 = = = ≅ 3 3 N 680 n .n .80 22,67 23 N 2400 = = = ≅ 4 4 N 715 n .n .80 23,83 24 N 2400 = = = ≅ 5 5 N 55 n .n .80 1,83 2 N 2400 = = = ≅ Note os arredondamentos realizados no último cálculo: os valores do tamanho amostral por estrato foram aproximados para o número inteiro mais próximo (exemplo: 13,33 está mais próximo de 31 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA 13 do que 14), para que a soma dos tamanhos amostrais dos estratos não ultrapassasse a proposição do enunciado (13 + 18 + 23 + 24 + 2 = 80). Exemplo 9 Deseja-se realizar uma pesquisa sobre qualidade do sono em profissionais da área da saúde. Para isso, a população será dividida em categorias, conforme a profissão, e, para cada categoria, 15% da população será entrevistada, ou seja, haverá respeito à proporção de cada profissão na população total. Assumindo que haja acesso a 1.000 enfermeiros, 400 biomédicos, 300 farmacêuticos e 650 médicos, qual será o tamanho da amostra estratificada extraída dessa população? Resolução Se 15% da população será entrevistada e haverá respeito à proporção de cada profissão na população total, logo: enfermeiros enfermeiros 15 n N .15% 1 000. 150 100 = = = biomédicos biomédicos 15 n N .15% 400. 60 100 = = = farmacêuticos farmacêuticos 15 n N .15% 300. 45 100 = = = médicos médicos 15 n N .15% 650. 97,5 98 100 = = = ≅ n 150 60 45 98 353= + + + = Assim, serão selecionados 150 enfermeiros, 60 biomédicos, 45 farmacêuticos e 98 médicos, totalizando 353 profissionais da área da saúde. Independentemente da quantidade de profissionais em cada categoria, mantém-se fixa a proporção de 15% dos indivíduos. Se a população for subdividida em grupos e a amostragem for realizada a partir deles e não dos indivíduos da população, estamos diante de uma amostragem por conglomerados (grupos). Dessa forma, deve-se sortear aleatoriamente um número suficiente de grupos e seus objetos constituirão a amostra. Dentro de cada conglomerado, podem-se selecionar todos os elementos ou apenas parte deles. A amostragem por conglomerados é frequentemente utilizada, uma vez que muitas populações já estão agrupadas em subgrupos naturais ou geográficos, e o baixo custo de sua aplicação, se comparado a outras técnicas, representa uma vantagem considerável. 32 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I Por exemplo, deseja-se estudar a renda da população da cidade de Curitiba e, para isso, ela foi dividida em bairros. Do total de bairros, 10% deles foram selecionados aleatoriamente e, para cada bairro, selecionou-se, de forma aleatória, 10% do total de moradores. Tem-se, portanto, um exemplo de amostragem por conglomerados em dois estágios. No primeiro estágio são sorteados os conglomerados, segundo algum plano amostral. De cada conglomerado são sorteados elementos no segundo estágio, conforme o mesmo ou outro plano amostral especificado. Exemplo de aplicação Exemplo 10 Considere 25 abacaxis na banca de um feirante, dispostos em cinco fileiras de cinco frutos cada. Sete clientes diferentes compraram todos os frutos, de tal forma que a população é dividida em 7 conglomerados: C1 = {1, 2}, C2 = {3, 4}, C3 = {5, 6, 7}, C4 = {8, 9, 10, 11, 12}, C5 = {13, 14, 15, 16, 17, 18}, C6 = {19, 20, 21}, C7 = {22, 23, 24, 25}. Três clientes foram sorteados aleatoriamente para que a massa dos abacaxis fosse avaliada. Supondo que foram sorteados os conglomerados C2, C5 e C7, determine o tamanho da amostra, além dos elementos que constituirão a amostragem por conglomerados em um estágio. Na amostragem por conglomerados em um estágio, todos os elementos de cada conglomerado sorteado constituem a amostra global. Como n2 = 2, n5 = 6 e n7 = 4, logo n = 2 + 6 + 4 = 12. Os elementos que constituirão a amostra global são: { } ( ) ( ) ( ){ }2 5 7A C , C , C 3, 4 , 13,1 4,1 5,1 6,1 7,1 8 , 22, 23, 24, 25= = Na amostragem por conglomerados, a população é dividida em conglomerados de tamanhos não necessariamente iguais. Observação Se os conglomerados são subdivisões geográficas, este tipo de amostragem também é conhecido como amostragem por área (Freund, 2006). Nos métodos de amostragem determinística (não probabilística), as amostras são obtidas de forma não aleatória, ou seja, a probabilidade de cada elemento da populaçãofazer parte da amostra não é igual, e, portanto, as amostras selecionadas não são igualmente prováveis. Assim, não é possível estimar o erro amostral e nem generalizar os resultados da amostra para a população, já que esta não é representada. Esse tipo de amostragem é muitas vezes empregado pela simplicidade ou impossibilidade de obtermos amostras aleatórias, como desejável. Portanto, há de se ter cuidado ao optar pela utilização desse tipo de amostragem, uma vez que ela é subjetiva. 33 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA A amostragem por conveniência pode ser aplicada quando a participação do sujeito é voluntária ou os elementos da amostra são escolhidos por uma questão de simplicidade ou conveniência (por exemplo, por vizinhos, amigos ou estudantes). A vantagem desse método é que ele permite obter informações de maneira rápida e barata. Como exemplo, imagine que um pesquisador deseja estudar o comportamento praticado por representantes de vendas de produtos de laboratório, especialmente quanto ao preço de reagentes empregados em biologia molecular. Para tanto, ele desenvolve sua amostragem por meio da coleta de dados publicados em folhetins e catálogos disponíveis no próprio laboratório. Isso representa uma amostragem por conveniência, uma vez que esses catálogos não apresentam os preços praticados por todos os representantes de vendas que atendem aquela região, porém ofertam uma quantidade significativa de dados e uma facilidade de coleta. Podemos imaginar, também, um arquiteto que deseja estudar a impressão de consumidores quanto à reforma do ambiente físico efetuada em determinado estabelecimento. A coleta de dados é feita por meio de entrevistas com colegas de trabalho, vizinhos e amigos. Isto representa uma amostragem por conveniência. Observação É importante ressaltar que a amostragem por conveniência não garante que a amostra seja representativa da população, devendo ser empregada em situações especiais que justifiquem a sua utilização. Na amostragem por julgamento (ou intencional), a amostra é escolhida segundo a opinião (julgamento prévio) de um especialista. Há risco na escolha dessa abordagem, pois pode haver possível equívoco no prejulgamento. Como a amostragem é elaborada por meio da opinião de uma pessoa, não deve ser considerada representativa da população e nem tampouco científica. Como, por exemplo, uma pesquisa que busca identificar as razões que levariam deputados a votarem a favor ou contra a reforma da previdência. Para isso, o pesquisador entrevista alguns jornalistas que atuam na cobertura do meio político. Podemos imaginar, também, uma pesquisa que visa identificar quais seriam os livros didáticos mais relevantes na área de biologia molecular. Para tal, são entrevistados, em cinco universidades, diversos alunos de mestrado e doutorado dessa área. Para selecionar os alunos, recorre-se a um professor, especialista no assunto, vinculado a cada universidade. Um dos métodos mais utilizados em pesquisas de mercado e de opinião eleitoral é a amostragem por quotas. Essa amostragem apresenta mais rigor quando comparada às demais amostragens não aleatórias. O método consiste em uma variação da amostragem por julgamento: inicialmente, as variáveis de controle ou as características da população consideradas relevantes para o estudo são selecionadas; em seguida, a proporção da população (%) para cada uma das categorias das variáveis 34 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I relevantes é determinada; por fim, são dimensionadas as quotas (número de elementos que possuem as características determinadas), de modo que a amostra tenha proporções iguais à população. Como principais vantagens, destacam-se o baixo custo, a rapidez e a conveniência (ou facilidade) para o entrevistador em selecionar os elementos. Porém, ressalta-se que não há garantia de que a amostra seja representativa da população, pois a seleção dos elementos não é aleatória. Como exemplo, imagine que, em uma cidade pequena, uma lanchonete deseja lançar um novo sanduíche, e seu público-alvo são jovens entre 13 e 25 anos, das classes sociais B e C. A população é dividida em categorias de acordo com as variáveis de controle (idade e classe social). Uma amostra de 5% da população recebe um cupom, garantindo-lhes, gratuitamente, o novo sanduíche na próxima visita ao estabelecimento. Exemplo de aplicação Exemplo 11 Deseja-se realizar uma pesquisa com alunos do primeiro semestre de uma universidade. A pesquisa tem como objetivo identificar o grau de satisfação em diferentes parâmetros, por curso e sexo dos participantes. A tabela a seguir apresenta as frequências absolutas para cada par de categorias das variáveis analisadas. Aplique a amostragem por quotas, considerando que o tamanho da amostra deve ser de 40 estudantes. Quantos alunos deverão ser selecionados em cada categoria? Tabela 5 – Frequências absolutas para cada par de categorias Curso Masculino Feminino Total Biologia 10 20 30 Biomedicina 15 15 30 Enfermagem 40 70 110 Farmácia 20 10 30 Total 85 115 200 Ao observar o enunciado e a tabela anterior, identificamos que as variáveis relevantes são curso e sexo. Com base nos totais da tabela, é possível calcular a proporção da população (%) para cada par de categorias das variáveis analisadas. Os resultados estão descritos na tabela seguinte. Tabela 6 – Proporção da população para cada par de categorias Curso Masculino Feminino Total Biologia 5,0% 10,0% 15% Biomedicina 7,5% 7,5% 15% Enfermagem 20,0% 35,0% 55% Farmácia 10,0% 5,0% 15% Total 42,5% 57,5% 100% 35 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA Multiplicando cada casela da tabela anterior pelo tamanho da amostra (40), obtemos o dimensionamento das quotas que compõem a amostra global, conforme mostra a tabela seguinte. Tabela 7 – Dimensionamento das quotas Curso Masculino Feminino Total Biologia 2 4 6 Biomedicina 3 3 6 Enfermagem 8 14 22 Farmácia 4 2 6 Total 17 23 40 Assim, observe que, para atender o objetivo proposto, para que se alcance uma amostra de 40 indivíduos, utilizando uma estratégia de amostragem por quotas, deverão ser selecionados 2 alunos, do sexo masculino, e 4, do sexo feminino, para curso de biologia; 3, do sexo masculino, e 3, do sexo feminino, para o curso de biomedicina; 8, do sexo masculino, e 14, do sexo feminino, para o curso de enfermagem; 4, do sexo masculino, e 2, do sexo feminino, para o curso de farmácia. A amostragem de propagação geométrica ou bola de neve (snowball) é bastante utilizada quando os elementos da população são raros, de difícil acesso ou desconhecidos. Nesse método, identifica-se um ou mais indivíduos da população-alvo – que identificam outras observações que pertencem à mesma população. O processo é repetido até que seja alcançado o objetivo proposto ou quando os últimos entrevistados não acrescentarem novas informações relevantes à pesquisa, repetindo conteúdos de entrevistas anteriores. Como vantagens, destacam-se: o aumento da possibilidade de localização da característica desejada da população; baixo custo, pois necessita de menos planejamento e pessoas; além de ser eficiente ao penetrar em populações de difícil acesso. Como exemplo, pense em: • uma escola de idiomas que pretende atrair novos alunos e, para cada aluno matriculado, oferece um desconto na mensalidade se ele trouxer um novo aluno para a escola. O processo se repete até que a escola consiga atingir um número mínimo de alunos matriculados. • um pesquisador estudando albinismo, uma doença autossômica recessiva que afeta em torno de 1 a cada 20.000 indivíduos, que decide recrutar voluntários para participarem da pesquisa. O primeiro recrutado indica outro com o mesmo perfil. O processo se repete até que se obtenha o número desejadode participantes. 36 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I 3 DISTRIBUIÇÃO DE FREQUÊNCIA 3.1 Organização e apresentação de dados Quando se estuda uma variável, o maior interesse do pesquisador é conhecer seu comportamento, analisando a ocorrência de suas possíveis realizações. A organização e a apresentação de dados não são independentes da classificação das variáveis em quantitativas ou qualitativas. Uma distribuição de frequência é uma forma intuitiva de organizar e sumariar os resultados, para se ter uma ideia global sobre eles. Existem duas formas distintas de construir tabelas de distribuição de frequência: de forma não agrupada ou agrupada. Uma tabela de distribuição de frequência para dados não agrupados apresenta a contagem de quão frequente é cada valor de uma variável em um conjunto de dados. Em uma tabela de distribuição de frequência para dados agrupados, a contagem se refere a valores de grupos ou intervalos da variável. Tabelas de distribuição de frequência para dados não agrupados geralmente são utilizadas quando os valores que uma variável pode assumir são limitados. Por exemplo, se entrevistássemos pessoas e perguntássemos quantas crianças existem em suas famílias, haveria um número limitado de respostas. A maioria responderia que haveria uma, duas ou três crianças em sua família. Provavelmente quase ninguém responderia dez ou mais crianças. Uma tabela de distribuição de frequência para dados não agrupados envolvendo esses resultados seria compacta, ocupando poucas linhas em uma página, de fácil visualização e interpretação. Agora, se a pergunta fosse sobre quantos alunos havia na sala de aula do entrevistado no último ano do ensino médio, provavelmente teríamos uma distribuição de frequência bem diferente. Poderíamos obter como respostas valores que variariam de poucas unidades a quase uma centena (ou mais). Se construíssemos uma tabela computando cada valor de resposta individualmente, teríamos muitas linhas e possivelmente a tabela percorreria algumas páginas. Nesse caso, faria mais sentido agrupar as respostas em intervalos (menos de 20 alunos, entre 21 e 40 alunos etc.), para tornar a apresentação de dados mais compacta. Tabelas de distribuição de frequência para dados agrupados devem ser construídas quando a variável possuir um número muito grande de valores e for aceitável perder alguma informação ao construir intervalos. Caso a variável possua um número grande de valores, mas seja importante apresentar a frequência de cada um deles, então se deve optar por uma tabela de frequência para dados não agrupados. Imaginemos que 31 indivíduos responderam à pergunta “quantas crianças existem em sua família?”, sendo que 9 entrevistados disseram haver apenas 1 criança; 14 disseram haver 2; 5 disseram haver 3; 2 responderam 4; e apenas 1 respondeu 6. Uma tabela de distribuição de frequência para dados não agrupados envolvendo esses dados é apresentada na tabela a seguir. 37 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA Tabela 8 – Distribuição de frequência dos 31 entrevistados por número de crianças na família Número de crianças na família Frequência (ni) 1 9 2 14 3 5 4 2 5 0 6 1 Total 31 Na construção da tabela, observe os seguintes aspectos: • Os valores de frequência observados estão dispostos ao lado da quantidade de crianças na família. • Existe um título. Todas as tabelas necessitam de títulos que descrevam claramente a informação presente nelas. • As colunas possuem nomes. • Uma linha reportando o total de indivíduos entrevistados foi introduzida para facilitar a visualização no n amostral global. • Embora não tenha havido nenhuma observação para cinco crianças na família, uma linha foi introduzida com frequência zero, apenas para não haver quebra na apresentação do conjunto de dados. A tabela a seguir traz algumas informações a mais. A primeira é a frequência acumulada de um valor, ou seja, o número de vezes que uma variável assume um valor inferior ou igual a esse valor. Por exemplo, há 23 pessoas que têm duas ou menos crianças nas suas famílias. As outras colunas trazem informações referentes às frequências absoluta e acumulada, porém em termos relativos, expressos em porcentagem. Tabela 9 – Distribuição de frequência e porcentagens dos 31 entrevistados por número de crianças na família Número de crianças na família Frequência (n) Frequência acumulada Porcentagem (%) Porcentagem acumulada (%) 1 9 9 29,03 29,03 2 14 23 45,16 74,19 3 5 28 16,13 90,32 4 2 30 6,45 96,77 5 0 30 0,00 96,77 6 1 31 3,23 100,00 Total 31 - 100 - 38 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I Para transformar um valor em porcentagem, basta dividir a frequência pelo total de elementos do conjunto e, em seguida, multiplicar por 100. Por exemplo, na terceira linha: 5 Porcentagem 100 0,1613 100 16,13% 31 = × = × = Isso significa que 16,13% dos entrevistados possuem 3 crianças nas famílias. Já a porcentagem acumulada de um valor reflete o percentual de elementos que assumem um valor inferior ou igual àquele valor. Por exemplo, na segunda linha observamos que a frequência acumulada é 23, assim: 23 Porcentagem acumulada 100 0,7419 100 74,19% 31 = × = × = Isso significa que 74,19% dos entrevistados possuem duas ou menos crianças nas suas famílias. Lembrete A distribuição de frequência para dados não agrupados funciona bem em duas situações: quando a variável apresentar um número limitado de valores possíveis; ou quando o interesse for documentar cada um dos valores que a variável puder assumir. Quando lidamos com uma variável que possui uma grande amplitude com muitas possibilidades de respostas, uma distribuição de frequência para dados agrupados faz mais sentido, pois funcionam bem quando houver uma ordem nos valores que a variável puder assumir, ou seja, se a escala for ordinal, intervalar ou de razão. Dados nominais até podem ser agrupados se houver alguma lógica na categorização. Imagine que um psicólogo coletou informações detalhadas sobre os diagnósticos de seus pacientes – se possuíam depressão unipolar, distimia, transtorno bipolar, transtorno obsessivo-compulsivo, fobias, transtorno de ansiedade generalizada, alcoolismo e vício em heroína. Essas respostas poderiam ser agrupadas em categorias de transtornos de humor, transtornos de ansiedade e desordens de abuso de substâncias. Lembrete Em uma escala nominal, somente podemos afirmar se uma medida é diferente ou não de outra; ela é usada para categorizar indivíduos de uma população. Um exemplo é pelo sexo. Para variáveis que são medidas em escala ordinal, intervalar ou de razão, o primeiro passo é decidir quantos intervalos serão incluídos em uma distribuição de frequência para dados agrupados. É preciso haver equilíbrio entre a quantidade de detalhes apresentada e o número de intervalos. Uma recomendação é 39 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA não haver poucos intervalos, de forma que detalhes importantes do conjunto sejam perdidos; tampouco muitos, de forma que a ideia geral se perca em detalhes. Não existe um número fixo de intervalos sempre possíveis, mas uma regra prática (rule of thumb) habitualmente utilizada é de 7±2, ou seja, de cinco a nove intervalos. Note que essa é uma regra prática – se for melhor usar menos de cinco ou mais de nove intervalos para a comunicação da mensagem desejada, que assim seja. Observação Rule of thumb é uma expressão em inglês que designa um princípio ou critério amplamente utilizado, derivado da experiência, embora carente de fundamento científico e não necessariamente preciso. Observe a tabela a seguir, que apresenta os casos com alterações no crescimento e desenvolvimento possivelmente relacionadas à infecção
Compartilhar