Prévia do material em texto
Autor: Prof. Giovani Bravin Peres Colaboradores: Prof. Flávio Buratti Gonçalves Profa. Laura Cristina da Cruz Dominciano Bioestatística Aplicada à Biomedicina Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Professor conteudista: Giovani Bravin Peres Giovani Bravin Peres é bacharel em Ciências Biológicas - Modalidade Médica (Biomedicina) pela Escola Paulista de Medicina da Universidade Federal de São Paulo (EPM-Unifesp, 2009). É mestre (2012) e doutor em Ciências (2016) pela mesma instituição e especialista em Administração de Empresas pela Fundação Getulio Vargas (FGV, 2014). Atualmente, é professor titular da Universidade Paulista (UNIP) no Programa de pós-graduação em Patologia Ambiental e Experimental (Medicina Veterinária) e no curso de Biomedicina, responsável na graduação pelas disciplinas Bioestatística, Biofísica, Biologia Molecular e Bioquímica, e na pós-graduação pela disciplina Estatística Aplicada à Pesquisa. © Todos os direitos reservados. Nenhuma parte desta obra pode ser reproduzida ou transmitida por qualquer forma e/ou quaisquer meios (eletrônico, incluindo fotocópia e gravação) ou arquivada em qualquer sistema ou banco de dados sem permissão escrita da Universidade Paulista. Dados Internacionais de Catalogação na Publicação (CIP) P437b Peres, Giovani Bravin. Bioestatística Aplicada à Biomedicina / Giovani Bravin Peres. – São Paulo: Editora Sol, 2019. 208 p., il. Nota: este volume está publicado nos Cadernos de Estudos e Pesquisas da UNIP, Série Didática, ano XXV, n. 2-106/19, ISSN 1517-9230. 1. Estatística. 2. Amostragem. 3. Teste de hipóteses. I.Título. CDU 519.2 U503.16 – 19 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Prof. Dr. João Carlos Di Genio Reitor Prof. Fábio Romeu de Carvalho Vice-Reitor de Planejamento, Administração e Finanças Profa. Melânia Dalla Torre Vice-Reitora de Unidades Universitárias Prof. Dr. Yugo Okida Vice-Reitor de Pós-Graduação e Pesquisa Profa. Dra. Marília Ancona-Lopez Vice-Reitora de Graduação Unip Interativa – EaD Profa. Elisabete Brihy Prof. Marcelo Souza Prof. Dr. Luiz Felipe Scabar Prof. Ivan Daliberto Frugoli Material Didático – EaD Comissão editorial: Dra. Angélica L. Carlini (UNIP) Dra. Divane Alves da Silva (UNIP) Dr. Ivan Dias da Motta (CESUMAR) Dra. Kátia Mosorov Alonso (UFMT) Dra. Valéria de Carvalho (UNIP) Apoio: Profa. Cláudia Regina Baptista – EaD Profa. Betisa Malaman – Comissão de Qualificação e Avaliação de Cursos Projeto gráfico: Prof. Alexandre Ponzetto Revisão: Bruno Barros Elaine Pires Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Sumário Bioestatística Aplicada à Biomedicina APRESENTAÇÃO ......................................................................................................................................................7 INTRODUÇÃO ...........................................................................................................................................................7 Unidade I 1 INTRODUÇÃO À ESTATÍSTICA .........................................................................................................................9 1.1 O propósito da estatística ....................................................................................................................9 1.2 O processo de pesquisa ...................................................................................................................... 13 1.2.1 Variáveis ...................................................................................................................................................... 15 1.2.2 Escala de medição .................................................................................................................................. 17 1.2.3 Erro ............................................................................................................................................................... 19 1.2.4 População e amostra ............................................................................................................................. 20 1.3 Termos estatísticos............................................................................................................................... 20 2 AMOSTRAGEM .................................................................................................................................................. 24 2.1 Técnicas de amostragem ................................................................................................................... 24 3 DISTRIBUIÇÃO DE FREQUÊNCIA ................................................................................................................ 36 3.1 Organização e apresentação de dados ........................................................................................ 36 3.2 Formatos das distribuições de frequência.................................................................................. 45 4 MEDIDAS-RESUMO ........................................................................................................................................ 50 4.1 Medidas de posição central.............................................................................................................. 50 4.2 Medidas de variabilidade (ou de dispersão) .............................................................................. 55 Unidade II 5 INDO ALÉM DOS DADOS .............................................................................................................................. 72 5.1 Distribuição amostral e o teorema central do limite ............................................................. 72 5.2 Calculando intervalos de confiança ............................................................................................. 78 5.3 Probabilidade ......................................................................................................................................... 87 6 TESTES DE HIPÓTESES PARA UMA E DUAS AMOSTRAS................................................................... 90 6.1 Introdução aos testes de hipóteses .............................................................................................. 90 6.2 Teste z para uma amostra ................................................................................................................. 93 6.3 Teste t para uma amostra ...............................................................................................................101 6.4 Teste t para duas amostras independentes .............................................................................109 6.4.1 Teste t para duas amostras independentes com variâncias desiguais ........................... 126 6.5 Teste t para duas amostras pareadas .........................................................................................128 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 7 TESTES DE HIPÓTESES PARA TRÊS OU MAIS AMOSTRAS ..............................................................141 7.1 Análise de variância (ANOVA) de um fator ..............................................................................141 8 TESTES DE HIPÓTESES PARA VARIÁVEIS CATEGÓRICAS ................................................................156 8.1 Teste do chi quadrado ......................................................................................................................156 7 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 APRESENTAÇÃO Atualmente, a sociedade está tomada por números. Eles aparecem em todos os lugares: de manchetes jornalísticas, indicando o índice de aprovação do presidente, a programas de esporte, que discutem as chances de determinada equipe de futebol se tornar campeã. Nas áreas das ciências, o cenário não é distinto,somos bombardeados por números e é importante estar apto a decifrá-los. Novas tecnologias têm fornecido quantidades enormes de dados, particularmente na área molecular, e estão abrindo caminho para novos campos de pesquisa. Entretanto, com essas novas tecnologias, surgem novos desafios e necessidades. Grandes quantidades de informações precisam ser organizadas, apresentadas e compreendidas. O objetivo desta disciplina é bastante concreto: fornecer ferramentas descritivas e de análise de dados que permitam uma melhor compreensão de eventos e estimação de probabilidades, para que sejam tomadas decisões a partir disso. Trata-se de uma ciência básica que fornece subsídios e ferramentas para outras grandes ciências da matriz curricular do curso de Biomedicina, sendo, portanto, de grande importância para a formação e atuação profissional do biomédico. Assim, ao final deste estudo, o(a) aluno(a) deverá ser capaz de analisar dados estatísticos resultantes de pesquisas, interpretar e construir gráficos, executar testes estatísticos e identificar a relação entre variáveis. INTRODUÇÃO A estatística é um ramo da matemática, portanto, para entendê-la completamente, é necessário percorrer várias equações. Alguns campos da estatística simplesmente não podem ser plenamente compreendidos sem o domínio adequado de cálculo e álgebra matricial. Mas não há motivo para desespero. É possível aprender a usar testes estatísticos e a interpretar resultados sem o domínio completo de toda a matemática atrás deles. É possível aprender muito sobre estatística sem mergulhar em cálculos profundos e em equações complexas. Este é o objetivo deste livro-texto, que apresentará poucas equações, com o objetivo de melhor ilustrar conceitos. Tal situação é bastante comum na ciência: é praticamente impossível para os cientistas dominarem todas as áreas do saber em todas as ferramentas que utilizam. É possível a um profissional ser capaz de interpretar os resultados de um medidor de pH (cujos valores indicam a acidez de determinada solução) ou de um contador de cintilação (que mede a radioatividade em um meio), mesmo sem saber em mínimos detalhes como esses equipamentos funcionam. Pense no seu dia a dia: você tem pleno conhecimento do funcionamento dos equipamentos ao seu redor? Sabe exatamente como um motor a combustão funciona? Entretanto, é muito provável que todos os dias você necessite de algum meio de transporte. Ainda sem total domínio da termodinâmica envolvida no funcionamento de um motor, você sabe que o equipamento necessita de manutenção periódica, a condução do veículo demanda capacitação e habilitação e seu uso requer medidas de proteção. Analogamente, em um laboratório, você se deparará com inúmeros reagentes, com os quais serão preparadas soluções necessárias à condução de experimentos. Mesmo sem saber por qual processo de síntese ou de purificação passaram tais reagentes, você saberá, dentro de sua necessidade, quais deverão ser combinados entre si nas proporções e condições adequadas. O mesmo raciocínio pode ser aplicado à bioestatística. 8 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Neste livro-texto, você verá uma introdução à estatística, com apresentação de conceitos fundamentais e informações sobre estatística descritiva; serão abordadas noções de probabilidade e de inferência estatística, com destaque aos testes de hipóteses mais utilizados na área biomédica; ao final, há um apêndice contendo tabelas importantes para os cálculos que serão apresentados ao longo do texto. 9 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA Unidade I 1 INTRODUÇÃO À ESTATÍSTICA 1.1 O propósito da estatística A estatística é a ciência que tem por objetivos planejar e otimizar experimentos, orientar sua condução, coletar, descrever e analisar suas respostas, retirando o maior número possível das informações nelas contidas. Técnicas estatísticas foram desenvolvidas porque os seres humanos são limitados no processamento de informações. Dê a uma pessoa um conjunto muito grande de números de uma só vez e, provavelmente, ela focará em apenas alguns desses – chamarão a atenção os valores mais discrepantes, não os mais típicos. A estatística traz ordem ao caos. Veremos alguns dados retirados dos boletins epidemiológicos da Secretaria de Vigilância em Saúde − Ministério da Saúde, mostrando o número de casos de dengue no ano de 2017. A tabela a seguir está desorganizada, sendo difícil encontrar um estado específico e avaliar em qual houve o maior/menor número de casos reportados da doença ou ainda estimar a média nacional. Tabela 1 – Número de casos prováveis e casos confirmados de dengue em 2017, por unidade da Federação, organizados de forma aleatória Unidade da Federação Casos prováveis Casos confirmados Rio de Janeiro 10.592 83 São Paulo 13.211 82 Rio Grande do Sul 227 1 Santa Catarina 256 0 Amapá 886 11 Amazonas 3.984 16 Ceará 40.604 119 Paraíba 3.837 19 Paraná 4.195 10 Bahia 9.819 17 Roraima 316 1 Minas Gerais 28.779 140 Piauí 5.184 11 Sergipe 609 2 Alagoas 2.930 15 Rondônia 2.460 5 Rio Grande do Norte 7.311 20 Mato Grosso do Sul 2.112 36 10 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I Pará 7.813 9 Espírito Santo 7.019 115 Maranhão 7.049 53 Pernambuco 9.043 52 Distrito Federal 4.210 103 Mato Grosso 8.977 18 Tocantins 5.077 102 Acre 2.124 1 Goiás 63.430 1.820 Adaptada de: Brasil (2018a). Um arranjo desorganizado não é muito útil. Se utilizarmos uma mínima ordenação – digamos, por ordem alfabética do nome dos estados – como disposto na tabela seguinte, encontrar uma determinada unidade da Federação se torna uma tarefa muito mais fácil. Tabela 2 – Número de casos prováveis e casos confirmados de dengue em 2017, por unidade da Federação, em ordem alfabética Unidade da Federação Casos prováveis Casos confirmados Acre 2.124 1 Alagoas 2.930 15 Amapá 886 11 Amazonas 3.984 16 Bahia 9.819 17 Ceará 40.604 119 Distrito Federal 4.210 103 Espírito Santo 7.019 115 Goiás 63.430 1.820 Maranhão 7.049 53 Mato Grosso 8.977 18 Mato Grosso do Sul 2.112 36 Minas Gerais 28.779 140 Pará 7.813 9 Paraíba 3.837 19 Paraná 4.195 10 Pernambuco 9.043 52 Piauí 5.184 11 Rio de Janeiro 10.592 83 Rio Grande do Norte 7.311 20 Rio Grande do Sul 227 1 Rondônia 2.460 5 Roraima 316 1 11 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA Santa Catarina 256 0 São Paulo 13.211 82 Sergipe 609 2 Tocantins 5.077 102 Adaptada de: Brasil (2018a). Já a tabela seguinte, por outro lado, apresenta os dados ordenados de forma decrescente em relação ao número de casos confirmados de dengue no período. Este tipo de ordenação nos chama atenção e permite algumas extrapolações imediatas, tais como: por que não houve nenhum caso confirmado de dengue em 2017 em Santa Catarina? Por que Goiás foi o estado com o maior número de casos confirmados? Tabela 3 – Número de casos prováveis e casos confirmados de dengue em 2017, por unidade da Federação, em ordem decrescente de casos confirmados Unidade da Federação Casos prováveis Casos confirmados Goiás 63.430 1.820 Minas Gerais 28.779 140 Ceará 40.604 119 Espírito Santo 7.019 115 Distrito Federal 4.210 103 Tocantins 5.077 102 Rio de Janeiro 10.592 83 São Paulo 13.211 82 Maranhão 7.049 53 Pernambuco 9.043 52 Mato Grosso do Sul 2.112 36 Rio Grande do Norte 7.311 20 Paraíba 3.837 19 Mato Grosso 8.977 18 Bahia 9.819 17 Amazonas 3.984 16 Alagoas 2.930 15 Amapá 886 11 Piauí 5.184 11 Paraná 4.195 10 Pará 7.813 9 Rondônia 2.460 5 Sergipe 609 2 Acre 2.124 1 Rio Grande do Sul 227 1 Roraima 316 1 Santa Catarina 256 0 Adaptada de: Brasil (2018a). 12 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I Outra forma de sumariaros dados é mostrada na tabela seguinte, organizando a informação pelas regiões brasileiras. Esse tipo de ordenação nos permite ter uma ideia da diferença geográfica do número de casos de dengue no ano de 2017. Todas as três tabelas (tabelas 2, 3 e 4) ordenam os dados diferentemente e respondem a diferentes questionamentos. A estatística envolve a organização e a sumarização de informações para que perguntas sejam respondidas. Tabela 4 – Número de casos prováveis e casos confirmados de dengue em 2017, por unidade da Federação, por regiões brasileiras Região/unidade da Federação Casos prováveis Casos confirmados Norte 22.660 145 Acre 2.124 1 Amapá 886 11 Amazonas 3.984 16 Pará 7.813 9 Rondônia 2.460 5 Roraima 316 1 Tocantins 5.077 102 Nordeste 86.386 308 Alagoas 2.930 15 Bahia 9.819 17 Ceará 40.604 119 Maranhão 7.049 53 Paraíba 3.837 19 Pernambuco 9.043 52 Piauí 5.184 11 Rio Grande do Norte 7.311 20 Sergipe 609 2 Sudeste 59.601 420 Espírito Santo 7.019 115 Minas Gerais 28.779 140 Rio de Janeiro 10.592 83 São Paulo 13.211 82 Sul 4.678 11 Paraná 4.195 10 Rio Grande do Sul 227 1 Santa Catarina 256 0 Centro-oeste 78.729 1.977 Goiás 63.430 1.820 Mato Grosso 8.977 18 Mato Grosso do Sul 2.112 36 Distrito Federal 4.210 103 Brasil 252.054 2.861 Adaptada de: Brasil (2018a). 13 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA 1.2 O processo de pesquisa Como responder a uma pergunta cientificamente? De modo bem geral, podemos dizer que a essência da ciência é a observação e que seu objetivo básico é a inferência. A estatística pode ser dividida em três grandes partes: a estatística descritiva, que cuida da descrição tabular e gráfica dos dados obtidos experimentalmente; probabilidade e estatística matemática, que estudam a ocorrência dos eventos e das variáveis que os descrevem; e inferência estatística, dedicada à estimação por intervalo e por região, bem como aos testes de hipóteses sobre parâmetros populacionais. Cientistas usam o chamado método científico para testar suas teorias e hipóteses. A partir de uma observação, uma pergunta é gerada; esse questionamento pode surgir a partir de uma trivialidade ou pode ser baseado em registros preexistentes. Dessa observação inicial são geradas explicações ou teorias, das quais podem ser criadas predições ou hipóteses. É nesse ponto que os dados se tornam importantes, pois, para testar hipóteses, são necessários dados relevantes. Para coletar dados, são identificadas as variáveis – características medidas pelos investigadores. Elas são chamadas variáveis por uma simples razão: elas variam. Altura, massa corporal, frequência cardíaca e níveis plasmáticos de LDL colesterol são exemplos de variáveis em uma pesquisa hipotética. Em qualquer grupo de pessoas haverá diferenças nessas variáveis: indivíduos diferem quanto à altura e massa corporal, alguns possuem frequência cardíaca de repouso mais baixa ou mais alta e nem todos possuem os mesmos níveis de LDL colesterol no sangue. Os dados coletados são, então, analisados e essa análise poderá indicar se os resultados obtidos apoiam a teoria proposta ou se será necessário modificar a explicação inicial. Dados Identificação das variáveis Geração de hipóteses Coleta de dados para testar a teoria Análise dos dados Geração de uma teoria Observação inicial (pergunta de pesquisa) Mensuração das variáveis Gráficos Modelo Figura 1 – O processo de pesquisa De tal forma, os processos de coleta de dados, análise e geração de teorias estão intrinsicamente ligados: teorias levam à coleta de dados/análises e essa coleta ajuda a formular teorias. Imagine que o dono de um gato de estimação ficou intrigado ao observar que seu animalzinho estava prestando atenção em um documentário sobre aves na televisão. Nesse instante surge uma pergunta: 14 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I será que gatos realmente prestam atenção na televisão? Nosso observador possui poucos dados para responder a essa pergunta, afinal de contas, ele possui apenas um único gato, mas a proposição poderia ser avaliada conduzindo o método científico. A partir de sua pergunta de pesquisa, uma explicação racional – ou teoria – será proposta e posta à prova. Felinos são predadores natos, inclusive os domesticados, e aves podem ser suas potenciais presas. O olho humano é capaz de gerar percepção de fluidez com imagens em movimento a partir de 20 quadros por segundo (ou fps, do inglês frames per second), enquanto olhos de outros animais, que evoluíram para caçar, dependem de velocidades mais elevadas para que se gere percepção de continuidade (MILLER; MURPHY, 1995; CAREY, 2018). Como os equipamentos mais modernos de televisão, em sua maioria, atingem velocidades de 120 ou 240 fps – acima dos tradicionais 50-60 fps dos televisores tradicionais –, é possível imaginar que os animais domésticos consigam observar televisores de alta resolução (HD). A partir desta explicação, hipóteses podem ser propostas para avaliar se a teoria realmente é adequada. Veremos, mais adiante, que um modelo bastante utilizado é o de proposição de duas hipóteses que se anulam mutuamente (diga-se, por exemplo, “gatos prestam atenção na televisão” e “gatos não prestam atenção na televisão”), logo, se uma hipótese tiver uma maior chance de estar correta, a outra, por sua vez, não estará. Com o levantamento das hipóteses será delineada a condução experimental, identificando-se quais variáveis serão registradas no estudo. Imaginemos que um grupo grande de gatos será colocado, um de cada vez, em um ambiente controlado (sala experimental), simulando uma sala de estar. Nesse ambiente, após a adaptação do animal, câmaras registrarão seu movimento e, assim, poderemos quantificar quanto tempo ele permaneceu atento, encarando o televisor em que passava um documentário sobre pássaros. Após a coleta de dados e análise, conclusões poderão ser tomadas, apontando se os resultados obtidos apoiam a teoria inicialmente proposta ou se será necessário modificar a explicação inicial. Saiba mais Para saber mais sobre a visão de animais e sua relação com as televisões, leia: CAREY, T. Why Britain’s cats and dogs have turned into couch pawtatoes. Daily Mail, Dec. 2018. Disponível em: <https://www. dailymail.co.uk/femail/article-6477343/New-HD-TVs-twice-powerful- used-mean-pets-FINALLY-watch-telly.html>. Acesso em: 30 abr. 2019. MILLER, P. E.; MURPHY, C. J. Vision in dogs. Journal of the American Veterinary Medical Association, v. 207, n. 12, p. 1623-1634, Dec. 1995. Proposições científicas devem ser construídas de forma a sempre poderem ser testadas, isto é, a escolha das palavras é importante e devem sempre ser postas de forma clara e objetiva. Assim, afirmativas do tipo “os Beatles são a melhor banda de todos os tempos” ou “a pizza de São Paulo é a 15 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA mais gostosa” não podem ser confirmadas experimentalmente; a melhor banda ou pizza mais gostosa denotam subjetividade. Por outro lado, colocações como “a prática de exercício físico aeróbico aumenta lipoproteínas de alta densidade ligadas ao colesterol” ou “relações sexuais aumentam os níveis de dopamina” são proposições que podem ser testadas, assumindo-se disposição dos materiais e métodos necessários para mensuração das variáveis. Em alguns casos, com a reestruturação das palavras, é possível transformar uma proposição não científica. Digamos que, ao imaginar que os Beatles sejam a melhor banda de todos os tempos, um pesquisador desejava avaliar seu sucesso quanto ao número de discos vendidos ou quanto ao número de semanas com sucessos emplacados nas principais rádios. Perceba que essas reestruturações transformam a proposição inicial em algo objetivo, mensurável: “são os Beatles a bandaque mais vendeu discos?” ou “são os Beatles a banda com mais semanas emplacando trilhas de sucesso nas rádios?”. 1.2.1 Variáveis Para testar hipóteses, precisamos mensurar variáveis. Variáveis são elementos que podem mudar ou variar, por exemplo, entre pessoas (altura, massa corporal), locais (taxa de analfabetismo, taxa de desemprego) ou ainda ao longo do tempo (número de leucócitos, número de horas de sono). A maioria das hipóteses pode ser expressa em termos de duas variáveis: pense em uma como causa e na outra como consequência. Por exemplo, na afirmação “fumar causa câncer de pulmão”, fumar é a causa e câncer de pulmão é a consequência. Ambas são variáveis: para a causa, poderíamos pensar em diferentes hábitos (fumar cigarro, charuto, cachimbo, narguilé), e, como consequência, esses hábitos causarão diferentes tipos de danos. Uma variável que possa ser a causa é conhecida em estatística como variável independente, já a variável que pensamos ser a consequência (ou efeito) é chamada de variável dependente. Muitas perguntas científicas são formuladas a partir da seguinte construção: será que existe efeito da variável independente sobre a variável dependente? Imaginemos uma pesquisa envolvendo pacientes diabéticos que investigue o efeito do controle da glicemia plasmática sobre a função renal: o controle da glicemia plasmática seria a variável independente (causa), enquanto a função renal, a variável dependente (consequência). Exemplo de aplicação Exemplo 1 Se retomarmos o exemplo “são os Beatles a banda que mais vendeu discos?”, qual seria a variável dependente e qual seria a variável independente? Na pergunta anterior, o número de discos vendidos é uma causa ou consequência da banda? Observe e pense de que forma a pergunta faria mais sentido: existe efeito da banda sobre o número de discos vendidos ou existe efeito do número de discos vendidos sobre a banda? 16 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I Resolução A primeira proposição faz muito mais sentido do que a segunda, pois, variando o tipo de banda, seria de se esperar, como consequência, variação no número de discos vendidos. Logo, banda é a variável independente (causa), enquanto número de discos, a variável dependente (consequência). Variáveis podem ser classificadas, ainda, como categóricas (qualitativas ou atributos) ou numéricas (quantitativas). Uma variável categórica é dividida em categorias. Por exemplo, uma mulher pode estar grávida ou não grávida. Não há meio termo, não existe meio grávida. Em uma mesma unidade de tempo, um indivíduo não pode ser classificado, simultaneamente, em mais de uma categoria daquela variável. Se tomarmos a classificação segundo a Organização Mundial da Saúde quanto ao Índice de Massa Corporal (IMC), observamos que valores abaixo ou iguais a 18,4 são considerados abaixo do peso; entre 18,5 e 24,9, peso normal; entre 25,0 e 29,9, sobrepeso; e acima de 30, obesidade. Logo, um indivíduo classificado como abaixo do peso não pode pontuar em duas categorias simultaneamente, visto que os critérios de classificação são objetivos. Assim, as categorias de uma variável qualitativa recebem nomes que as designam. Por exemplo, de acordo com as leis brasileiras, na variável estado civil, observam-se as categorias solteiro(a), casado(a), separado(a), divorciado(a) e viúvo(a). Em determinadas circunstâncias, números podem ser atribuídos como códigos (por exemplo, 1 = solteiro, 2 = casado e assim por diante), entretanto se ressalta que esses números são arbitrários e não deverão ser entendidos de forma quantitativa (uma pessoa casada não vale o dobro de uma pessoa solteira, por lhe ter sido atribuído o número 2). Dessa forma, essas variáveis categóricas são ditas nominais. Quando categorias são ordenadas, a variável categórica é conhecida como ordinal. Dados ordinais não dizem apenas a frequência de ocorrência de cada categoria, mas também dão importância para a ordem do acontecimento. Ao final de um campeonato automobilístico, por exemplo, os pilotos foram distribuídos em categorias conforme seu desempenho – primeiro, segundo e terceiro. Essas categorias estão ordenadas. Sabemos que quem ficou em primeiro foi melhor do que quem ficou em segundo, que, por sua vez, foi melhor do que quem ficou em terceiro. Não sabemos quão melhor quem ficou em primeiro foi em relação ao segundo (quantos pontos, por exemplo). Comumente, em pesquisa de opinião, deparamo-nos com perguntas cujas respostas são categorias de posicionamento do tipo discordo fortemente, discordo parcialmente, neutro, concordo parcialmente, concordo fortemente. Observe a gradação entre as categorias dessa variável ordinal. Uma variável numérica descreve quantidade e, portanto, seus possíveis valores são descritos por números. Elas podem ser classificadas em dois tipos: discretas, quando assumem um número determinado de valores possíveis, como, por exemplo, quando descrevem situações que envolvem contagens, e contínuas, quando a mensuração ocorre em escala que assume continuidade em qualquer nível de precisão. A distinção entre variáveis numéricas discretas e contínuas pode ser confusa em alguns momentos. Por exemplo, por vezes assumimos valores discretos para expressar variáveis numéricas contínuas, como idade. Dificilmente alguém responde à pergunta “qual a sua idade?” com um valor fracionado de anos (23,2 anos, por exemplo). Outras vezes, há tendência em tratar uma variável numérica discreta como contínua. Imagine que, em certo estudo sobre medicina do sono, a seguinte 17 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA afirmativa se destaca: “a média de episódios de insônia por ano, em mulheres na faixa dos 30, aumentou de 10,6 para 19,8”. Essa descrição assume que a variável é contínua, quando na verdade não é: ninguém pode possuir 19,8 episódios de insônia em um ano, pode haver 19 ou 20, mas não um valor fracionado. 1.2.2 Escala de medição As técnicas estatísticas são realizadas com dados coletados, ou seja, números. Ainda que os números possam parecer todos iguais entre si, existem diferentes tipos, que variam na quantidade de informação que eles contêm. Os estatísticos dividem os números em quatro escalas de medição: nominal, ordinal, intervalar e de razão (ou proporcional). À medida que observamos hierarquicamente essas escalas, os números se tornam mais complexos e contêm mais informação. 1 1 2 Nominal Ordinal Intervalar De razão 2 3 3 0 0 CHEGADA Figura 2 – As quatro escalas de medição A escala de medição nominal é a mais simples de todas, pois os indivíduos são simplesmente distribuídos em categorias. Os números escolhidos para representar as categorias são arbitrários e não fornecem informação quantitativa, portanto não podemos realizar operações aritméticas. Elementos serão assinalados com os mesmos números caso compartilhem as mesmas qualidades. Por exemplo, os participantes de um estudo poderiam ser classificados em brancos (1), pardos (2), negros (3), amarelos (4) ou indígenas (5) quanto a sua cor ou raça, segundo as categorias de classificação do Instituto Brasileiro de Geografia e Estatística (IBGE). Se dois casos receberem números distintos, esses números refletem uma diferença no atributo que está sendo medido. Se, além disso, eles indicarem a direção da diferença (qual caso tem mais de um atributo ou qual caso tem menos daquele atributo), estaremos diante de outro tipo de escala de medição, a ordinal – quando os dados têm propriedades nominais e podem ser usados para ordenar as observações nessa variável. Por exemplo, tomemos os três maiores valores de casos confirmados de dengue em 2017 na tabela 3, respectivamente para os estados de Goiás (1.820), Minas Gerais (140) e Ceará (119). Observe que a diferença entre o primeiro e o segundo lugares é de 1.680 casos, já entre o segundo e o terceiro lugares, 21 casos. Independentementeda magnitude da diferença entre o número de casos confirmados de dengue, a diferença de posições entre Goiás e Minas Gerais é igual a 1; entre Minas Gerais e Ceará também é igual a 1. Uma escala de medição ordinal não fornece informação acerca de quão distantes esses postos estão. Também, aqui, não faz sentido qualquer operação aritmética. 18 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I Em uma escala de medição intervalar, podemos dizer quando uma medida é igual ou diferente, maior/menor e quão maior/menor do que outra. Uma escala intervalar permite dizer quão distantes dois valores estão, porque existe igualdade entre as unidades de medição. Por exemplo, se pensarmos em uma escala de temperatura como graus Celsius, a distância entre 30 °C e 35 °C é a mesma distância que entre 100 °C e 105 °C. Entretanto, essa escala possui um zero arbitrário, que não significa ausência do atributo sendo mensurado. Ao observar um termômetro marcando 0 °C, seria tolice afirmar que não há temperatura naquele registro. Para essa escala, já podemos fazer operações aritméticas. A escala de medição para uma variável é de razão quando os dados têm propriedades intervalares e faz sentido dividir duas observações. Ou seja, dadas duas medidas nessa escala, podemos dizer se são iguais ou se são diferentes, qual é maior/menor, quão e quantas vezes maior/menor do que a outra. A diferença com a escala intervalar é que agora existe um zero absoluto. Altura, massa e velocidade são exemplos de variáveis cujas escalas de medição são de razão. Uma pergunta frequente é “como variáveis, como altura e massa, podem possuir valores de zero absoluto?”. Ninguém nunca terá 0 cm de altura, tampouco 0 g de massa; logo, esses valores nunca serão atribuídos a um elemento. Mas não é isso que um zero absoluto significa. Um ponto zero absoluto representa que o zero daquela escala corresponde à ausência daquela característica. Observação Se o zero em uma escala de razão significa ausência do atributo em questão, parece ser impossível haver números negativos nesse tipo de escala. Entretanto é, sim, possível. Qualquer um que já tenha entrado em cheque especial em sua conta bancária e tenha observado um balanço negativo já experimentou este fenômeno. O quadro a seguir apresenta um resumo das informações descritas até o momento. Quadro 1 – Escala de medição: informação contida nos números Escala de medição Igual/diferente Direção da diferença (maior/menor) Quantidade da diferença (quão maior/menor) Proporção (quantas vezes maior/menor) Nominal X Ordinal X X Intervalar X X X De razão X X X X Adaptada de: Corty (2016). 19 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA 1.2.3 Erro Uma coisa é mensurar uma variável, outra é medi-la com precisão. Em uma situação ideal, deseja-se que as medições sejam calibradas de tal forma que os valores possuam o mesmo significado ao longo do tempo e entre diferentes situações. Tomemos o exemplo da variável massa: espera-se que a massa de 1 kg de arroz seja a mesma independentemente de quem meça ou de onde estejamos medindo. Algumas variáveis podem ser medidas diretamente (massa, altura, circunferência abdominal), mas em outros casos são utilizadas medidas indiretas para registrar uma variável (escores obtidos em questionários ou medições de analitos com base na absorbância em determinado comprimento de onda, por exemplo). Quando se comparam resultados de diferentes autores, na literatura científica, para o registro de uma mesma variável, por vezes são observados valores discrepantes. Explicações racionais para esses acontecimentos podem estar em diferentes metodologias adotadas ou na calibragem adequada dos equipamentos envolvidos. Geralmente haverá alguma discrepância entre o valor real do que se mede e os números utilizados para representar essa medição. Essa variação é conhecida como erro de medição. Imagine que, em determinada suspensão de células, contendo exatamente 8,0x104 células/ml, quatro medições independentes foram realizadas a partir da mesma suspensão, utilizando-se um hemocitômetro. Como resultado de cada contagem, obtiveram-se os valores de 7,5x104, 7,0x104, 9,0x104 e 8,5x104 células/ml, respectivamente. Se a suspensão possuía exatamente 8,0x104 células/ml, por que cada um dos registros foi diferente do valor esperado? Justamente por conta do erro. Note que, se tirarmos a média aritmética de todas as observações, será obtido o valor de 8,0x104 células/ml. Por essa razão, é comum, na ciência, não se confiar em um único registro, sendo realizadas repetições para o registro de um mesmo indivíduo em determinada variável. Uma forma de assegurar que o erro de medição seja mínimo é determinar propriedades daquela medição que nos dê confiança no registro. Uma dessas propriedades se chama validade, ou seja, a certeza de que o instrumento que registra o valor para a variável em estudo realmente registre aquilo que se pesquisa. Um sensor que registre a condutância da pele realmente registra a condutância da pele, entretanto, se esse equipamento for utilizado para inferir outra coisa (por exemplo, uso da condutância da pele para medir ansiedade), esse registro indireto somente será válido se não houver nenhum outro fator, além do que estamos interessados em medir, que possa influenciá-lo. A validade é condição importante de uma medida, entretanto não é a única necessária. Uma segunda propriedade é a confiabilidade ou precisão, ou seja, a capacidade de obter os mesmos resultados dentro das mesmas condições. Para ser válido, um instrumento precisa primeiro ser confiável. A forma mais fácil de assegurar a confiabilidade é efetuar a medição mais de uma vez: um instrumento confiável produzirá resultados consistentes (assumindo-se que a variável em questão não se altere ao longo do tempo). Um glicosímetro portátil é um exemplo de equipamento importante no automonitoramento da glicemia plasmática em pacientes diabéticos. É sabido que a glicemia plasmática varia ao longo do dia; contudo, se repetíssemos a medição em um intervalo curto de tempo, esperaríamos resultados precisos no registro da glicemia, com pouca variação entre uma medição e outra. 20 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I 1.2.4 População e amostra Suponha que uma empresa pretenda lançar um novo produto, e, para tal, uma pesquisa de mercado será efetuada para avaliar a opinião de prováveis futuros consumidores. Seria necessário que todos os habitantes daquela região consumissem o novo produto para concluir algo sobre sua aceitabilidade? Sem grandes esforços, é possível deduzir que não, tampouco seria possível, em virtude dos custos e do tempo envolvidos na abordagem de todos os habitantes. População é o conjunto de todos os indivíduos ou elementos que compartilham um grupo de características comuns. Note que, por sua própria natureza, a população é, em geral, intangível. Ainda que os critérios da população sejam cuidadosamente definidos (por exemplo, digamos que o produto se destine a mulheres adultas, com cabelos loiros, ondulados e de natureza potencialmente oleosa) dificilmente um pesquisador terá a capacidade de recrutar todas as pessoas que atendam às características estipuladas. Como consequência, pesquisas quase sempre são conduzidas com subconjuntos da população alvo, conhecidos como amostras. Uma amostra sempre será menor do que a população, não obstante ela ser representativa, pois é selecionada sob certas regras e, de modo confiável, serve para estimar as informações necessárias ao pesquisador. Quando for possível estudar todos os membros da população, estaremos diante de um censo. População Amostra Figura 3 – Amostragem a partir de uma população 1.3 Termos estatísticos Os dados de uma amostra ou população geralmente são reduzidos a um único valor (por exemplo,a média aritmética), para resumir a informação de um conjunto de elementos. Esse número recebe nomes diferentes, dependendo se ele é usado para caracterizar uma amostra ou uma população. Se o número for uma característica da amostra, ele é chamado de estatística. Já se ele descrever uma característica da população, ele é chamado de parâmetro. A diferença entre estatística e parâmetro é importante, logo, diferentes abreviações indicam se um valor se refere a uma amostra ou a uma população. Estatísticos usam, em geral, letras latinas 21 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA para simbolizar estatísticas e letras gregas para simbolizar parâmetros. Quando um pesquisador calcula a média de uma amostra, estamos diante de uma estatística, simbolizada geralmente por M ou X (lê-se “x-barra”). Para o parâmetro de média populacional, utiliza-se a letra grega µ (lê-se “mi”). Este livro-texto procurará simplificar a descrição simbólica de estatísticas e parâmetros, portanto não se preocupe em decorar, mas em compreender os elementos à medida que forem apresentados. Entretanto, ao consultar fontes externas, é importante ter em mente a informação aqui apresentada. Uma estatística descritiva é uma informação-resumo a partir de um conjunto de dados. Ela envolve sua redução a algum valor significativo que descreva suas características. Se, em uma sala de aula, alguém reportasse que 40% de sua turma é composta por homens, isso seria um exemplo de estatística descritiva. Uma estatística inferencial utiliza uma amostra para extrapolar uma conclusão acerca de uma população maior. Por exemplo, imagine que uma amostra de estudantes foi avaliada e, por meio da escala de resiliência para adultos, obteve-se a média do escore. Uma afirmativa como “a média da escala de resiliência para competências sociais foi de 6,08” seria um exemplo de estatística descritiva. Mas uma afirmação construída de outra forma, como “estudantes de graduação possuem, em média, índice de resiliência para competências sociais de 6,08”, seria uma estatística inferencial. Os dados com os quais os estatísticos trabalham quase sempre são números. Quando nos referimos à variável que os números representam, ela em geral é abreviada pela letra X. Se medirmos a idade de um grupo de estudantes, poderíamos representar a variável como “X = idade”. Para informar o número de elementos de uma população, geralmente se usa a letra maiúscula N; a letra minúscula n representa o número de entidades da amostra. Quando elementos são somados entre si, a letra grega maiúscula sigma (Σ) é usada como sinal de somatório. Assim, em uma amostra com n = 5 indivíduos, cujas idades são X = {19, 20, 20, 23, 24}, X∑ significa que deveremos somar todos os valores de X: X 19 20 20 23 24 106∑ = + + + + = . Seguir a ordem das operações em uma equação é importante para chegar ao resultado correto. Lembre-se de que: • a operação dentro de parênteses ou colchetes deve ser efetuada em primeiro lugar; • em seguida lidamos com expoentes (números elevados a uma potência, como 22, ou radicais como 9 ); • a próxima etapa é prosseguir com multiplicações ou divisões, na ordem em que aparecerem da esquerda para a direita; • finalmente, são efetuadas as adições e subtrações, novamente na ordem em que aparecerem da esquerda para a direita. Para não se esquecer, observe a ordem: parênteses, expoentes, multiplicação, divisão, adição e subtração (que gera o acrônimo PEMDAS). 22 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I Exemplo de aplicação Exemplo 2 Observando o seguinte problema, prossiga com o cálculo: ( ) 27 3 3 2 5 4 3 9+ × ÷ + − × × Resolução Primeiro devemos lidar com os parênteses: ( ) 27 3 3 2 5 4 3 9+ × ÷ + − × × = 210 3 2 5 4 3 9× ÷ + − × × Em seguida, os expoentes e radicais: 210 3 2 5 4 3 9× ÷ + − × × = 10 9 2 5 4 3 3× ÷ + − × × Prosseguindo com multiplicações e divisões: 10 9 2 5 4 3 3× ÷ + − × × = 45 5 36+ − Finalmente, adição e subtração: 45 5 36 14+ − = Observação Fique atento quando houver somatórios ( )∑ nas operações. Eles devem ser efetuados antes de outra adição ou subtração. No exemplo do somatório da idade, anteriormente, se fosse solicitado X 1∑ + , deveríamos somar as idades primeiro e em seguida adicionar 1 (ou seja, 106 + 1 = 107). Com base nos valores de idade X = {19, 20, 20, 23, 24}, qual seria a diferença entre X 1∑ + e (X 1)∑ + ? E entre 2X∑ e 2( X)∑ ? Estando atento à ordem das operações, é fácil perceber. Como vimos anteriormente, X 1∑ + significa que à somatória dos valores será adicionada uma unidade (106 + 1 = 107), enquanto, em (X 1)∑ + , deve-se adicionar uma unidade a cada valor de idade antes de efetuar o somatório: 23 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA ( ) ( ) ( ) ( ) ( )(X 1) 19 1 20 1 20 1 23 1 24 1 20 21 21 24 25 111∑ + = + + + + + + + + + = + + + + = Já em 2X∑ , deve-se elevar cada valor de idade ao quadrado antes de somá-los: 2 2 2 2 2 2X 19 20 20 23 24 361 400 400 529 576 2.266∑ = + + + + = + + + + = Enquanto em 2( X)∑ , deve-se efetuar a somatória primeiro e então elevar o resultado ao quadrado: 2 2( X) 106 11.236∑ = = Muitas vezes obteremos casas decimais em cálculos. O arredondamento facilita o trabalho com números, removendo ou simplificando os dígitos à direita da vírgula. É importante ressaltar que um número arredondado deverá refletir, da melhor maneira possível, o número não arredondado. Se alguém possui 1,83 m de altura e desejamos arredondar para apenas uma casa decimal, diríamos que esta pessoa está mais próxima de 1,8 m do que de 1,9 m. Assim 1,8 m seria uma representação mais precisa do número não arredondado 1,83 m. Para facilitar cálculos e a exposição da resposta final, três regras de arredondamento são sugeridas: • Regra número 1: as respostas finais deverão ser arredondadas para duas casas decimais. • Regra número 2: os números não deverão ser arredondados até o resultado final, para não se perder a precisão; entretanto, em cálculos manuais, muitas vezes é impraticável manter todas as casas decimais. Portanto, arredonde valores intermediários para quatro casas decimais (que são duas a mais do que a resposta final terá). Observe a seguinte situação: 123 789 ? 789 × = O denominador (789) e o termo do produto (789) são iguais e, portanto, se cancelarão, de tal forma que o resultado será 123. Se prosseguíssemos pelo cálculo ignorando a regra número 2, arredondando o resultado da fração para duas casas decimais, o resultado final seria: 123 789 0,16 789 126,24 789 × = × = Por outro lado, se o arredondamento do valor intermediário fosse feito para quatro casas decimais, a resposta final seria muito mais próxima do valor real: 123 789 0,1559 789 123,01 789 × = × = 24 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I • Regra número 3: observe o valor do numeral à direita da segunda casa decimal; se estiver entre 0 e 4, arredonde para baixo; se estiver entre 5 e 9, arredonde para cima. Observe: Considerando o número 1,234. Ele está mais próximo de 1,23 ou de 1,24? Uma vez que o valor da terceira casa decimal é 4, é possível deduzir que ele está mais próximo de 1,23. Portanto o arredondamento deverá ser feito para baixo: 1,234 1,23≅ . Agora, considere o número 1,2345, como ficaria seu arredondamento para duas casas decimais? Note que o 5 (na quarta casa decimal) arredondaria o 4 (da terceira casa decimal) para cima, transformando-o em 5. Agora o 5 (na terceira casa decimal) arredondaria o 3 para cima, transformando-o em 4. Logo: 1,2345 1,235 1,24≅ ≅ Observação Por que as regras de arredondamento não são seguidas ao se reportar o tamanho amostral (n)? O tamanho amostral é sempre um número inteiro. Não é possível ter 10,42 casos em uma pesquisa,logo, o n é sempre reportado sem casas decimais. Lembrete Regras de arredondamento: arredondar as respostas finais para duas casas decimais; não arredondar até o final, mas, caso seja necessário, trabalhe os valores intermediários com quatro casas decimais; observe os valores à direita da segunda casa decimal para efetuar o arredondamento de forma significativa (para cima ou para baixo). 2 AMOSTRAGEM 2.1 Técnicas de amostragem Quanto à forma de escolha, a amostragem pode ser aleatória (probabilística) ou determinística (não probabilística). Na amostragem aleatória, cada elemento da população-alvo tem uma probabilidade fixa de ser incluído na amostra, enquanto na determinística não se utiliza seleção aleatória, transferindo-se o critério de seleção para o julgamento pessoal do pesquisador, por exemplo. Observação Uma amostragem aleatória apresenta vantagens, pois além de possuir critérios de seleção rigorosamente definidos, evita subjetividade; além disso, há possibilidade de determinar o tamanho da amostra matematicamente. 25 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA A escolha da técnica de amostragem deve levar em conta vários parâmetros. Fávero e Belfiore (2017) destacam, entre os principais, o objetivo da pesquisa, o erro aceitável nos resultados, a acessibilidade aos elementos da população, a representatividade desejada, o tempo despendido e a disponibilidade de recursos financeiros e humanos. As amostras aleatórias apresentam condições ideais para o tratamento estatístico, o que nem sempre é viável com amostras determinísticas. A figura a seguir apresenta as principais técnicas de amostragem aleatória e determinística. Técnicas de amostragem Aleatória Simples Sistemática Estratificada Por conglomerados Determinística Por conveniência Por julgamento Por quotas Bola de neve Figura 4 – Principais técnicas de amostragem A amostragem aleatória simples é o método mais simples e mais importante para a seleção de uma amostra. O planejamento e a seleção da amostra envolvem o sorteio aleatório de elementos provenientes da população, repetido quantas vezes forem necessárias, até que o tamanho desejado da amostra seja atendido. Quando um elemento sorteado for removido antes do próximo sorteio, estamos diante de uma amostra aleatória simples sem reposição; caso seja permitido o sorteio de um mesmo elemento mais de uma vez, estamos diante de uma amostra aleatória simples com reposição. Segundo Bolfarine e Bussab (2005), do ponto de vista prático, a amostragem aleatória simples sem reposição é muito mais interessante, pois satisfaz o princípio intuitivo de que não se ganha mais informação caso uma mesma unidade apareça mais de uma vez na amostra. Exemplo de aplicação Exemplo 3 Deseja-se entrevistar, aleatoriamente, 5 clientes que frequentaram um laboratório clínico, sendo que, na manhã daquele dia, 60 indivíduos foram cadastrados. Quantas amostras diferentes de 5 indivíduos podem ser extraídas da população? Qual a probabilidade de que uma amostra seja selecionada? 26 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I Resolução Primeiramente, em um total de sessenta indivíduos, quantas amostras de cinco indivíduos diferentes podemos obter? Neste tipo de amostragem, há ( )N,n N N! C n n! N n ! = = − possíveis amostras de n elementos que podem ser extraídas a partir da população, bem como cada amostra tem a mesma probabilidade, 1 N n , de ser selecionada. Assim: ( ) ( ) 60 60! 60.59.58.57.56.55! 60.59.58.57.56 5.461.512 5 5! 60 5 ! 5! 55 ! 5.4.3.2.1 = = = = − amostras diferentes. A probabilidade de que uma única amostra seja selecionada é de 1 5.461.512 (lê-se: uma em 5.461.512). Exemplo 4 Considerando os mesmos dados do exemplo anterior, imaginemos que, ao ser entrevistado, um indivíduo retorne ao banco de dados e possa ser sorteado novamente. Nesse caso, estamos diante de uma amostragem aleatória simples com reposição. Quantas amostras de cinco indivíduos podem ser extraídas da população? Qual a probabilidade de que uma amostra seja selecionada? Resolução Nesse tipo de amostragem, há Nn possíveis amostras de n elementos que podem ser extraídas a partir da população, bem como cada amostra tem a mesma probabilidade, n 1 N , de ser selecionada. Assim: 560 777.600.000 = amostras diferentes. A probabilidade de que uma única amostra seja selecionada é de 777.60 1 0.000 (lê-se: uma em 777.600.000). Exemplo 5 Um pesquisador dispõe de 12 ratos de mesma idade e massa corporal e deseja distribuí-los aleatoriamente em três grupos experimentais com quatro elementos cada. Quantas amostras diferentes de quatro indivíduos podem ser extraídas dessa população? Qual a probabilidade de que uma amostra seja selecionada? 27 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA Conforme vimos anteriormente, em uma amostragem aleatória simples sem reposição há ( )N,n N N! C n n! N n ! = = − possíveis amostras de n elementos que podem ser extraídas a partir da população, com cada amostra tendo a mesma probabilidade, 1 N n , de ser selecionada. Assim: ( ) ( ) 12 12! 12.11.10.9! 12.11.10 220 3 3! 12 3 ! 3! 9 ! 3.2.1 = = = = − amostras diferentes. A probabilidade de que uma única amostra seja selecionada é de 1 220 (lê-se: uma em 220). Lembrete A diferença entre uma amostragem aleatória simples com e sem reposição está no fato de um elemento poder ou não ser sorteado mais de uma vez na mesma amostra. Quando os elementos da população estiverem ordenados e forem retirados periodicamente, teremos uma amostragem sistemática. Como vantagens da amostragem sistemática em relação à amostragem aleatória simples, podemos mencionar que é executada com mais rapidez e menos custos. A principal desvantagem é a possibilidade de existirem ciclos de variação, especialmente se o período de ciclos coincidir com o período de retirada dos elementos da amostra. Exemplo de aplicação Exemplo 6 Em uma fábrica de reagentes químicos, 500 frascos de 1 kg de NaCl, grau de pureza analítico, foram produzidos na última hora. Um funcionário responsável pelo controle de qualidade necessita retirar uma amostra com 20 elementos dessa população para avaliar se a massa dos frascos está dentro dos valores aceitáveis de erro. Selecione 20 frascos com base no procedimento de amostragem sistemática. Primeiramente, deve-se selecionar o intervalo de amostragem (k), obtido pelo quociente entre o tamanho da população e o tamanho da amostra. Em seguida, escolher um elemento a cada k-ésimo elemento da lista de forma sucessiva, até atingir o tamanho da amostra (n). 28 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I Resolução O intervalo de amostragem (k) é: N 500 k 25 n 20 = = = O funcionário deverá retirar um a cada 25 frascos da linha de produção, até completar o total de 20 frascos em sua amostra. O primeiro elemento escolhido pode ser qualquer um entre o primeiro e o vigésimo quinto. Supondo que o primeiro frasco selecionado tenha sido o décimo da linha de produção, o segundo será o trigésimo quinto (10 + 25), o terceiro será o sexagésimo (10 + 50), e assim sucessivamente, até o último elemento da amostra, que será aquele que ocupa a posição número 485 (10 + 19x25). Exemplo 7 Um estudante deseja abordar de forma sistemática indivíduos que saem do hospital mais próximo de sua residência, solicitando-lhes sua participação em uma pesquisa de opinião. Em um dia normal, aproximadamente 400 indivíduos são atendidos nesse hospital e o estudante deseja obter uma amostra contendo 50 participantes. Assumindo que o primeiro entrevistado foi a terceira pessoa que passou por ele na saída do hospital,quais seriam os próximos indivíduos que deveriam ser abordados, assumindo que todos cederiam entrevista? Resolução O intervalo de amostragem (k) é: N 400 k 8 n 50 = = = O estudante deverá abordar um a cada 8 sujeitos que passem por ele na saída do hospital, até completar o total de 50 participantes em sua amostra. Como o primeiro entrevistado foi a terceira pessoa que passou por ele, o segundo será o décimo primeiro (3 + 8), o terceiro será o décimo nono (3 + 16) e assim sucessivamente, até o último elemento da amostra, que ocupará a posição número 395 (3 + 49x8). 3,1 1,1 9, 27, 35, 43, 51, 59, 67, 75, 83, 91, 99,1 07,1 15,1 23,1 31,1 39,1 47, A 155,1 63,1 71,1 79,1 87,1 95, 203, 211, 219, 227, 235, 243, 251, 259, 267, 275, 283, 291, 299, 307, 315, 323, 331, 33 = 9, 347, 355, 363, 371, 379, 387, 395 29 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA Lembrete A amostragem sistemática depende do primeiro elemento escolhido, que pode ser um elemento qualquer entre 1 e k. Se uma população heterogênea for estratificada ou dividida em subpopulações (estratos homogêneos) e em cada estrato uma amostra for retirada, estaremos diante de uma estratégia de amostragem estratificada. Assim, primeiramente, define-se o número de estratos e obtém-se o tamanho de cada um deles. Para cada estrato, especifica-se quantos elementos serão retirados da subpopulação, podendo ser uma alocação uniforme ou proporcional. Costa Neto (2002) recomenda que a amostragem estratificada uniforme pode ser empregada se os estratos forem aproximadamente do mesmo tamanho. Caso contrário, o número de elementos selecionado em cada estrato deverá ser proporcional ao número de elementos totais existente no estrato. Exemplo de aplicação Exemplo 8 Em uma empresa, os colaboradores (N = 2400) foram separados conforme a faixa etária, com o objetivo de implantar atividades físicas, adequadas para cada faixa de idade, na academia da companhia. Entretanto, deseja-se entrevistar os funcionários para ter ideia da taxa de adesão por faixa de idade antes de implantar o novo programa. A quantidade de colaboradores para cada faixa foi: de 18 a 25 anos, N1 = 400; de 26 a 36 anos, N2 = 550; de 37 a 50 anos, N3 = 680; de 51 a 65 anos, N4 = 715; acima de 65 anos, N5 = 55. Deseja-se extrair uma amostra estratificada de 80 indivíduos. Qual deve ser o tamanho da amostra extraída de cada estrato no caso de amostragem uniforme e de amostragem proporcional? Resolução Uma população de tamanho N é dividida em k estratos de tamanhos N1, N2, ..., Nk. Para cada estrato, uma amostra aleatória é selecionada, resultando em k subpopulações de tamanhos n1, n2, ..., nk. Na amostragem estratificada uniforme, temos que n1 = n2 = ... = nk de modo que o tamanho da amostra extraída de cada estrato é i n n k = , para i = 1, 2, ..., k 30 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I Em que: n = n1 + n2 + ... + nk Como se deseja obter uma amostra de 80 indivíduos e temos 5 estratos: i n 80 n 16 k 5 = = = Logo, para uma amostragem uniforme, deverão ser selecionados 16 indivíduos de cada estrato. Já na amostragem estratificada proporcional, temos que: 1 2 k 1 2 k n n n N N N = =…= O tamanho da amostra extraída de cada estrato pode ser obtido de acordo com a seguinte expressão: i i N n .n N = , para i = 1, 2, ..., k Assim, temos que: 1 1 N 400 n .n .80 13,33 13 N 2400 = = = ≅ 2 2 N 550 n .n .80 18,33 18 N 2400 = = = ≅ 3 3 N 680 n .n .80 22,67 23 N 2400 = = = ≅ 4 4 N 715 n .n .80 23,83 24 N 2400 = = = ≅ 5 5 N 55 n .n .80 1,83 2 N 2400 = = = ≅ Note os arredondamentos realizados no último cálculo: os valores do tamanho amostral por estrato foram aproximados para o número inteiro mais próximo (exemplo: 13,33 está mais próximo de 31 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA 13 do que 14), para que a soma dos tamanhos amostrais dos estratos não ultrapassasse a proposição do enunciado (13 + 18 + 23 + 24 + 2 = 80). Exemplo 9 Deseja-se realizar uma pesquisa sobre qualidade do sono em profissionais da área da saúde. Para isso, a população será dividida em categorias, conforme a profissão, e, para cada categoria, 15% da população será entrevistada, ou seja, haverá respeito à proporção de cada profissão na população total. Assumindo que haja acesso a 1.000 enfermeiros, 400 biomédicos, 300 farmacêuticos e 650 médicos, qual será o tamanho da amostra estratificada extraída dessa população? Resolução Se 15% da população será entrevistada e haverá respeito à proporção de cada profissão na população total, logo: enfermeiros enfermeiros 15 n N .15% 1 000. 150 100 = = = biomédicos biomédicos 15 n N .15% 400. 60 100 = = = farmacêuticos farmacêuticos 15 n N .15% 300. 45 100 = = = médicos médicos 15 n N .15% 650. 97,5 98 100 = = = ≅ n 150 60 45 98 353= + + + = Assim, serão selecionados 150 enfermeiros, 60 biomédicos, 45 farmacêuticos e 98 médicos, totalizando 353 profissionais da área da saúde. Independentemente da quantidade de profissionais em cada categoria, mantém-se fixa a proporção de 15% dos indivíduos. Se a população for subdividida em grupos e a amostragem for realizada a partir deles e não dos indivíduos da população, estamos diante de uma amostragem por conglomerados (grupos). Dessa forma, deve-se sortear aleatoriamente um número suficiente de grupos e seus objetos constituirão a amostra. Dentro de cada conglomerado, podem-se selecionar todos os elementos ou apenas parte deles. A amostragem por conglomerados é frequentemente utilizada, uma vez que muitas populações já estão agrupadas em subgrupos naturais ou geográficos, e o baixo custo de sua aplicação, se comparado a outras técnicas, representa uma vantagem considerável. 32 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I Por exemplo, deseja-se estudar a renda da população da cidade de Curitiba e, para isso, ela foi dividida em bairros. Do total de bairros, 10% deles foram selecionados aleatoriamente e, para cada bairro, selecionou-se, de forma aleatória, 10% do total de moradores. Tem-se, portanto, um exemplo de amostragem por conglomerados em dois estágios. No primeiro estágio são sorteados os conglomerados, segundo algum plano amostral. De cada conglomerado são sorteados elementos no segundo estágio, conforme o mesmo ou outro plano amostral especificado. Exemplo de aplicação Exemplo 10 Considere 25 abacaxis na banca de um feirante, dispostos em cinco fileiras de cinco frutos cada. Sete clientes diferentes compraram todos os frutos, de tal forma que a população é dividida em 7 conglomerados: C1 = {1, 2}, C2 = {3, 4}, C3 = {5, 6, 7}, C4 = {8, 9, 10, 11, 12}, C5 = {13, 14, 15, 16, 17, 18}, C6 = {19, 20, 21}, C7 = {22, 23, 24, 25}. Três clientes foram sorteados aleatoriamente para que a massa dos abacaxis fosse avaliada. Supondo que foram sorteados os conglomerados C2, C5 e C7, determine o tamanho da amostra, além dos elementos que constituirão a amostragem por conglomerados em um estágio. Na amostragem por conglomerados em um estágio, todos os elementos de cada conglomerado sorteado constituem a amostra global. Como n2 = 2, n5 = 6 e n7 = 4, logo n = 2 + 6 + 4 = 12. Os elementos que constituirão a amostra global são: { } ( ) ( ) ( ){ }2 5 7A C , C , C 3, 4 , 13,1 4,1 5,1 6,1 7,1 8 , 22, 23, 24, 25= = Na amostragem por conglomerados, a população é dividida em conglomerados de tamanhos não necessariamente iguais. Observação Se os conglomerados são subdivisões geográficas, este tipo de amostragem também é conhecido como amostragem por área (Freund, 2006). Nos métodos de amostragem determinística (não probabilística), as amostras são obtidas de forma não aleatória, ou seja, a probabilidade de cada elemento da populaçãofazer parte da amostra não é igual, e, portanto, as amostras selecionadas não são igualmente prováveis. Assim, não é possível estimar o erro amostral e nem generalizar os resultados da amostra para a população, já que esta não é representada. Esse tipo de amostragem é muitas vezes empregado pela simplicidade ou impossibilidade de obtermos amostras aleatórias, como desejável. Portanto, há de se ter cuidado ao optar pela utilização desse tipo de amostragem, uma vez que ela é subjetiva. 33 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA A amostragem por conveniência pode ser aplicada quando a participação do sujeito é voluntária ou os elementos da amostra são escolhidos por uma questão de simplicidade ou conveniência (por exemplo, por vizinhos, amigos ou estudantes). A vantagem desse método é que ele permite obter informações de maneira rápida e barata. Como exemplo, imagine que um pesquisador deseja estudar o comportamento praticado por representantes de vendas de produtos de laboratório, especialmente quanto ao preço de reagentes empregados em biologia molecular. Para tanto, ele desenvolve sua amostragem por meio da coleta de dados publicados em folhetins e catálogos disponíveis no próprio laboratório. Isso representa uma amostragem por conveniência, uma vez que esses catálogos não apresentam os preços praticados por todos os representantes de vendas que atendem aquela região, porém ofertam uma quantidade significativa de dados e uma facilidade de coleta. Podemos imaginar, também, um arquiteto que deseja estudar a impressão de consumidores quanto à reforma do ambiente físico efetuada em determinado estabelecimento. A coleta de dados é feita por meio de entrevistas com colegas de trabalho, vizinhos e amigos. Isto representa uma amostragem por conveniência. Observação É importante ressaltar que a amostragem por conveniência não garante que a amostra seja representativa da população, devendo ser empregada em situações especiais que justifiquem a sua utilização. Na amostragem por julgamento (ou intencional), a amostra é escolhida segundo a opinião (julgamento prévio) de um especialista. Há risco na escolha dessa abordagem, pois pode haver possível equívoco no prejulgamento. Como a amostragem é elaborada por meio da opinião de uma pessoa, não deve ser considerada representativa da população e nem tampouco científica. Como, por exemplo, uma pesquisa que busca identificar as razões que levariam deputados a votarem a favor ou contra a reforma da previdência. Para isso, o pesquisador entrevista alguns jornalistas que atuam na cobertura do meio político. Podemos imaginar, também, uma pesquisa que visa identificar quais seriam os livros didáticos mais relevantes na área de biologia molecular. Para tal, são entrevistados, em cinco universidades, diversos alunos de mestrado e doutorado dessa área. Para selecionar os alunos, recorre-se a um professor, especialista no assunto, vinculado a cada universidade. Um dos métodos mais utilizados em pesquisas de mercado e de opinião eleitoral é a amostragem por quotas. Essa amostragem apresenta mais rigor quando comparada às demais amostragens não aleatórias. O método consiste em uma variação da amostragem por julgamento: inicialmente, as variáveis de controle ou as características da população consideradas relevantes para o estudo são selecionadas; em seguida, a proporção da população (%) para cada uma das categorias das variáveis 34 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I relevantes é determinada; por fim, são dimensionadas as quotas (número de elementos que possuem as características determinadas), de modo que a amostra tenha proporções iguais à população. Como principais vantagens, destacam-se o baixo custo, a rapidez e a conveniência (ou facilidade) para o entrevistador em selecionar os elementos. Porém, ressalta-se que não há garantia de que a amostra seja representativa da população, pois a seleção dos elementos não é aleatória. Como exemplo, imagine que, em uma cidade pequena, uma lanchonete deseja lançar um novo sanduíche, e seu público-alvo são jovens entre 13 e 25 anos, das classes sociais B e C. A população é dividida em categorias de acordo com as variáveis de controle (idade e classe social). Uma amostra de 5% da população recebe um cupom, garantindo-lhes, gratuitamente, o novo sanduíche na próxima visita ao estabelecimento. Exemplo de aplicação Exemplo 11 Deseja-se realizar uma pesquisa com alunos do primeiro semestre de uma universidade. A pesquisa tem como objetivo identificar o grau de satisfação em diferentes parâmetros, por curso e sexo dos participantes. A tabela a seguir apresenta as frequências absolutas para cada par de categorias das variáveis analisadas. Aplique a amostragem por quotas, considerando que o tamanho da amostra deve ser de 40 estudantes. Quantos alunos deverão ser selecionados em cada categoria? Tabela 5 – Frequências absolutas para cada par de categorias Curso Masculino Feminino Total Biologia 10 20 30 Biomedicina 15 15 30 Enfermagem 40 70 110 Farmácia 20 10 30 Total 85 115 200 Ao observar o enunciado e a tabela anterior, identificamos que as variáveis relevantes são curso e sexo. Com base nos totais da tabela, é possível calcular a proporção da população (%) para cada par de categorias das variáveis analisadas. Os resultados estão descritos na tabela seguinte. Tabela 6 – Proporção da população para cada par de categorias Curso Masculino Feminino Total Biologia 5,0% 10,0% 15% Biomedicina 7,5% 7,5% 15% Enfermagem 20,0% 35,0% 55% Farmácia 10,0% 5,0% 15% Total 42,5% 57,5% 100% 35 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA Multiplicando cada casela da tabela anterior pelo tamanho da amostra (40), obtemos o dimensionamento das quotas que compõem a amostra global, conforme mostra a tabela seguinte. Tabela 7 – Dimensionamento das quotas Curso Masculino Feminino Total Biologia 2 4 6 Biomedicina 3 3 6 Enfermagem 8 14 22 Farmácia 4 2 6 Total 17 23 40 Assim, observe que, para atender o objetivo proposto, para que se alcance uma amostra de 40 indivíduos, utilizando uma estratégia de amostragem por quotas, deverão ser selecionados 2 alunos, do sexo masculino, e 4, do sexo feminino, para curso de biologia; 3, do sexo masculino, e 3, do sexo feminino, para o curso de biomedicina; 8, do sexo masculino, e 14, do sexo feminino, para o curso de enfermagem; 4, do sexo masculino, e 2, do sexo feminino, para o curso de farmácia. A amostragem de propagação geométrica ou bola de neve (snowball) é bastante utilizada quando os elementos da população são raros, de difícil acesso ou desconhecidos. Nesse método, identifica-se um ou mais indivíduos da população-alvo – que identificam outras observações que pertencem à mesma população. O processo é repetido até que seja alcançado o objetivo proposto ou quando os últimos entrevistados não acrescentarem novas informações relevantes à pesquisa, repetindo conteúdos de entrevistas anteriores. Como vantagens, destacam-se: o aumento da possibilidade de localização da característica desejada da população; baixo custo, pois necessita de menos planejamento e pessoas; além de ser eficiente ao penetrar em populações de difícil acesso. Como exemplo, pense em: • uma escola de idiomas que pretende atrair novos alunos e, para cada aluno matriculado, oferece um desconto na mensalidade se ele trouxer um novo aluno para a escola. O processo se repete até que a escola consiga atingir um número mínimo de alunos matriculados. • um pesquisador estudando albinismo, uma doença autossômica recessiva que afeta em torno de 1 a cada 20.000 indivíduos, que decide recrutar voluntários para participarem da pesquisa. O primeiro recrutado indica outro com o mesmo perfil. O processo se repete até que se obtenha o número desejadode participantes. 36 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I 3 DISTRIBUIÇÃO DE FREQUÊNCIA 3.1 Organização e apresentação de dados Quando se estuda uma variável, o maior interesse do pesquisador é conhecer seu comportamento, analisando a ocorrência de suas possíveis realizações. A organização e a apresentação de dados não são independentes da classificação das variáveis em quantitativas ou qualitativas. Uma distribuição de frequência é uma forma intuitiva de organizar e sumariar os resultados, para se ter uma ideia global sobre eles. Existem duas formas distintas de construir tabelas de distribuição de frequência: de forma não agrupada ou agrupada. Uma tabela de distribuição de frequência para dados não agrupados apresenta a contagem de quão frequente é cada valor de uma variável em um conjunto de dados. Em uma tabela de distribuição de frequência para dados agrupados, a contagem se refere a valores de grupos ou intervalos da variável. Tabelas de distribuição de frequência para dados não agrupados geralmente são utilizadas quando os valores que uma variável pode assumir são limitados. Por exemplo, se entrevistássemos pessoas e perguntássemos quantas crianças existem em suas famílias, haveria um número limitado de respostas. A maioria responderia que haveria uma, duas ou três crianças em sua família. Provavelmente quase ninguém responderia dez ou mais crianças. Uma tabela de distribuição de frequência para dados não agrupados envolvendo esses resultados seria compacta, ocupando poucas linhas em uma página, de fácil visualização e interpretação. Agora, se a pergunta fosse sobre quantos alunos havia na sala de aula do entrevistado no último ano do ensino médio, provavelmente teríamos uma distribuição de frequência bem diferente. Poderíamos obter como respostas valores que variariam de poucas unidades a quase uma centena (ou mais). Se construíssemos uma tabela computando cada valor de resposta individualmente, teríamos muitas linhas e possivelmente a tabela percorreria algumas páginas. Nesse caso, faria mais sentido agrupar as respostas em intervalos (menos de 20 alunos, entre 21 e 40 alunos etc.), para tornar a apresentação de dados mais compacta. Tabelas de distribuição de frequência para dados agrupados devem ser construídas quando a variável possuir um número muito grande de valores e for aceitável perder alguma informação ao construir intervalos. Caso a variável possua um número grande de valores, mas seja importante apresentar a frequência de cada um deles, então se deve optar por uma tabela de frequência para dados não agrupados. Imaginemos que 31 indivíduos responderam à pergunta “quantas crianças existem em sua família?”, sendo que 9 entrevistados disseram haver apenas 1 criança; 14 disseram haver 2; 5 disseram haver 3; 2 responderam 4; e apenas 1 respondeu 6. Uma tabela de distribuição de frequência para dados não agrupados envolvendo esses dados é apresentada na tabela a seguir. 37 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA Tabela 8 – Distribuição de frequência dos 31 entrevistados por número de crianças na família Número de crianças na família Frequência (ni) 1 9 2 14 3 5 4 2 5 0 6 1 Total 31 Na construção da tabela, observe os seguintes aspectos: • Os valores de frequência observados estão dispostos ao lado da quantidade de crianças na família. • Existe um título. Todas as tabelas necessitam de títulos que descrevam claramente a informação presente nelas. • As colunas possuem nomes. • Uma linha reportando o total de indivíduos entrevistados foi introduzida para facilitar a visualização no n amostral global. • Embora não tenha havido nenhuma observação para cinco crianças na família, uma linha foi introduzida com frequência zero, apenas para não haver quebra na apresentação do conjunto de dados. A tabela a seguir traz algumas informações a mais. A primeira é a frequência acumulada de um valor, ou seja, o número de vezes que uma variável assume um valor inferior ou igual a esse valor. Por exemplo, há 23 pessoas que têm duas ou menos crianças nas suas famílias. As outras colunas trazem informações referentes às frequências absoluta e acumulada, porém em termos relativos, expressos em porcentagem. Tabela 9 – Distribuição de frequência e porcentagens dos 31 entrevistados por número de crianças na família Número de crianças na família Frequência (n) Frequência acumulada Porcentagem (%) Porcentagem acumulada (%) 1 9 9 29,03 29,03 2 14 23 45,16 74,19 3 5 28 16,13 90,32 4 2 30 6,45 96,77 5 0 30 0,00 96,77 6 1 31 3,23 100,00 Total 31 - 100 - 38 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I Para transformar um valor em porcentagem, basta dividir a frequência pelo total de elementos do conjunto e, em seguida, multiplicar por 100. Por exemplo, na terceira linha: 5 Porcentagem 100 0,1613 100 16,13% 31 = × = × = Isso significa que 16,13% dos entrevistados possuem 3 crianças nas famílias. Já a porcentagem acumulada de um valor reflete o percentual de elementos que assumem um valor inferior ou igual àquele valor. Por exemplo, na segunda linha observamos que a frequência acumulada é 23, assim: 23 Porcentagem acumulada 100 0,7419 100 74,19% 31 = × = × = Isso significa que 74,19% dos entrevistados possuem duas ou menos crianças nas suas famílias. Lembrete A distribuição de frequência para dados não agrupados funciona bem em duas situações: quando a variável apresentar um número limitado de valores possíveis; ou quando o interesse for documentar cada um dos valores que a variável puder assumir. Quando lidamos com uma variável que possui uma grande amplitude com muitas possibilidades de respostas, uma distribuição de frequência para dados agrupados faz mais sentido, pois funcionam bem quando houver uma ordem nos valores que a variável puder assumir, ou seja, se a escala for ordinal, intervalar ou de razão. Dados nominais até podem ser agrupados se houver alguma lógica na categorização. Imagine que um psicólogo coletou informações detalhadas sobre os diagnósticos de seus pacientes – se possuíam depressão unipolar, distimia, transtorno bipolar, transtorno obsessivo-compulsivo, fobias, transtorno de ansiedade generalizada, alcoolismo e vício em heroína. Essas respostas poderiam ser agrupadas em categorias de transtornos de humor, transtornos de ansiedade e desordens de abuso de substâncias. Lembrete Em uma escala nominal, somente podemos afirmar se uma medida é diferente ou não de outra; ela é usada para categorizar indivíduos de uma população. Um exemplo é pelo sexo. Para variáveis que são medidas em escala ordinal, intervalar ou de razão, o primeiro passo é decidir quantos intervalos serão incluídos em uma distribuição de frequência para dados agrupados. É preciso haver equilíbrio entre a quantidade de detalhes apresentada e o número de intervalos. Uma recomendação é 39 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA não haver poucos intervalos, de forma que detalhes importantes do conjunto sejam perdidos; tampouco muitos, de forma que a ideia geral se perca em detalhes. Não existe um número fixo de intervalos sempre possíveis, mas uma regra prática (rule of thumb) habitualmente utilizada é de 7±2, ou seja, de cinco a nove intervalos. Note que essa é uma regra prática – se for melhor usar menos de cinco ou mais de nove intervalos para a comunicação da mensagem desejada, que assim seja. Observação Rule of thumb é uma expressão em inglês que designa um princípio ou critério amplamente utilizado, derivado da experiência, embora carente de fundamento científico e não necessariamente preciso. Observe a tabela a seguir, que apresenta os casos com alterações no crescimento e desenvolvimento possivelmente relacionadas à infecçãopelo vírus zika e a outras etiologias infecciosas. Esses dados serão utilizados para construção de uma tabela de distribuição de frequência para dados agrupados. Tabela 10 – Número de casos suspeitos e casos confirmados de alterações no crescimento e desenvolvimento possivelmente relacionadas à infecção pelo vírus zika e outras etiologias infecciosas, entre as semanas epidemiológicas 45/2015 e 45/2018, por unidade da Federação, em ordem decrescente de casos confirmados Unidade da Federação Casos suspeitos notificados Casos confirmados Bahia 2.657 549 Pernambuco 2.779 465 Rio de Janeiro 1.177 290 Paraíba 1.174 203 Maranhão 501 187 São Paulo 1.637 169 Ceará 835 162 Rio Grande do Norte 633 151 Sergipe 317 138 Goiás 506 126 Minas Gerais 976 123 Piauí 301 119 Alagoas 708 105 Mato Grosso 447 79 Amazonas 140 73 Espírito Santo 435 71 Rio Grande do Sul 404 44 Distrito Federal 248 33 Rondônia 132 33 40 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I Mato Grosso do Sul 74 31 Tocantins 397 30 Pará 157 22 Santa Catarina 48 21 Roraima 49 18 Amapá 37 17 Paraná 70 10 Acre 61 10 Fonte: Brasil (2018b, p. 6). A primeira tarefa é determinar em quantos intervalos os dados serão divididos. É importante destacar que os intervalos não devem se sobrepor. Observe a amplitude do número de casos confirmados, sendo o maior valor 549, para o estado da Bahia, e o menor valor 10, para os estados do Paraná e Acre. Uma opção seria dividi-los em múltiplos de 100, com seis intervalos (0 a 99, 100 a 199, 200 a 299, 300 a 399, 400 a 499 e 500 a 599). Observe a tabela a seguir. Tabela 11 – Distribuição de frequência para dados agrupados e porcentagens referentes ao número de casos confirmados de alterações no crescimento e desenvolvimento possivelmente relacionadas à infecção pelo vírus zika e outras etiologias infecciosas, entre as semanas epidemiológicas 45/2015 e 45/2018 Número de casos confirmados Frequência (n) Frequência acumulada Porcentagem (%) Porcentagem acumulada (%) 0-99 14 14 51,85 51,85 100-199 9 23 33,33 85,19 200-299 2 25 7,41 92,59 300-399 0 25 0,00 92,59 400-499 1 26 3,70 96,30 500-599 1 27 3,70 100,00 Total 27 - 100 - Adaptada de: Brasil (2018b). Lembrete Anteriormente destacamos que os números podem ser divididos em quatro escalas de medição: nominal, ordinal, intervalar e de razão. Além disso, vimos que variáveis podem ser categóricas ou numéricas, sendo estas classificadas como discretas ou contínuas. Valores discretos respondem a perguntas que expressam contagem. Por exemplo, se perguntássemos quantas fraturas ósseas uma pessoa sofreu na vida ou quantos episódios de enxaqueca já vivenciaram, 41 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA todas as respostas seriam valores discretos, pois apenas valores inteiros seriam assumidos como respostas. As escalas de medição nominal e ordinal sempre assumem valores discretos e, em alguns casos, as escalas de medição intervalar e de razão também podem assumi-lo. Valores contínuos, por outro lado, respondem a perguntas que expressam medição. Por exemplo, questionamentos como “qual é a massa de um elefante?” ou “qual é a distância da Terra ao Sol?” assumiriam valores contínuos como respostas, pois poderíamos obter frações como respostas. A massa de um objeto é um valor contínuo. Suponha que a massa de um béquer vazio seja de 100 g, conforme informação do fabricante. Será que sua massa é de exatamente 100 g? Se utilizássemos uma balança semianalítica, poderíamos evidenciar que a massa desse mesmo béquer seria, na verdade, de 100,34 g. Com uma balança analítica, com ainda mais precisão, veríamos que o mesmo béquer poderia assumir massa igual a 100,3456 g. A massa do béquer dependerá da precisão da balança utilizada para medição. Em teoria, valores contínuos podem sempre ser mais exatos se utilizarmos um equipamento mais preciso. Existe uma expressão popular que diz que “uma imagem vale mais que mil palavras”. Em estatística, gráficos são as imagens que podem ser utilizadas para apresentar informações referentes a conjuntos de dados e suas distribuições de frequência. Vamos destacar, inicialmente, três gráficos diferentes que apresentam frequências: • gráfico de barras (ou de colunas); • histograma; • polígono de frequência. A escolha do gráfico mais adequado dependerá do tipo de valores com os quais se trabalha: discretos ou contínuos. Se os valores forem discretos, um gráfico de barras é a melhor escolha; já se forem contínuos, prefira o histograma ou o polígono de frequência. Observação A escolha do gráfico também dependerá da escala de medição. Escalas nominais e ordinais sempre assumem valores discretos, logo devem ser representadas por gráficos de barras. Se a variável assumir escala intervalar ou de razão, use um histograma ou polígono de frequência. Gráficos de barras são utilizados para ilustrar a frequência com a qual diferentes valores de uma variável categórica ocorrem. Por exemplo, a variável sexo é uma variável categórica nominal que assume valores discretos. Imaginemos que, em uma sala de aula contendo 45 estudantes, 33 sejam do sexo feminino e 12 do sexo masculino. Um gráfico de barras para esses dados está apresentado na figura a seguir. Note que, em geral, gráficos são mais largos do que altos, ou seja, o eixo das abscissas (x) é maior 42 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I que o eixo das ordenadas (y). As diferentes categorias da variável sexo, masculino e feminino, vão no eixo x, enquanto o eixo y representa a frequência de observações. Tabela 12 – Distribuição de frequência da variável sexo em uma amostra hipotética de 45 estudantes Sexo Frequência (n) Porcentagem (%) Masculino 12 26,67 Feminino 33 73,33 Total 45 100 Uma distribuição de frequência para uma variável categórica nominal fornece apenas a informação da frequência e da porcentagem em cada categoria. Como a ordem das categorias é arbitrária, não calcule a frequência acumulada ou a porcentagem acumulada. 0 5 10 15 20 25 30 35 Masculino Feminino Sexo Fr eq uê nc ia Figura 5 – Gráfico de barras mostrando a frequência da variável sexo em uma amostra hipotética de 45 estudantes. As barras não se encostam uma na outra, pois a variável categórica nominal representada no eixo x assume valores discretos Observação Por que a escala do eixo y vai até 35 na figura anterior? Porque a maior frequência observada foi de 33 (sexo feminino), e o eixo deve acomodar este valor. Observe que, tal como as tabelas, os gráficos devem possuir um título adequado, uma menção do n total e rótulos claros e objetivos (títulos dos eixos x e y). Quando construímos gráficos à mão, é imprescindível dispormos de papel milimetrado, régua e lápis. Compare a tabela anterior com a figura anterior, que apresentam exatamente a mesma informação. No gráfico, a diferença de altura entre as barras nos chama a atenção, exaltando que há mais mulheres do que homens nessa amostra de indivíduos. 43 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA Exemplo de aplicação Exemplo 12 Uma moeda pode ter dois resultados possíveis: cara ou coroa. Jogue uma moeda 20 vezes e registre os resultados obtidos. Em seguida, construa à mão um gráfico de barras para expor as frequências observadas e exercitar o processo descrito acima. Não se esqueça de usar régua. Imaginemos, agora, que dispomos de dados de natureza contínua, como aqueles apresentados na tabela a seguir, indicando a média do percentual diário de umidade na cidade de Goiânia entre 26/01/2018 e 25/01/2019, adaptados do site do Instituto Nacional de Meteorologia (Inmet). Tabela 13 – Média diária do percentual de umidade na cidade de Goiânia entre 26/01/2018 e 25/01/2019 DataUmidade (%) média diária Data Umidade (%) média diária Data Umidade (%) média diária 26/01/2018 79,79 24/02/2018 78,67 28/12/2018 79,96 27/01/2018 71,75 25/02/2018 74,38 29/12/2018 71,67 28/01/2018 80,88 26/02/2018 81,63 30/12/2018 68,83 29/01/2018 80,00 27/02/2018 72,71 31/12/2018 74,21 30/01/2018 82,00 28/02/2018 77,38 01/01/2019 72,46 31/01/2018 79,96 01/03/2018 67,83 02/01/2019 71,58 01/02/2018 79,17 02/03/2018 76,75 03/01/2019 64,25 02/02/2018 76,83 03/03/2018 70,04 04/01/2019 70,17 03/02/2018 82,54 04/03/2018 70,25 05/01/2019 78,83 04/02/2018 77,88 05/03/2018 68,21 06/01/2019 71,75 05/02/2018 79,21 06/03/2018 81,88 07/01/2019 66,58 06/02/2018 73,00 07/03/2018 82,00 08/01/2019 64,08 07/02/2018 77,79 08/03/2018 84,42 09/01/2019 55,92 08/02/2018 72,71 09/03/2018 83,75 10/01/2019 56,79 09/02/2018 74,58 ... ... 11/01/2019 65,00 10/02/2018 81,75 14/12/2018 73,96 12/01/2019 68,08 11/02/2018 71,83 15/12/2018 61,83 13/01/2019 78,21 12/02/2018 71,83 16/12/2018 58,00 14/01/2019 65,96 13/02/2018 65,25 17/12/2018 55,67 15/01/2019 65,29 14/02/2018 55,04 18/12/2018 52,79 16/01/2019 65,25 15/02/2018 55,75 19/12/2018 55,46 17/01/2019 64,75 16/02/2018 61,92 20/12/2018 51,25 18/01/2019 70,92 17/02/2018 61,25 21/12/2018 58,17 19/01/2019 70,79 18/02/2018 74,00 22/12/2018 64,92 20/01/2019 67,71 19/02/2018 73,08 23/12/2018 63,25 21/01/2019 68,96 44 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I 20/02/2018 77,88 24/12/2018 63,13 22/01/2019 63,46 21/02/2018 73,58 25/12/2018 72,33 23/01/2019 56,54 22/02/2018 85,33 26/12/2018 75,42 24/01/2019 55,13 23/02/2018 84,88 27/12/2018 69,04 25/01/2019 62,33 Nota: nem todos os dados são apresentados em virtude da grande quantidade (n = 365). A pesquisa é restrita aos últimos 365 dias. Adaptada de: Inmet (2019). Com tantos dados disponíveis, é praticamente impossível extrair alguma informação direta sobre o perfil de distribuição desses dados olhando apenas para a tabela. Para alcançar esse objetivo, é preciso recorrer a um recurso visual: o histograma, gráfico que apresenta a distribuição de frequência para valores contínuos. Tal como o gráfico de barras, a altura dos retângulos é proporcional à respectiva frequência (quanto mais dados tivermos em cada classe, mais alto deverá ser o retângulo), contudo as barras do histograma são contíguas. Observe a figura a seguir e note como se torna mais fácil a extração de informações gerais do conjunto de dados: é possível perceber, pela altura das barras, que a faixa de percentual de umidade observada com maior frequência está entre 61 e 72%. 0 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 5 10 15Fr eq uê nc ia Umidade (%) 20 25 30 35 40 Figura 6 – Histograma apresentando a distribuição de frequência para a média diária do percentual de umidade na cidade de Goiânia, entre 26/01/2018 e 25/01/2019. Intervalos correspondem a variações de 3 pontos percentuais. As barras se encostam umas nas outras, pois a variável numérica representada no eixo x assume valores contínuos Observação Quantos intervalos (ou classes) deve possuir um histograma? Para um conjunto com poucas observações, não faz muito sentido criar muitos intervalos. Uma regra prática bastante usada sugere efetuar a raiz quadrada do n amostral total. O valor da resposta será um indicativo aproximado do número de classes adequado. 45 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA Um polígono de frequência, também conhecido como gráfico em linha, é uma alternativa ao histograma, usando-se linha em vez de barras. Sua construção se dá por meio da união dos pontos médios do topo dos retângulos de um histograma. As frequências nesse gráfico vão de zero, na extrema esquerda, a zero, na extrema direita. Tanto o histograma quanto o polígono de frequência são adequados para representar a distribuição de frequência de uma variável numérica com valores contínuos, e a escolha de um ou de outro é uma questão de preferência pessoal. 0 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 5 10 15Fr eq uê nc ia Umidade (%) 20 25 30 35 40 Figura 7 – Polígono de frequência para a média diária do percentual de umidade na cidade de Goiânia entre 26/01/2018 e 25/01/2019. Intervalos correspondem a variações de 3 pontos percentuais. As frequências são representadas por pontos dispostos nas alturas apropriadas, em posição central de cada intervalo. Em seguida, os pontos são conectados por linhas. O polígono deve iniciar e terminar com frequência zero Exemplo de aplicação Exemplo 13 Retorne aos dados da tabela 10, que apresenta a distribuição de frequência para dados agrupados referentes ao número de casos confirmados de alterações no desenvolvimento possivelmente relacionadas à infecção pelo vírus zika. Com base nesses dados, construa à mão um histograma e um polígono de frequência. Não se esqueça de usar régua. 3.2 Formatos das distribuições de frequência Uma vez apresentados os principais recursos gráficos para visualização das distribuições de frequência, é importante dar atenção aos formatos que elas podem assumir. Existem três aspectos importantes que merecem destaque: modalidade, assimetria e curtose. Conhecendo o formato da distribuição dos dados com os quais se trabalha, é possível avaliar se certos cálculos podem ou não ser empregados. Por exemplo, a média de um conjunto pode ser uma estatística inadequada para descrevê-lo, caso o formato da distribuição possua certa irregularidade. 46 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I Um exemplo de formato bastante comum é apresentado na figura a seguir. Muitos o chamam de curva em forma de sino, mas os estatísticos o chamam de curva normal ou distribuição normal. Esta curva possui um ponto mais alto, ao centro, e a frequência de observação de eventos diminui simetricamente à medida que nos distanciamos do ponto central. Observação Ser simétrico significa que, ao dividir a curva em duas metades iguais, o lado esquerdo é uma imagem espelho do lado direito. Variável numérica Fr eq uê nc ia Figura 8 – Distribuição normal, também conhecida como curva em forma de sino A modalidade, o primeiro dos três aspectos utilizados para descrever o formato de uma distribuição, refere-se a quantos picos existem na curva de distribuição. O pico, ou ponto alto da curva, é chamado de moda e representa o valor ou intervalo com a maior frequência observada. A distribuição normal possui apenas um pico no centro da distribuição e, portanto, é considerada unimodal. Uma distribuição que possua dois picos é chamada de bimodal. Se uma distribuição possuir três ou mais picos é considerada multimodal. Variável numérica Fr eq uê nc ia Variável numérica Fr eq uê nc ia A) B) Figura 9 – Exemplos de distribuições com mais de uma moda. Distribuição bimodal (A) e multimodal (B) A segunda característica para descrever os formatos de uma distribuição é a assimetria. Vimos que a distribuição normal é perfeitamente simétrica, pois as metades esquerda e direita são imagem 47 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA espelho uma da outra. Se a distribuição de frequências se concentrar do lado direito, de modo que a cauda à esquerda seja mais alongada que a cauda à direita, temos uma distribuição assimétrica negativa ou à esquerda. Caso ocorra o oposto e a cauda à direita seja mais alongada que a cauda à esquerda, teremos uma distribuição assimétrica positiva ou à direita. As palavras positiva ou negativa não refletem conotação de bom ou mau, apenas indicam para qual direção do eixo x a cauda se alonga mais. Observe a figura a seguir, que traz o perfil de distribuição da idade de 209 homens que foram atendidos na emergência de um hospital,queixando-se de dores no peito. Note como a cauda à esquerda é mais alongada horizontalmente do que a cauda à direita, indicando que estes dados apresentam assimetria negativa. 0 24 28 32 36 40 44 48 52 56 60 64 68 5 10 15 20 25 30 Fr eq uê nc ia Idade Figura 10 – Histograma para a idade de homens que deram entrada na emergência de um hospital queixando-se de dores no peito. Intervalos correspondem a variações de 2 anos. A cauda à esquerda é mais alongada horizontalmente do que a cauda à direita, indicando que esses dados apresentam assimetria negativa (n = 209) O terceiro aspecto de uma distribuição é a curtose, que corresponde a uma forma elegante de dizer quão achatada ou não uma distribuição de frequências é em relação a uma distribuição teórica (que geralmente corresponde à distribuição normal). Em outras palavras, atenta-se à altura do pico da curva. Quando a forma da distribuição não for muito achatada e nem muito alongada, assemelhando-se à curva normal, é denominada mesocúrtica. Por outro lado, quando a distribuição apresentar uma curva de frequências mais achatada que a curva normal, é denominada platicúrtica. Agora, caso a distribuição apresente uma curva de frequências mais alongada que a curva normal, é denominada leptocúrtica. Observe o histograma da figura a seguir, que apresenta a distribuição de frequência da precipitação diária total entre 26/01/2018 e 25/01/2019 na cidade de Goiânia. Note como a primeira barra do histograma é muito mais alta que as demais, indicando que, neste período, a maior frequência de precipitação diária total ficou entre 0 e 4 mm. Além disso, observa-se assimetria positiva. 48 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I 0 0 8 16 24 32 40 48 56 64 72 20 40 60 80 100 120 140 160 180 200 220 240 Fr eq uê nc ia Precipitação (mm) Figura 11 – Histograma da variável precipitação diária total na cidade de Goiânia entre 26/01/2018 e 25/01/2019. Intervalos correspondem a variações de 4 mm. A distribuição de frequência é leptocúrtica com assimetria positiva (n = 365) Tanto o histograma quanto o polígono de frequência dão uma ideia da forma da distribuição da variável em estudo – cujas características veremos mais adiante, como medidas de posição e dispersão. Mas a forma da distribuição é tão importante quanto essas medidas. Um procedimento alternativo para resumir um conjunto de dados, com o objetivo de obter uma ideia da forma de sua distribuição, é o diagrama de ramos e folhas, uma combinação de tabela e gráfico. Ele contém todos os dados originais como uma tabela de distribuição de frequência para dados não agrupados, divididos em intervalos (como uma distribuição de frequência para dados agrupados) e dispostos de forma visualmente organizada (como um gráfico). Um diagrama de ramos e folhas divide os números: as folhas são os últimos dígitos à direita de um número; os ramos são os dígitos que os precedem. Para ilustrar a construção desse diagrama, imaginemos que um grupo de estudantes solicitou uma porção de batatas fritas e, com auxílio de uma régua, mediu o comprimento de cada batata, aproximando o valor para o milímetro mais próximo. A figura a seguir apresenta o histograma do perfil de distribuição dos dados coletados. Compare-a com a tabela a seguir. 0 0 20 40 60 80 100 120 140 2 4 6 8 10 12 14 16 18 20 Fr eq uê nc ia Comprimento (mm) Figura 12 – Histograma do comprimento de batatas fritas. Intervalos correspondem a variações de 10 mm. A distribuição de frequências se assemelha à distribuição normal – curva sobreposta (n = 99) 49 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA Tabela 14 – Diagrama de ramos e folhas para comprimento de batatas fritas 1 79 2 5 3 345 4 000146667889 5 0012234445668 6 033333555668999 7 0001444567778889999 8 1234 9 00000235678 10 133444555 11 23466 12 0569 13 14 2 Nota: esse diagrama apresenta os mesmos dados do histograma da figura 12, com o mesmo perfil que se aproxima a uma distribuição normal – vire o diagrama 90° e observe o perfil na horizontal (n = 99). Adaptada de: Corty, (2016). Observação No diagrama de ramos e folhas, note que os ramos estão dispostos em ordem crescente, de cima para baixo. As folhas para cada ramo estão em ordem crescente, da esquerda para a direita. Assim, quem são os dois menores valores deste conjunto? Ramo = 1 e folhas = 7 e 9, logo 17 e 19 mm. Qual o comprimento da maior batata? Ramo = 14 e folha = 2, logo 142 mm. Saiba mais Para mais informações sobre o emprego de tabelas e recursos gráficos, consulte: BUSSAB, W. O.; MORETTIN, P. A. Estatística básica. 8. ed. São Paulo: Saraiva, 2013. CALLEGARI-JACQUES, S. M. Bioestatística: princípios e aplicações. Porto Alegre: Artmed, 2003. 50 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I 4 MEDIDAS-RESUMO 4.1 Medidas de posição central Vimos que o resumo de dados por meio de tabelas de frequências e diagramas de ramos e folhas fornece muito mais informações sobre o comportamento de uma variável do que a própria tabela original de dados. Veremos aqui que é possível resumir ainda mais esses dados, apresentando um ou alguns valores que sejam representativos de toda a série. Os estatísticos chamam esses valores de medidas de posição (ou localização) central e, usualmente, emprega-se a média, a mediana ou a moda. A média aritmética é um conceito familiar a todos e corresponde ao somatório das observações dividido pelo número delas. Matematicamente podemos representá-la conforme a equação a seguir: X M n ∑ = Sendo M = a média amostral X∑ = o somatório dos valores da variável X n = o número de observações da amostra Supondo que um estudante deseje avaliar a média de altura de cinco colegas. A altura em centímetros dos cinco indivíduos aleatoriamente selecionados em sua classe foi de: 157, 165, 167, 175 e 185. Aplicando-se a equação anterior, tem-se: ( )157 165 167 175 185 M 5 + + + + = 849 M 169,8 cm 5 = = O estudante reportaria que a média de altura na amostra dos cinco colegas é de 169,8 cm (ou, para fins práticos, aproximadamente 1,70 m). A média também é útil, pois é possível avaliar o quanto um valor individual se distancia dela. Essa medida é chamada de erro ou desvio e é calculada conforme a seguinte equação: Erro X M= − 51 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA Os erros ou desvios, para uma distribuição normal, são apresentados na figura a seguir. Independentemente do formato da distribuição dos dados, erros positivos indicam que os valores observados estão acima da média, já erros negativos indicam que estão abaixo. Erros negativos Erros positivos Média Figura 13 – Erros ou desvios em função da média. Os desvios são calculados subtraindo a média de um conjunto de dados a partir de um valor observado. Desvios positivos indicam que os valores do conjunto são maiores que a média, já desvios negativos indicam que são menores. Valores exatamente iguais à média terão desvios nulos. Quanto mais distante da média, mais à esquerda ou à direita se encontrará um valor observado Se tomarmos os dados do exemplo anterior e observarmos os valores dos desvios, teremos os resultados expostos a seguir. Tabela 15 – Erros ou desvios em função da média para a altura de cinco estudantes Altura Desvio (X – M) 157 -12,8 165 -4,8 167 -2,8 175 5,2 185 15,2 Σ = 0,0 Note que a soma dos desvios é igual a zero. Isso sempre ocorrerá, pois a média é um valor central de um conjunto de dados e seu cálculo envolve todos os valores do conjunto. A média, portanto, divide os valores do conjunto a sua esquerda e a sua direita. Como os desvios indicam quanto cada valor se distancia da média, ao somá-los entre si, tem-se um distanciamento nulo em função da média.Um problema com a média é que ela pode sofrer influência de valores extremos, conhecidos amplamente a partir do termo outliers, em inglês. Em nosso exemplo, se alguém muito baixo ou muito alto fosse adicionado à amostra, isso teria um grande impacto sobre a média de altura dos indivíduos. 52 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I Robert Wadlow nasceu em 1918 e detém o recorde mundial de homem mais alto que já existiu. Devido à superprodução de hormônio do crescimento em sua hipófise, ele atingiu 272 cm (2,72 m), próximo a sua morte, em 1940. Imagine se ele pertencesse à amostra como um sexto participante: ( )157 165 167 175 185 272 M 6 + + + + + = 1121 M 186,83 cm 6 = ≅ Note que a adição de um outlier causou um aumento de aproximadamente 17 cm na média amostral (em termos práticos, de 1,70 m para 1,87 m), um impacto muito grande por conta de apenas um valor do conjunto. Figura 14 – Robert Wadlow – que detém o recorde mundial de homem mais alto que já existiu – e seu pai. Vemos sua altura em comparação ao pai, que media 182 cm Vejamos agora outra medida de posição central, a mediana (Md), que não é tão influenciada pela presença de outliers. A mediana é o valor que ocupa a posição central de um conjunto ordenado de dados. Em outras palavras, ela é o número que separa os valores de um conjunto em duas metades. A forma mais fácil de calcular a mediana é efetuando uma contagem: primeiramente, ordena-se os valores do menor ao maior e atribui-se a cada um deles uma posição no conjunto (1, 2, 3 etc.); em seguida, descobre-se qual a posição do valor central por meio do cálculo n 1 2 + . 53 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA Consideremos os cinco valores de altura expostos anteriormente. Após organizá-los em ordem crescente e lhes atribuir uma posição, calcula-se qual o posto do valor em posição central, conforme o cálculo a seguir: n 1 5 1 6 3 2 2 2 + + = = = A mediana será o valor que ocupa a terceira posição do conjunto ordenado. Observe a tabela a seguir. Tabela 16 – Calculando a mediana para os valores de altura (n = 5) Posição Altura (cm) 1 157 2 165 3 167 4 175 5 185 Nota: a mediana, 167 cm, valor que ocupa a terceira posição, está destacada em negrito. Observação Observe que o cálculo n 1 2 + dará como resultado a posição (ou posto) de um valor no conjunto de dados ordenado, não o valor direto da mediana. A mediana será o valor que ocupar o posto obtido a partir desse cálculo. A mediana sofre uma influência muito menor de outliers do que a média, pois em seu cálculo os valores devem ser ordenados. Vejamos o que aconteceria se adicionássemos a nosso conjunto de alturas a medida de Robert Wadlow. Agora, com seis elementos, a mediana será o valor que ocupa qual posição do conjunto ordenado? n 1 6 1 7 3,5 2 2 2 + + = = = O que seria uma posição 3,5? Ao organizar os valores, conforme a tabela a seguir, temos uma posição número 3 e outra número 4. Logo, a posição número 3,5 está entre elas. Como a posição 3 corresponde ao valor de altura de 167 cm e a posição 4, ao valor de 175 cm, entende-se que a mediana corresponde à média desses dois valores, logo: 167 175 342 171 2 2 + = = A mediana para os seis casos é 171 cm. 54 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I Tabela 17 – Calculando a mediana para os valores de altura, após a adição do outlier (n = 6) Posição Altura (cm) 1 157 2 165 3 167 . X (171) 4 175 5 185 6 272 Nota: o ponto na primeira coluna indica a posição do número 3,5. O X na segunda coluna indica o valor equivalente no conjunto, associado a essa posição. Antes da adição do outlier no conjunto, o valor da mediana era 167 cm; após sua adição, ela se tornou apenas 4 cm maior (Md = 171 cm). Em comparação, a média sofreu um aumento de 17 unidades quando o mesmo valor foi adicionado ao conjunto. Medianas são menos afetadas por outliers do que médias, porque valores das extremidades do conjunto ordenado não impactam no seu cálculo. A terceira medida de posição central chama-se moda (Mo) e corresponde ao valor que ocorre com a maior frequência em um conjunto de dados. Para o conjunto hipotético utilizado até então (variável altura) não há moda, pois todos os valores ocorrem com a mesma frequência (apenas uma vez cada). Se retomarmos os valores da tabela 12, em uma sala de aula contendo 45 estudantes, 33 eram do sexo feminino e 12 do sexo masculino. A maior frequência é para o sexo feminino, portanto essa é a moda. Para calcular a moda de uma variável, necessita-se apenas de sua distribuição de frequências. Já para a mediana, é preciso, minimamente, ordenar os valores observados. Finalmente, a média só pode ser calculada para variáveis numéricas. O quadro seguinte traz quais medidas de posição central podem ser usadas em cada escala de medição. Quadro 2 – Como escolher a medida de posição central adequada em função da escala de medição dos valores da variável Escala de medição Moda Mediana Média Nominal X Ordinal X X Intervalar ou de razão X X X 55 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA Observação Nem todas as medidas de posição central podem ser usadas em todas as escalas de medição. Quando mais de uma medida puder ser empregada, escolha aquela que utilizar mais das informações disponíveis nos números. Ao pretender calcular uma média, observe o formato da distribuição de frequência dos dados do conjunto, investigando, sobretudo, a assimetria e a modalidade. É importante saber escolher adequadamente a medida de posição central para representar adequadamente um conjunto de dados. Se a escala de medição dos dados for nominal, apenas a moda poderá ser descrita como medida de posição central. Com dados em escala ordinal, há duas opções: a moda e a mediana. Para dados em escala intervalar ou de razão, existem três opções possíveis: a moda, a mediana ou a média. Quando mais de uma opção de medida de posição central for possível, escolha aquela que forneça mais informações. Mas, em certas ocasiões, a média pode não ser o melhor parâmetro de escolha, sobretudo quando houver a presença de outliers no conjunto. 4.2 Medidas de variabilidade (ou de dispersão) O resumo de um conjunto de dados por uma única medida representativa da posição central esconde toda a informação sobre a variabilidade desse conjunto. Os estatísticos definem variabilidade como um grau de espalhamento dos dados em um conjunto. Em outras palavras, é importante avaliar se os dados são apresentados numericamente próximos ou não. Variável numérica hipotética Fr eq uê nc ia 0 50 100 150 200 Figura 15 – Conjuntos com a mesma medida de posição central, porém com variabilidade distinta. Nesse exemplo, note que ambas as curvas apresentam a mesma medida de posição central (média = 100), entretanto os conjuntos possuem variabilidade distinta: os valores do conjunto representado pela curva em azul estão mais próximos entre si, o que confere à curva perfil mais estreito no eixo horizontal; já os valores do conjunto representado pela curva em vermelho estão mais distantes entre si, o que confere à curva perfil mais amplo no eixo horizontal 56 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I Tanto as medidas de posição central quanto as medidas de variabilidade (ou de dispersão) são importantes para descrever um conjunto de dados. Abordaremos, agora, os conceitos de quatro medidas de variabilidade: amplitude, amplitude interquartílica, variância e desvio padrão. A medida de variabilidade mais simples é a amplitude, a variação entre o maior e o menor valor de um conjunto: Amplitude = Xmaior – Xmenor Considerando os cinco valores de altura expostos anteriormente e ordenadosna tabela 16, note o maior valor corresponde, de 185 cm, e o menor, de 157 cm, portanto a amplitude desse conjunto será de 28 cm: Amplitude = Xmaior – Xmenor Amplitude = 185 – 157 = 28 cm Com a amplitude é fácil comparar a variabilidade de um conjunto com outro: se o valor da amplitude for maior em um conjunto A do que em um conjunto B, então os dados do conjunto A possuem maior variabilidade. Uma vez que, no cálculo da amplitude, são levadas em conta apenas a maior e a menor observação, é de se imaginar que a presença de outliers em um conjunto exercerá forte efeito nessa medida. Sua influência pode ser minimizada se excluindo os valores extremos antes de calcular a amplitude. A questão é: quantos e quais valores remover? Uma solução consiste em retirar do total do conjunto os 25% que estiverem na porção inferior e os 25% que estiverem na porção superior do conjunto ordenado. Dessa forma, a amplitude será calculada entre os 50% centrais do conjunto. Essa medida é conhecida como amplitude interquartílica. Observação Existe um problema com o uso da amplitude: ela depende apenas do maior e do menor valor para ser calculada, de tal forma, ignorando a maior parte dos dados e sofrendo efeito de valores extremos (outliers). A amplitude interquartílica é assim chamada pois os dados são divididos em quatro partes iguais (quartis). Cada quartil contém 25% das observações de um conjunto. A amplitude interquartílica representa a distância contemplada pelos dois quartis centrais. 57 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA Primeiro quartil Segundo quartil Mediana Amplitude interquartílica Terceiro quartil Quarto quartilq1 q2 q3 Figura 16 – Quartis e amplitude interquartílica. Um conjunto de dados pode ser dividido em quartis, quatro seções contendo 25% das observações cada. A amplitude interquartílica corresponde à distância contemplada pelos dois quartis centrais Três valores são necessários para dividir um conjunto ordenado em quatro partes iguais. Por exemplo, imagine quantas moedas de 25 centavos seriam necessárias para dividir R$ 1,00 em quatro partes iguais. Ordenando-se as quatro moedas, observa-se ser possível fracionar o conjunto de três formas: • uma moeda à esquerda e três à direita; • duas moedas à esquerda e duas à direita; • três moedas à esquerda e uma à direita. Com a soma das moedas, note que três valores importantes permitem seccionar o conjunto em quatro partes iguais. São eles: R$ 0,25, R$ 0,50 e R$ 0,75. A mediana divide o conjunto em duas metades iguais, portanto é conhecida como segundo quartil (q2). O quartil inferior (primeiro quartil ou q1) corresponde à mediana da primeira metade, e o quartil superior (terceiro quartil ou q3), à mediana da segunda metade. A amplitude interquartílica corresponde à variação entre q3 e q1: Amplitude interquartílica = q3 – q1 Exemplo de aplicação Exemplo 14 Considere os seguintes valores de idade (anos) de 20 indivíduos em uma amostra: 16, 17, 18, 21, 22, 23, 24, 25, 26, 29, 32, 34, 34, 35, 36, 42, 43, 46, 46, 49. A mediana será o valor que ocupa qual posição do conjunto ordenado? Resolução Temos, assim: n 1 20 1 21 10,5 2 2 2 + + = = = 58 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I O que seria uma posição 10,5? Ao organizar os valores, a posição número 10,5 está entre a posição 10 e 11. Como a posição 10 corresponde ao valor de idade de 29 anos e a posição 11 corresponde a 32 anos, entende-se que a mediana corresponde à média desses dois valores, logo: 16, 17, 18, 21, 22, 23, 24, 25, 26, 29, 32, 34, 34, 35, 36, 42, 43, 46, 46, 49. 29 32 61 30,5 2 2 + = = A mediana para os vinte casos é 30,5 anos. Como a mediana divide o conjunto em duas metades iguais (no caso, com 10 elementos cada), o q1 será a mediana da primeira metade e o q3 será a mediana da segunda metade. Como cada metade possui 10 elementos, sua posição será: n 1 10 1 11 5,5 2 2 2 + + = = = A posição número 5,5 está entre a posição 5 e 6. Na primeira metade, a posição 5 corresponde ao valor de idade de 22 anos e a posição 6, a 23 anos; entende-se que mediana da primeira metade corresponda à média desses dois valores. Na segunda metade, a posição 5 corresponde ao valor de idade de 36 anos e a posição 6, a 42 anos; entende-se que mediana da segunda metade corresponda à média desses dois valores. Logo: 16, 17, 18, 21, 22, 23, 24, 25, 26, 29 l 32, 34, 34, 35, 36, 42, 43, 46, 46, 49. 1 22 23 45 q 22,5 2 2 + = = = 3 36 42 78 q 39 2 2 + = = = O quartil inferior (q1) é 22,5 anos e o quartil superior (q3) é 39 anos. A amplitude interquartílica corresponde à variação entre q3 e q1: Amplitude interquartílica = q3 – q1 Amplitude interquartílica = 39 – 22,5 = 16,5 Assim, a amplitude interquartílica dessa amostra é de 16,5 anos, ou seja, a variação de idade dos 50% centrais do conjunto é de 16,5 anos. Exemplo 15 O conjunto retratado no exemplo anterior era par (idade, em anos, de 20 indivíduos). Imagine que um 21º valor fosse adicionado ao conjunto (57 anos): 16, 17, 18, 21, 22, 23, 24, 25, 26, 29, 32, 34, 34, 35, 36, 42, 43, 46, 46, 49, 57. Proceda com o cálculo, sendo uma quantidade ímpar. A mediana será o valor que ocupa qual posição do conjunto ordenado? 59 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA Resolução Temos, assim: n 1 21 1 22 11 2 2 2 + + = = = A mediana será o valor que ocupa 11ª posição do conjunto ordenado, ou seja, 32 anos. Sabemos que a mediana divide o conjunto em duas partes iguais, que q1 corresponde à mediana da primeira metade e q3, à mediana da segunda metade. Uma regra prática é não incluir a mediana em nenhuma metade quando os valores forem divididos (o que convenientemente nos dará duas metades com 10 elementos cada). Assim: 16, 17, 18, 21, 22, 23, 24, 25, 26, 29 l 32 l 34, 34, 35, 36, 42, 43, 46, 46, 49, 57. n 1 10 1 11 5,5 2 2 2 + + = = = A posição número 5,5 está entre a posição 5 e 6. Na primeira metade, a posição 5 corresponde ao valor de idade de 22 anos e a posição 6, a 23 anos; entende-se, assim, que mediana da primeira metade corresponda à média desses dois valores. Na segunda metade, a posição 5 corresponde ao valor de idade de 42 anos e a posição 6, a 43 anos; entende-se que mediana da segunda metade corresponda à média desses dois valores. Logo: 16, 17, 18, 21, 22, 23, 24, 25, 26, 29 l 32 l 34, 34, 35, 36, 42, 43, 46, 46, 49, 57. 1 22 23 45 q 22,5 2 2 + = = = 3 42 43 85 q 42,5 2 2 + = = = O quartil inferior (q1) é 22,5 anos e o quartil superior (q3) é 42,5 anos. A amplitude interquartílica corresponde à variação entre q3 e q1: Amplitude interquartílica = q3 – q1 Amplitude interquartílica = 42,5 – 22,5 = 20 Assim, a amplitude interquartílica dessa amostra é de 20 anos, ou seja, a variação de idade dos 50% centrais do conjunto é de 20 anos. Nesse cálculo, excluímos o valor da mediana, entretanto também poderíamos incluí-lo. Assim, convém incluí-lo em ambas as metades, duplicando a informação da mediana: 16, 17, 18, 21, 22, 23, 24, 25, 26, 29, 32 l 32, 34, 34, 35, 36, 42, 43, 46, 46, 49, 57. 60 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I Teríamos, então, duas metades com 11 observações cada. Para descobrir a posição da mediana de cada metade: n 1 11 1 12 6 2 2 2 + + = = = Na primeira metade, a posição 6 corresponde ao valor de idade de 23 anos. Na segunda metade, a posição 6 corresponde ao valor de idade de 42 anos. Logo: 16, 17, 18, 21, 22, 23, 24, 25, 26, 29, 32 l 32, 34, 34, 35, 36, 42, 43, 46, 46, 49, 57. q1 = 23 q3 = 42 O quartil inferior (q1) é 23 anos e o quartil superior (q3) é 42 anos. A amplitude interquartílica corresponde à variação entre q3 e q1: Amplitude interquartílica = q3 – q1 Amplitude interquartílica = 42 – 23 = 19 O leitor atentonotará que os valores dos quartis e da amplitude interquartílica variaram minimamente, dependendo da estratégia de cálculo adotada. Na primeira situação, excluímos a mediana; na segunda, duplicamos seu valor. Embora essas abordagens tenham gerado variações no resultado final, o impacto de excluir ou duplicar a mediana foi mínimo. Caso o leitor efetue esse cálculo por meio de alguns softwares, notará ainda uma possível terceira resposta: uma média das duas abordagens realizadas. 1 22,5 23 45,5 q 22,75 2 2 + = = = 3 42,5 42 85,5 q 42,25 2 2 + = = = Amplitude interquartílica = q3 – q1 Amplitude interquartílica = 42,25 – 22,75 = 19,5 Ao efetuarmos uma média das duas abordagens iniciais, pondera-se o peso da mediana, pois, se na primeira circunstância ela foi desconsiderada e, no segundo cálculo, duplicada, a média entre 0 e 2 corresponderá a 1, ou seja, como se a mediana fosse considerada apenas uma vez no conjunto. 61 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA Se desejarmos utilizar todos os valores de um conjunto, em vez de sua metade, para obtermos uma medida de variabilidade, podemos utilizar os erros em função da média (vide figura 13). Lembrete Reveja o exemplo destacado na tabela 15. Lembre-se que, como os desvios indicam o quanto cada valor se distancia da média, ao somá-los entre si, tem-se um distanciamento nulo em função da média. Para lidar com a existência de erros positivos e negativos (devido à existência de valores maiores e menores do que a média), convém elevar esses erros ao quadrado (pois o quadrado de um número negativo será sempre um número positivo), transformando, dessa forma, todos os valores em números positivos e, então, efetuar a soma desses quadrados. Retomando os dados do exemplo de altura expostos na tabela 15. Entretanto, dessa vez, para nos livrarmos dos sinais negativos, elevamos os valores dos erros, ou desvios, ao quadrado: Tabela 18 – Erros ou desvios quadrados para a altura de cinco estudantes Altura Desvio (X – M) Desvios quadrados (X – M)2 157 -12,8 163,84 165 -4,8 23,04 167 -2,8 7,84 175 5,2 27,04 185 15,2 231,04 Σ = 0,0 Σ = 452,80 A soma dos quadrados dos desvios (soma dos quadrados dos erros, ou simplesmente soma dos quadrados) foi de 452,80. Em que unidade essa medida é reportada? Como a altura estava representada em cm, a soma dos quadrados se dará em cm2. O conjunto de cinco elementos para a variável altura apresentou uma soma dos quadrados de 452,80 cm2. Se adicionássemos mais valores ao conjunto, esse valor aumentaria. Dessa forma, a dispersão total não poderia ser comparada entre conjuntos que diferissem entre si em tamanho amostral. Para lidar com essa situação, em vez de trabalhar com a medida de dispersão total, poderíamos avaliar uma medida de dispersão média, conhecida como variância. Vimos que uma média corresponde à somatória dos elementos dividida pelo número de elementos, logo: ( )22 X N ∑ −µ σ = 62 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I Em que: σ2 = variância populacional X = valor do conjunto µ = média populacional N = número de elementos na população A variância populacional (σ2, lê-se sigma quadrado), pode ser calculada quando se tem acesso a informações da população. Como raramente um pesquisador tem acesso a todos os elementos de uma população, geralmente trabalhamos com amostras. Para estimar a variância amostral, os estatísticos desenvolveram uma forma de corrigir a fórmula anterior, de tal forma que os resultados representem melhores aproximações dos valores populacionais. Há sempre mais variabilidade na população do que na amostra. Imagine um saco de confetes coloridos, desses comumente usados em festas. O saco é a população. Se mergulharmos a mão em seu interior e tirarmos um punhado, isso seria uma amostra. Se observássemos quantas cores diferentes de confetes teríamos na amostra, isso seria um indicativo da variabilidade. Provavelmente teríamos uma grande variabilidade, entretanto, dado o tamanho do saco de confetes, é muito provável que alguma cor presente no saco esteja ausente na amostra. Há variabilidade existente na população que não seria encontrada nesta amostra, portanto uma medida de variabilidade amostral deverá levar isso em conta para refletir adequadamente a população. A fórmula para calcular a variância amostral (s2, lê-se s quadrado – a letra s é usada, pois sigma, σ, é a letra grega s) é apresentada a seguir: ( )22 X Ms n 1 ∑ − = − Em que: s2 = variância amostral X = valor do conjunto M = média amostral n = número de elementos na amostra Note que, para o cálculo da variância amostral, o denominador é n – 1. Chamamos isso de grau de liberdade. O conceito de grau de liberdade é complicado de explicar. 63 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA Tomemos uma analogia: suponhamos que um indivíduo esteja diante de cinco crianças e ele mantém cinco balões coloridos presos em sua mão, cada um com uma cor diferente. A primeira criança é questionada sobre qual cor de balão ela deseja. Digamos que a escolha se deu pelo balão vermelho – que foi entregue a ela. À segunda criança é feita a mesma questão, porém sua liberdade de escolha não é mais a mesma da primeira, pois o balão vermelho já foi retirado da amostra. Seu grau de liberdade, em comparação à criança anterior, tornou-se n – 1. Em termos estatísticos, o grau de liberdade reflete o número de observações que é livre para variar. Se tomarmos uma amostra de quatro elementos da população, esses quatro valores podem variar de qualquer forma possível, entretanto, caso a média amostral seja uma estimativa da média populacional, teremos um parâmetro constante. Digamos que a média dessa amostra seja igual a 10 e a média populacional também seja igual a 10. Com esse parâmetro fixo, poderiam todos os quatro elementos de uma amostra variar? A resposta seria não, porque, para assegurar que a média amostral seja sempre 10, apenas três valores poderiam variar livremente. Por exemplo, se os valores da amostra fossem 8, 9, 11 e 12 (média = 10) e mudássemos três desses valores para 7, 15 e 8, o último valor obrigatoriamente deveria ser 10 para que a média se mantivesse constante (representando o parâmetro populacional). De tal forma, se um parâmetro for mantido constante, então os graus de liberdade devem ser uma unidade a menos do que o número de elementos usados para calcular esse parâmetro. Essa subtração torna o denominador menor, o que faz com que o quociente s2 seja maior, tornando a variância amostral um melhor estimador da variância populacional, σ2. Com base nos valores de altura retomados dos cálculos anteriores, sendo a soma dos quadrados igual a 452,80 cm2 e os graus de liberdade (n – 1) igual a 4, tem-se que: ( )22 X M 452,80s 113,20 n 1 4 ∑ − = = = − A variância amostral foi de 113,20 cm2. A interpretação da variância pode ser confusa, uma vez que ela é dada em unidades quadráticas. Uma simples solução é tirar a raiz quadrada da variância, transformando a medida de volta para sua unidade original. Essa medida é conhecida como desvio padrão, uma das medidas de variabilidade mais comumente empregadas. Para a medida populacional, o desvio padrão é abreviado por σ (sigma), enquanto a medida amostral é abreviada por s: 2 2 ou s s σ = σ = Em que: σ = desvio padrão populacional 64 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I σ2 = variância populacional s = desvio padrão amostral s2 = variância amostral Sendo a variância amostral do conjunto de cinco elementos registrados, para a variável altura, igual a 113,20 cm2, tem-se que: 2s s= s 113,20 10,64= ≅ O desvio padrão amostral foi de 10,64 cm. Em geral, a média e o desvio padrão são reportados juntos, para descrever uma medidade posição central e de variabilidade de um conjunto de dados. Para a amostra de cinco estudantes, descreveríamos que o conjunto possui uma média de 169,80 cm, com desvio padrão de 10,64 cm. A média é relativamente fácil de ser interpretada, uma vez que, intuitivamente, todos a utilizam no dia a dia, mas a maioria das pessoas não saberia como interpretar o desvio padrão. É possível descrevê-lo como a distância que um escore, em média, se distancia da média. Mas um desvio padrão de 10,64 cm significa que há muita ou pouca variabilidade em uma amostra? Quanto maior a medida do desvio padrão, maior será a variabilidade entre os elementos que compõem a amostra, pois mais eles se distanciarão da média amostral; quanto menor, menos os elementos se distanciarão da média amostral e, portanto, menor será a variabilidade do conjunto. Com base em medidas de posição central e de variabilidade, as características de um conjunto de dados podem ser expostas sob a forma de gráficos. Dot-plots ou box-plots (gráficos de pontos e de caixas, respectivamente) são alternativas comumente empregadas para a representação ou inspeção visual de conjuntos de dados numéricos. No dot-plot, cada elemento do conjunto é representado por um ponto, com destaque para a média (barra central) e para o desvio padrão (destacado acima e abaixo da média). Exemplo de aplicação Exemplo 16 Com base no conjunto de dados para a variável idade (em anos) de 21 indivíduos, apresentado anteriormente, represente o dot-plot: 16, 17, 18, 21, 22, 23, 24, 25, 26, 29, 32, 34, 34, 35, 36, 42, 43, 46, 46, 49, 57. 65 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA Resolução Primeiramente, devemos descobrir o valor da média e do desvio padrão. Para cálculo da média: X M n ∑ = 675 M 32,14 21 = ≅ De posse da média, é possível calcular a soma dos quadrados. Tabela 19 – Erros ou desvios quadrados para a idade de 21 indivíduos Idade Desvio (X – M) Desvios quadrados (X – M)2 16 -16,14 260,59 17 -15,14 229,31 18 -14,14 200,02 21 -11,14 124,16 22 -10,14 102,88 23 -9,14 83,59 24 -8,14 66,31 25 -7,14 51,02 26 -6,14 37,73 29 -3,14 9,88 32 -0,14 0,02 34 1,86 3,45 34 1,86 3,45 35 2,86 8,16 36 3,86 14,88 42 9,86 97,16 43 10,86 117,88 46 13,86 192,02 46 13,86 192,02 49 16,86 284,16 57 24,86 617,88 Σ = 0,00 Σ = 2.696,57 A partir da soma dos quadrados, é possível obter a variância, uma vez que: ( )22 X M 2696,57s 134,83 n 1 20 ∑ − = = ≅ − 66 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I Sendo a variância aproximadamente 134,83 anos2, o desvio padrão será sua raiz quadrada: 2s s= s 134,83 11,61= ≅ Sendo a média desse conjunto 32,14 anos e o desvio padrão 11,61 anos, para a construção do dot-plot devemos representar cada valor do conjunto como um ponto, a média como uma barra central e o desvio padrão como uma barra acima (média + desvio padrão) e abaixo (média – desvio padrão) da média. Conjunto Id ad e (a no s) 0 10 20 30 40 50 60 Figura 17 – Dot-plot da idade de uma amostra de 21 indivíduos. Para a construção do dot-plot, cada valor observado deverá ser representado como um ponto no gráfico; a média do conjunto deverá ser traçada como uma barra central, e o desvio padrão deverá ser marcado acima e abaixo da média Um box-plot, também chamado de box and whiskers (caixa e bigodes), por outro lado, é construído em função da mediana e dos quartis inferior e superior (q1 e q3). Esse gráfico é útil para se avaliar a existência de valores extremos, outliers. Exemplo 17 Com base no mesmo conjunto de dados para a variável idade (em anos) de 21 indivíduos, apresentado anteriormente, represente o box-plot: 16, 17, 18, 21, 22, 23, 24, 25, 26, 29, 32, 34, 34, 35, 36, 42, 43, 46, 46, 49, 57. Resolução Primeiramente, devemos descobrir os valores da mediana e dos quartis inferior e superior (q1 e q3). Esses valores já foram calculados anteriormente: q1 = 22,75 67 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA q3 = 42,25 Amplitude interquartílica = 42,25 – 22,75 = 19,5 De posse desses valores, deveremos calcular os limites inferior e superior teóricos, conforme os seguintes cálculos: Limite inferior = q1 – 1,5x (Amplitude interquartílica) Limite inferior = 22,75 – 1,5x (19,5) = 22,75 – 29,25 = – 6,5 Limite superior = q3 + 1,5x (Amplitude interquartílica) Limite superior = 42,25 + 1,5x(19,5) = 42,25 + 29,25 = 71,5 Com base nesses valores, devemos avaliar se o conjunto possui algum valor menor que o limite inferior e algum valor maior que o limite superior. No caso, o limite inferior é um valor negativo, que não faz sentido para a variável idade (ninguém tem um valor negativo de idade em anos). Assim, o menor valor do conjunto que respeita o limite inferior é 16 anos. Como nenhum valor do conjunto ultrapassa o limite superior (71,5), temos que o maior valor do próprio conjunto (57 anos) respeita o limite superior. De tal forma, não existem outliers no conjunto (que ultrapassam os limites superior e inferior). Caso houvesse, eles deveriam ser reportados como pontos no box-plot. Assim, para construção do box-plot, devemos traçar uma caixa entre q1 e q3, incluindo uma barra para a mediana no interior da caixa. Os bigodes da caixa serão estendidos até o maior e o menor valor real do conjunto, que respeitam o limite superior e o limite inferior. Observe: Conjunto Id ad e (a no s) 0 10 20 30 40 50 60 Figura 18 – Box-plot da idade de uma amostra de 21 indivíduos. Para a construção do box-plot, uma caixa deverá ser traçada entre q1 e q3, incluindo uma barra para a mediana no interior da caixa. Os bigodes da caixa serão estendidos até o maior e o menor valor real do conjunto, que respeitam o limite superior e o limite inferior. Caso haja outliers, deverão ser representados como pontos acima/abaixo dos bigodes 68 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I Saiba mais Para mais informações sobre medidas de posição central e de variabilidade, consulte: CORTY, E. W. Using and Interpreting Statistics. 3. ed. New York: Worth Publishers, 2016. DANCEY, C. P.; REIDY, J. Estatística sem matemática para psicologia. 5. ed. Porto Alegre: Penso, 2013. Resumo A estatística sumariza dados coletados com o objetivo de responder a perguntas específicas. Variáveis podem ser mensuradas em escala nominal, ordinal, intervalar ou de razão. À medida que a escala de medição progride, a informação contida no numeral aumenta de qualitativa (escala nominal) para quantitativa básica (escala ordinal), quantitativa mais avançada (escala intervalar) e, finalmente, quantitativa proporcional (escala de razão). Uma população representa o total de casos de uma variável que um pesquisador deseja estudar. Em geral, trabalha-se com amostras, que são recortes ou subconjuntos representativos da população. Existem diferentes técnicas de amostragem; as amostras aleatórias apresentam condições ideais para o tratamento estatístico, o que nem sempre é viável com amostras determinísticas. Distribuições de frequência são formas de obter informações de conjuntos de dados, por exemplo, avaliando quais valores ou intervalos de valores têm mais ocorrência. Além da frequência, é possível avaliar a frequência acumulada, porcentagem e porcentagem acumulada (exceto para valores em escala nominal). A distribuição de frequências de variáveis categóricas pode ser ilustrada por meio de gráficos de barras, enquanto variáveis numéricas são representadas por histogramas ou polígonos de frequência. Uma medida de posição central que é calculada para um conjunto de dados é determinada pela escala de medição e pelo formato da distribuição de frequências do conjunto. A média pode ser calculada para valores em escala intervalar ou de razão, quandopara conjuntos 69 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA que não sejam assimétricos ou multimodais. A mediana é o escore central de um conjunto de dados ordenado e pode ser calculada para valores em escala ordinal, intervalar ou de razão. A moda, o valor mais frequente de um conjunto de dados, pode ser calculada para valores em escala nominal, ordinal, intervalar ou de razão. Quando mais de uma medida de posição central for possível, opte por aquela que forneça mais informações acerca do conjunto, levando em conta também o formato de sua distribuição de frequências. A variabilidade se refere ao grau de espalhamento dos dados em um conjunto. Todas as medidas de variabilidade (ou de dispersão) podem ser calculadas para valores em escala intervalar ou de razão. A amplitude indica a variação entre o maior e o menor valor de um conjunto, sendo fortemente afetada pela presença de valores extremos, outliers. A amplitude interquartílica indica a variação entre os 50% centrais de um conjunto de dados ordenado. A variância é um estimador global da variação média em um conjunto de dados, entretanto, por ser expressa em unidades quadráticas, sua interpretação direta se torna restrita. O desvio padrão é a raiz quadrada da variância e indica uma distância média em que os escores se distanciam da média do conjunto. Quanto maior o desvio padrão, mais os valores do conjunto se afastam da média. Em geral, há mais variabilidade na população do que em uma amostra. A variância populacional e o desvio padrão populacional são indicados por σ2 e σ, respectivamente, enquanto a variância amostral e o desvio padrão amostral são representados por s2 e s, respectivamente. A variância amostral e o desvio padrão amostral são corrigidos (graus de liberdade) para melhor estimarem os parâmetros populacionais. O dot-plot e o box-plot são gráficos adequados para representar a variabilidade de conjuntos de dados numéricos. Usualmente, cada valor do conjunto é reportado como um ponto no dot-plot, acompanhado pela média (barra central) e o desvio padrão (barra acima e abaixo da média). Já no box-plot, temos a construção de uma caixa que representa a variação dos 50% centrais (representada por q1 e q3), com a mediana destacada como uma barra em seu interior. Os bigodes da caixa são estendidos até o maior e o menor valor do conjunto, que respeitam os limites calculados. Caso algum valor ultrapasse esses limites, será considerado um outlier e deverá ser representado como um ponto no box-plot. 70 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 Unidade I Exercícios Questão 1. (Consulplan 2012) Para uma população de 10 indivíduos é retirada uma amostra de 3 indivíduos, sem reposição. Assim, o número de amostras possíveis é A) 80. B) 120. C) 240. D) 30. E) 720. Resposta correta: alternativa B. Análise da questão A questão informa o tamanho da população (10 pessoas) e o tamanho da amostra (3 pessoas). Como precisamos calcular a quantidade de amostras possíveis, basta calcularmos a quantidade de combinações de 10 pessoas, tomadas 3 a 3. C10,3 = 10! / 7!.3! = 10.9.8/3.2.1 = 120 Questão 2. (PMMG 2018, adaptada) O gerente de uma empresa, com um total de 150 funcionários, realizou um experimento com o objetivo de verificar o consumo de água dos funcionários durante o turno de trabalho. Foram selecionados, aleatoriamente, 50 funcionários e mensurada a quantidade de litros de água consumida por cada um, no período de 30 dias. Sabe-se, também, que cada funcionário teve a mesma probabilidade de ser incluído na seleção. Com base nestas informações, relacione a segunda coluna de acordo com a primeira: Coluna 1 (1) Quantidade total de funcionários da empresa. (2) Consumo de litros de água por funcionário. (3) 50 funcionários selecionados aleatoriamente. (4) Técnica utilizada para seleção da amostra. 71 Re vi sã o: B ru no - D ia gr am aç ão : M ár ci o - 10 /0 6/ 20 19 BIOESTATÍSTICA APLICADA À BIOMEDICINA Coluna 2 ( ) Variável contínua. ( ) Amostra. ( ) Amostragem aleatória simples. ( ) População. Marque a alternativa que contém a sequência correta de respostas, na ordem de cima para baixo: A) 4, 2, 3, 1. B) 2, 1, 4, 3. C) 3, 2, 1, 4. D) 2, 3, 4, 1. E) 1, 2, 3, 4. Resolução desta questão na plataforma.