Prévia do material em texto
Bioestatística Autores: Profa. Carina Helena Fraga Prof. Roberto Bianco Colaboradoras: Profa. Vanessa Santhiago Profa. Laura Cristina da Cruz Dominciano Professores conteudistas: Carina Helena Wasem Fraga / Roberto Bianco Carina Helena Wasem Fraga Possui licenciatura plena pela Universidade Federal do Rio Grande do Sul (UFRGS), mestrado em Ciências do Movimento Humano pela Universidade Federal do Rio Grande do Sul (UFRGS) e doutorado em Ciências da Motricidade pela Universidade Estadual Paulista (UNESP). Desenvolve Pesquisa na linha de Biomecânica do Movimento Humano. Atua como pesquisadora colaboradora no Laboratório de Biomecânica da Universidade de São Paulo (USP). É professora titular da Universidade Paulista (UNIP) do curso de Educação Física, líder da disciplina de Bioestatística nessa instituição, e coordenadora de cursos de especialização na área de Biomecânica e Aprendizagem Motora. Ainda, é professora convidada de cursos de especialização de diversos lugares do Brasil. Roberto Bianco Possui graduação e mestrado em Educação Física pela Escola de Educação Física e Esporte da Universidade de São Paulo (EEFE‑USP). Atualmente desenvolve seu doutorado em Educação Física no Laboratório de Biomecânica da Escola de Educação Física e Esporte da Universidade de São Paulo (EEFE‑USP). É professor assistente da Universidade Paulista (UNIP) do Curso de Educação Física e líder das disciplinas de Biomecânica e Biomecânica Aplicada ao Esporte. Coordena os cursos de especialização na área de Biomecânica, Cinesiologia e Aprendizagem Motora, e é professor convidado de cursos de especialização de diversos lugares do Brasil. © Todos os direitos reservados. Nenhuma parte desta obra pode ser reproduzida ou transmitida por qualquer forma e/ou quaisquer meios (eletrônico, incluindo fotocópia e gravação) ou arquivada em qualquer sistema ou banco de dados sem permissão escrita da Universidade Paulista. Dados Internacionais de Catalogação na Publicação (CIP) F811 Fraga, Carina Helena. Bioestatística / Carina Helena Fraga. – São Paulo: Editora Sol, 2019. 140 p. il. Nota: este volume está publicado nos Cadernos de Estudos e Pesquisas da UNIP, Série Didática, ano XXV, n. 2‑020/19, ISSN 1517‑9230. 1. Estatística. 2. Distribuição de dados. 3. Testes. I. Título. CDU 57.087 U500.56 – 19 Prof. Dr. João Carlos Di Genio Reitor Prof. Fábio Romeu de Carvalho Vice-Reitor de Planejamento, Administração e Finanças Profa. Melânia Dalla Torre Vice-Reitora de Unidades Universitárias Prof. Dr. Yugo Okida Vice-Reitor de Pós-Graduação e Pesquisa Profa. Dra. Marília Ancona‑Lopez Vice-Reitora de Graduação Unip Interativa – EaD Profa. Elisabete Brihy Prof. Marcelo Souza Prof. Dr. Luiz Felipe Scabar Prof. Ivan Daliberto Frugoli Material Didático – EaD Comissão editorial: Dra. Angélica L. Carlini (UNIP) Dra. Divane Alves da Silva (UNIP) Dr. Ivan Dias da Motta (CESUMAR) Dra. Kátia Mosorov Alonso (UFMT) Dra. Valéria de Carvalho (UNIP) Apoio: Profa. Cláudia Regina Baptista – EaD Profa. Betisa Malaman – Comissão de Qualificação e Avaliação de Cursos Projeto gráfico: Prof. Alexandre Ponzetto Revisão: Carla Moro Luanne Batista Sumário Bioestatística APRESENTAÇÃO ......................................................................................................................................................7 INTRODUÇÃO ...........................................................................................................................................................7 Unidade I 1 CONCEITOS GERAIS DE ESTATÍSTICA ..........................................................................................................9 1.1 Definições de estatística .......................................................................................................................9 1.2 População e amostra .......................................................................................................................... 11 2 ESTATÍSTICA DESCRITIVA .............................................................................................................................. 16 2.1 Tipos de variáveis: quantitativas e qualitativas ....................................................................... 17 2.2 Variáveis de posição: valores máximos, mínimos, moda, média e mediana ................ 26 3 MEDIDAS DE VARIABILIDADE ..................................................................................................................... 42 3.1 Variância .................................................................................................................................................. 44 3.2 Desvio‑padrão ....................................................................................................................................... 50 3.3 Coeficiente de variação ..................................................................................................................... 52 4 GRÁFICOS E TABELAS .................................................................................................................................... 56 4.1 Elaboração de tabelas ......................................................................................................................... 56 4.2 Representações gráficas .................................................................................................................... 59 Unidade II 5 ANÁLISE NA DISTRIBUIÇÃO DOS DADOS .............................................................................................. 77 5.1 Distribuição normal ............................................................................................................................. 77 5.2 Testes de normalidade ........................................................................................................................ 81 6 FORMULAÇÃO DE HIPÓTESES .................................................................................................................... 84 6.1 Estratégias de busca de artigos científicos ................................................................................ 90 7 TESTES ESTATÍSTICOS: TESTE T .................................................................................................................... 95 7.1 Teste t para uma amostra ................................................................................................................. 95 7.2 Teste t pareado ...................................................................................................................................... 98 7.3 Teste t para amostras independentes ........................................................................................101 8 OUTROS TESTES ESTATÍSTICOS .................................................................................................................104 8.1 Teste de Anova ....................................................................................................................................104 8.2 Teste de Friedman ..............................................................................................................................108 8.3 Teste de Correlação............................................................................................................................109 8.4 Teste de Regressão Linear ...............................................................................................................119 7 APRESENTAÇÃO Em Educação Física, invariavelmente, é necessário realizar análises entre o desempenho de diferentes grupos ou investigar até que ponto uma intervenção ou treinamento alcançou seus objetivos previamente propostos. Para tanto, uma análise estatística permite uma comparação ou caracterização confiável do grupo de dados coletados. Nesse sentido, a disciplina Bioestatística visa a conceituar a estatística aplicada à pesquisa científica, relacionando os projetosde pesquisa e a bioestatística em Educação Física. Após a leitura deste livro, você estará apto para utilizar a Bioestatística como ferramenta de organização, descrição, análise e interpretação de dados relacionados à sua prática profissional. Na unidade I, abordaremos as ferramentas para a compreensão da linguagem estatística, discutindo os conceitos e aplicações práticas das medidas descritivas de posição e de dispersão. A partir do cálculo desses dados, vamos tratar sobre as possibilidades de construção e interpretação de tabelas e gráficos. Na unidade II, serão discutidas as formas de aplicação de testes comparativos, de regressão e de correlação entre grupos e condições, o que proporcionará ferramentas para determinar a escolha do teste estatístico mais adequado a ser empregado na análise das diversas situações práticas vinculadas à área de Educação Física. INTRODUÇÃO A Estatística pode ser definida como um conjunto de técnicas que promove a padronização e a adequação das formas de coleta, organização e análise de dados. Para muitos alunos de quase todas as áreas do conhecimento, os conceitos dessa disciplina acabam parecendo muito abstratos, o que faz com que seja considerada, muitas vezes, como altamente complexa. Muitas pessoas, inclusive, contratam serviços particulares de profissionais de Estatística por desconhecerem as ferramentas mais básicas de aplicação dessa matéria. Neste livro, veremos que a estatística não está distante da nossa realidade, pois seus procedimentos estão presentes de várias formas no nosso cotidiano. Usamos esses procedimentos quando tentamos interpretar nosso consumo mensal de água ou de luz; quando dividimos a conta do restaurante com amigos; quando precisamos trocar nosso dinheiro por outra moeda e avaliamos diferentes cotações; entre tantos outros exemplos. Além disso, entender Estatística torna‑se fundamental em nossa vida profissional. São as ferramentas estatísticas que nos permitem descrever as características de um grupo de pessoas e também comparar as características de dois grupos diferentes. Em Educação Física, isso também é válido, independente da área de atuação do profissional: escola, academias, clubes, entre outros. Vamos a dois exemplos práticos de comparação entre grupos que somente torna‑se possível utilizando as ferramentas estatísticas: (1) na academia, você pode ter por objetivo comparar os níveis de força de mulheres que praticam duas modalidades diferentes; (2) no clube, você pode ter como meta comparar a distância de salto de meninos de diferentes faixas etárias. 8 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Dessa forma, como a atuação em Educação Física envolve, geralmente, a prescrição de exercícios físicos e a implantação de programas de treinamento, um profissional pode, por exemplo, ter como objetivo investigar até que ponto a sua intervenção afetou as características da população com a qual o trabalho foi realizado. Para tanto, não basta apenas medir a característica do grupo de praticantes, mas é necessário saber, por exemplo, quanto foi o ganho médio a partir de sua intervenção; se houve diferença entre os sujeitos ou se todos apresentaram os mesmos ganhos; se os valores medidos antes e depois da intervenção podem ser considerados diferentes ou se a diferença é tão pequena que não pode ser considerada significativa. Para essa e outras situações, usualmente presentes na vida do profissional de Educação Física, é que a Estatística torna‑se tão importante. Contudo, para que se possa ter segurança nos resultados obtidos a partir de uma análise estatística, é necessário conhecer essas ferramentas de análise e conhecer os cuidados na sua aplicação. Pode‑se perceber que a leitura de dados de qualquer artigo de nossa área de atuação pressupõe que o aluno seja apto a identificar se os testes utilizados foram adequadamente empregados no estudo. Por isso, o intuito da disciplina é apresentar e discutir os conceitos e definições básicos que lhe permitam a proficiência necessária para a adequada utilização das ferramentas estatísticas. 9 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Unidade I 1 CONCEITOS GERAIS DE ESTATÍSTICA Nesta unidade, iniciaremos nossos estudos definindo os conceitos básicos de Bioestatística, analisando algumas aplicações possíveis. Em seguida, discutiremos as diferenças entre população e amostra, classificaremos os tipos variáveis existentes e aprenderemos como são calculados e para que servem as variáveis de posição e de variabilidade. Por fim, abordaremos, ainda, os diferentes tipos de representações gráficas e quais as situações mais indicadas para aplicar cada tipo. 1.1 Definições de estatística Figura 1 – Exigência de força de flexão do cotovelo A Estatística é uma disciplina que busca estratégias e meios para descrever ou interpretar um conjunto de dados observados sobre um grupo ou um fenômeno. Portanto, ela envolve técnicas para coletar, organizar, descrever, analisar e interpretar dados provenientes de experimentos ou observações. A partir daí, Bioestatística é a aplicação de métodos estatísticos buscando investigar os fenômenos biológicos. Sendo assim, é uma disciplina de grande aplicação à Educação Física. A técnica para se analisar um conjunto de dados depende de sua origem, de onde eles provêm e do que se busca alcançar com uma ferramenta estatística. Por exemplo, podemos estar interessados em como duas características de um grupo de sujeitos se relacionam. Vamos supor que, nessa situação, estejamos interessados em avaliar o quanto a circunferência do braço pode estar relacionada com a força de flexão do cotovelo. Lembrete A Estatística é um conjunto de técnicas que possibilita padronização das formas de coleta, organização e análise de dados. A Bioestatística aplica esses métodos estatísticos buscando investigar os fenômenos biológicos. 10 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Um segundo exemplo que poderia ser investigado é quanto um período de treinamento interfere na execução de uma habilidade motora, como o arremesso da bola de basquete ao cesto. Poderíamos estar interessados em saber quantas bolas um grupo de pessoas acerta no cesto em dez tentativas, antes e depois de uma intervenção (sessão de treinamento). Outra possibilidade de análise poderia ser investigar quanto varia a pontuação no arremesso de dardo ao longo de vinte tentativas em função da distância de arremesso e do membro dominante ou não dominante. Nesse caso, há a interferência de duas variáveis: a distância de arremesso e o membro superior usado para o arremesso (dominante ou não dominante). Vale a pena observar que são intermináveis os exemplos e as aplicações possíveis das ferramentas estatísticas. Basta ter muito claro o que se quer saber por meio da análise e escolher a ferramenta que melhor responda à pergunta que foi levantada. Exemplo de aplicação Os procedimentos estatísticos embasam praticamente todas as informações presentes nos livros didáticos da nossa área de conhecimento. Reflita de que forma a Estatística foi utilizada nos dados descritos no último livro didático que você utilizou para outra disciplina do curso de Educação Física. Técnicas diferentes de análise são usadas para obter objetivos diferentes como: • descrevercaracterísticas dos dados; • testar associações entre dois ou mais conjuntos de dados; • testar diferenças entre dois ou mais conjuntos de dados. Descrever características dos dados: suponha que estivéssemos interessados em caracterizar um grupo de pessoas, por exemplo, avaliar os alunos de uma universidade, com relação ao seu percentual de gordura. Nessa situação, escolhemos um teste para determinação dessa característica e avaliamos todos os alunos dessa instituição. Na posse dos dados dessas pessoas, naturalmente, observaríamos valores bem diferentes entre elas, mas digamos que desejássemos saber em torno de qual valor o percentual de gordura dos alunos varia; quanto o percentual de gordura varia; se ele varia muito ou se os valores são semelhantes; qual o percentual de gordura mínimo e máximo, entre outras tantas possíveis aplicações. Observação Note que nesse exemplo estamos interessados em caracterizar os nossos alunos, não estamos interessados nas causas nem na relação dessa variável com outras variáveis. 11 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Testar associações entre dois ou mais conjuntos de dados: ainda usando o exemplo da determinação do percentual de gordura dos alunos de uma universidade, vamos supor que o objetivo seja testar quanto o percentual de gordura está relacionado à quantidade de vezes que essas pessoas praticam exercícios físicos na semana. Nesse caso, estaríamos interessados em saber se existe relação entre o percentual de gordura e a frequência semanal de prática de exercícios físicos. Poderíamos, então, observar que as duas variáveis estão inversamente relacionadas, ou seja, quanto maior a frequência semanal de treino, menor o percentual de gordura dos alunos, por exemplo, ou observar que essas duas variáveis não estão relacionadas, ou seja, não importa quantas vezes a pessoa faça exercício na semana, isso não interfere no percentual de gordura. Observação Note que, nessa estratégia, o objetivo é encontrar alguma relação que uma característica de um grupo apresenta com outra característica. Testar diferenças entre dois ou mais conjuntos de dados: ainda usando o mesmo exemplo, vamos supor que o objetivo seja identificar se existe diferença entre o percentual de gordura de alunos de Educação Física e os alunos de outros cursos da universidade. Para tanto, deveríamos agrupar os resultados dos alunos do curso de Educação Física e os resultados dos alunos de outros cursos e ver se a possível diferença é suficientemente alta para podermos afirmar que os resultados são diferentes ou se a diferença é pequena a ponto de considerá‑los semelhantes. Observação Note que, nessa estratégia, o objetivo é comparar os resultados de dois grupos diferentes de pessoas. 1.2 População e amostra Para poder realizar alguma descrição ou comparação entre variáveis, torna‑se necessário entender o conceito de população e amostra. A população é um conjunto de indivíduos ou objetos que apresentam pelo menos uma característica em comum. Por exemplo, de um universo como o Brasil, digamos que estamos interessados em avaliar uma população específica, todos os possíveis praticantes de exercícios físicos, todos aqueles que praticam corrida de rua ou todos os indivíduos idosos do país. 12 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Figura 2 – População de indivíduos com pelo menos uma característica em comum A população pode se apresentar em diferentes níveis dependendo dos objetivos da investigação ou do estudo que queremos conduzir. Nesse sentido, pode se apresentar em âmbito nacional, municipal ou local. Sendo de âmbito nacional, teríamos uma característica comum ao universo de pessoas presentes no país; por exemplo, praticantes de atividade física no Brasil. Uma população de âmbito municipal, poderia ainda ser, segundo o exemplo, praticantes de atividade física da cidade de São Paulo. Repare que praticantes de atividade física da cidade do Rio de Janeiro não fazem parte dessa população, pois estes se encontram em outra cidade, ou seja, eles compartilham da característica comum, praticar atividade física, mas não compartilham da característica de pertencerem à mesma cidade. Nessa mesma perspectiva, uma população de âmbito local seria aquela composta por praticantes de atividade física, da cidade de São Paulo, alunos da Universidade Paulista. Nesse caso, os indivíduos dessa população precisam atender a estas três características em comum: (1) praticarem atividade física; (2) morarem na cidade de São Paulo; (3) estudarem na Universidade Paulista. Portanto, a população da nossa pesquisa dependerá exclusivamente dos objetivos da investigação. Não há nenhum critério que defina como deve ser a população de um estudo. Os critérios são definidos pelos objetivos impostos, aos quais, obviamente, necessitam ser coerentes. Uma população pode apresentar mais de uma característica em comum, isso a torna mais homogênea, ou seja, mais semelhante, mas não necessariamente apresentará duas características em comum. Por isso, é importante definir corretamente qual característica que necessitamos que seja comum à nossa população. Por exemplo, se quisermos analisar a influência da maturação no ganho de massa muscular, teremos que buscar a população que ainda se encontra em uma fase específica de maturação, mas teremos que excluir indivíduos que treinem alguma modalidade que desenvolva força, caso contrário, ocorreria a interferência de uma variável que poderia comprometer os resultados da análise. Lembrete A população é um conjunto de indivíduos ou objetos que apresentam pelo menos uma característica em comum. 13 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA A amostra é uma redução representativa da população a dimensões menores, porém sem perda da característica específica, conforme ilustra a figura 3. Figura 3 – Representação dos conceitos de população e amostra, sendo esta classificada com um subconjunto da população específica, no caso uma amostra de praticantes de Tai Chi Em quase todas as ocasiões, não é possível fazer medições em todos os indivíduos de uma população. Imagine, seguindo o exemplo anterior, que seria inviável avaliarmos todos os praticantes de atividade física de São Paulo. Por isso, escolhemos um número de indivíduos que possam servir como representantes dessa população e que permitam uma análise rápida, mas fiel do que seria a resposta da população como um todo. Por exemplo, certamente não é possível avaliar a marcha de todas as pessoas com lesão no ligamento cruzado anterior, mas podemos selecionar uma amostra dessa população, que conte com indivíduos que apresentem uma lesão no ligamento cruzado anterior e que sirvam como representantes. É claro que dez pessoas não permitem entendermos o que acontece com uma população em sua totalidade, mas possibilitam termos uma ideia geral do comportamento. Obviamente, há aqueles dessa amostra podem apresentar algumas variações na resposta em função das diferenças individuais, mas, obrigatoriamente, as características gerais da população devem ser preservadas. Para tanto, é importante que o número de sujeitos de uma amostra seja suficiente e que as características neles presentes sejam representativas à população. Quantos sujeitos determinam uma amostra suficientementegrande que me permita extrapolar os resultados para toda a população? Não há uma resposta exata para essa pergunta, pois isso depende de quanto a característica varia de uma pessoa para a outra em uma população. Se uma característica apresentar uma variedade muito grande entre os sujeitos de uma população, torna‑se necessário ter uma amostra maior, como o que ocorre quando queremos validar um medicamento como eficiente para hipertensão. Como em uma população cada metabolismo, hábitos, atividades são diferentes, necessitamos de muitos sujeitos para afirmar que o medicamente funciona ou não. Por outro lado, se o objetivo for muito específico, uma amostra menor, mas com mais características em comum permite responder à pergunta da investigação. Por exemplo, para investigar o efeito do treinamento de força sobre o rendimento na corrida, basta selecionar sujeitos já corredores, com certa 14 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 experiência ou não, que nunca praticaram treinamento de força. Nesse caso, uma amostra menor permite responder à pergunta da investigação. Figura 4 – Imagem associada ao exemplo anterior sobre os atletas corredores e o treinamento de força Quantos indivíduos deve ter a amostra nos dois casos exemplificados anteriormente? Não há uma resposta definitiva para essa pergunta. No caso da investigação da medicação, uma amostra composta por dez sujeitos é pequena, mas uma amostra composta por duzentos sujeitos já se torna mais confiável. É claro que trezentos sujeitos agregam maior certeza aos resultados, mas esse número é subjetivo. Já no exemplo dos corredores, cerca de dez a quinze sujeitos permitem uma caracterização adequada sobre a interferência do treinamento de força. Contudo, se a amostra for de vinte sujeitos, a certeza nas afirmações se torna maior. Na tentativa de atribuir uma maior precisão na determinação do número de indivíduos que deve compor cada amostra, muitos trabalhos sugerem a utilização de um cálculo amostral, que considera as características da amostra e a variabilidade nos resultados encontrados. Lembrete A amostra é uma redução representativa da população a dimensões menores, porém sem perda de pelo menos uma característica específica comum que define a população. Para a adequada seleção de uma amostra do universo de uma população, é importante ter bem definidos critérios que tornem essa amostragem representativa. Uma população pode ser definida segundo uma característica comum, mas, às vezes, alguns indivíduos dela apresentam certas características específicas que não são compartilhadas pelas demais pessoas que a compõem e que os tornam sujeitos não representativos dessa amostra. Por isso, quando o objetivo for selecionar uma amostra de uma população, devemos ter bem claro os critérios que permitam a participação do indivíduo na amostragem e os que o impeçam de fazer parte dela. A isso chamamos de critérios de inclusão e de exclusão para os indivíduos da amostra. 15 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Figura 5 – Imagem relacionada aos conceitos de critério de inclusão e exclusão Os critérios de inclusão são aquelas características que os indivíduos devem apresentar para compor a amostra, tornando‑os representativos de uma população em questão. Por exemplo, vamos supor que estejamos interessados em identificar o nível de desenvolvimento motor em que se encontram os alunos do Ensino Fundamental, na cidade de São Paulo. A nossa população é composta por todos os alunos, de todas as escolas da cidade de São Paulo, que se encontram no Ensino Fundamental. Para compor a amostra, precisamos de alunos que representem os quatro anos dessa modalidade de ensino, mas também precisamos considerar as diferenças existentes entre as escolas presentes nos diferentes bairros da cidade de São Paulo. Por isso, talvez selecionar algumas escolas que representem os diferentes níveis socioeconômicos‑culturais seria importante. Note que a nossa amostra precisará ser relativamente grande, pois dez ou quinze alunos não serão suficientes para representar essa população com características tão diversas. Por outro lado, necessitamos ter alguns critérios de exclusão, que envolvem as características que os indivíduos apresentam que os tornam não representativos da população, pois os caracterizam como indivíduos únicos ou com atributos muito peculiares. Usando o nosso exemplo anterior, seriam critérios de exclusão aqueles que afetariam o nível de desenvolvimento motor dos alunos do Ensino Fundamental. Por exemplo, teríamos que excluir da amostra todos os repetentes, pois certamente estariam numa faixa etária maior e teriam provavelmente um nível de desenvolvimento motor maior que os demais indivíduos da população. 16 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Outro exemplo de critério de exclusão seria a presença de qualquer tipo de deficiência física ou mental, pois não é uma característica inerente aos alunos de Ensino Fundamental, não correspondendo a uma característica presente na maioria dos indivíduos da amostra e que afeta a avaliação do nível de desenvolvimento motor. Por outro lado, participar regularmente das aulas de Educação Física afeta o nível de desenvolvimento motor, mas não podemos selecionar apenas alunos que participam dessa disciplina, pois estaríamos sendo tendenciosos, e os resultados não refletiriam a realidade das nossas escolas. Por isso, essa é uma característica que devemos ter registrada para posteriormente verificarmos se ela exerceu alguma interferência nos resultados da nossa investigação. Observe que os critérios de inclusão e de exclusão não são características fixas preestabelecidas, mas, sim, variam em função dos objetivos do estudo ou da investigação que queremos conduzir. Lembrete Os critérios de inclusão e exclusão de um indivíduo a uma amostra devem ser condizentes com os objetivos da análise de um determinado estudo. 2 ESTATÍSTICA DESCRITIVA Uma primeira dúvida muito comum, após coletar dados de uma amostra, é o que fazer com essas informações. Um primeiro passo é descrevê‑las para que seja possível identificar o comportamento ou a característica geral que apresentam. Esse é o processo de aplicação da estatística descritiva. Em estatística descritiva busca‑se a determinação de como o conjunto de dados em questão se comporta, ou seja, uma descrição sistemática dos resultados. Como deve ser feita essa descrição? O que deve ser descrito? Podem ser essas as próximas dúvidas pertinentes para a análise descritiva dos dados. Nesse sentido, não há uma única forma de se descrever os dados, pois dependendo dos objetivos da investigação, a descrição deverá adotar caminhos distintos, visto que, para cada objetivo, existe uma caminho mais adequado. Geralmente, a análise estatística de uma investigação é realizada usando um software de estatística, que contém diversas ferramentas de análise que utilizam métodos computacionais muito eficientes. Entretanto, é fundamental termos uma noção clara do que cada uma das ferramentas faz e quando cada uma delas deve ser usada. Caso contrário, podemos incorrer em erros que comprometeriam nossa análise e a confiabilidade dos resultados discutidos. Você já deve ter ouvido falar no ditado sobre a incoerência de comparar “bananascom laranjas”. Pois é exatamente isso que pode acontecer quando os softwares de estatística são usados indiscriminadamente por pessoas que não apresentam domínio sobre as ferramentas que estão utilizando nesses programas. Softwares quase sempre permitem os mais variados cálculos, independentemente dos valores que são digitados no sistema. Portanto, é necessário que o usuário desse sistema tenha conhecimento suficiente para avaliar a pertinência e a adequação da aplicação da análise estatística realizada pelo software. 17 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA É nessa perspectiva que discutiremos sobre algumas ferramentas de análise nos tópicos a seguir. Com base nesse conhecimento, você, aluno, será capaz de identificar o que foi feito e interpretar os resultados de forma mais aprofundada. Observação Existem atualmente no mercado diversos softwares que permitem a aplicação de inúmeros procedimentos estatísticos. Entretanto, é importante que o usuário entenda os conceitos atrelados ao teste a ser utilizado. 2.1 Tipos de variáveis: quantitativas e qualitativas Antes de abordarmos os tipos de variáveis, é necessário definirmos alguns termos fundamentais em estatística e que, muitas vezes, possuem um significado um pouco distinto daquele que lhes é atribuído habitualmente. Chamamos de Unidade Experimental a menor unidade capaz de fornecer informações que podem ser pessoas, animais, fatos ou objetos. Por exemplo, em um experimento, podemos analisar ratos albinos que são submetidos a exercícios físicos. Dados são informações numéricas ou não, obtidas a partir de um determinado experimento. No exemplo anterior, podemos afirmar que os dados são “ratos albinos” e “a prática de exercícios físicos”. Variável é a denominação para todas as características, atributos ou medidas que podem ser analisadas na Unidade Experimental, apresentando variações entre os indivíduos avaliados. Voltando ao exemplo da prática de exercícios físicos de ratos albinos, podemos analisar, por exemplo, a área de secção transversa de um determinado músculo desses animais. Portanto, nesse exemplo, a área de secção transversa é a nossa variável de análise. Figura 6 – Imagem associada ao exemplo da prática de exercícios físicos de ratos albinos 18 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 As variáveis podem ser de diferentes tipos, e torna‑se importante classificá‑las, pois cada tipo apresenta um procedimento estatístico mais adequado para realizar a análise. A principal classificação das variáveis de análise está relacionada à sua natureza qualitativa ou quantitativa. A variável qualitativa é uma medida de natureza não numérica, ou seja, ela não é representada por um número, mas, sim, por uma qualidade. Por exemplo, forte ou rápido são classificações atribuídas a variáveis qualitativas. Ainda que possam ser atribuídos números a essas variáveis (sexo feminino – 1; sexo masculino – 2), a quantificação dessas variáveis não apresenta sentido para sua interpretação. Uma variável qualitativa pode ainda ser classificada como nominal ou ordinal. Uma variável é qualitativa nominal quando a mesma não expressa nenhum critério que possa ser classificado como maior ou menor, melhor ou pior, entre outros. São características que as classificam, atribuem qualidade à medida, mas não há uma ordem lógica nessa classificação. Por exemplo, considere a variável cor dos olhos. Podemos classificar as pessoas segundo a cor de seus olhos, e assim teríamos pessoas com olhos castanhos, verdes, azuis etc. Essa classificação não permite ordenar as pessoas, pois não há uma cor de olho superior a outra; as cores simplesmente são diferentes. Portanto, cor dos olhos é uma variável qualitativa nominal. Gênero, tipo sanguíneo, cor da pele são outros exemplos de variáveis qualitativas nominais. Figura 7 – Exemplo de variável qualitativa nominal: cor dos olhos Uma variável é qualitativa ordinal quando apresenta uma ordem, e podemos classificar uma variável como superior e outra como inferior. Como exemplo, podemos citar a variável nível de condicionamento físico de diferentes indivíduos. Obviamente, nesse caso, os indivíduos que apresentarem um nível de condicionamento regular estarão em uma classificação superior àqueles que apresentarem um nível de condicionamento ruim, mas estarão em uma classificação inferior aos indivíduos que apresentarem um nível de condicionamento considerado bom. Portanto, nesse exemplo, podemos atribuir uma ordem a partir das qualidades correspondentes a cada variável. Contudo, é importante que essa ordenação seja inerente ao tipo de variável analisada, e não por julgamento por conveniência do pesquisador. 19 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Outros exemplos de variáveis qualitativas ordinais são: níveis de dor, níveis de intensidade de exercício avaliados em uma escala subjetiva de esforço, grau de instrução, entre outros. Lembrete O que difere as variáveis qualitativas nominais e ordinais é a possibilidade de classificação e ordenação dos dados. Variáveis qualitativas ordinais podem ser classificadas como melhores ou piores. Já a variável quantitativa, é uma medida de natureza numérica, sendo expressa por um valor, ou seja, é‑lhe atribuído um número. Podemos citar como exemplo, a variável peso corporal, na qual é atribuído um valor correspondente que geralmente é expresso em quantidade de quilos do indivíduo. Vamos supor que o objetivo de um estudo seja comparar a variável peso corporal de um indivíduo antes e após um programa de treinamento, como é o caso da pessoa pesava 60 Kg e após o treinamento passou a pesar 56 Kg. Dessa forma, houve uma quantificação do peso corporal do indivíduo avaliado. As variáveis quantitativas podem ser classificadas como discretas ou como contínuas. Figura 8 – Exemplo de variável quantitativa: peso corporal 20 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 As variáveis quantitativas discretas são aquelas que são expressas exclusivamente por números inteiros. Números fracionados não apresentam sentido lógico para esse tipo de variável. Vamos supor que seu objetivo seja avaliar a variável número de esteiras de uma academia. Nesse exemplo, certamente o resultado que você encontrará corresponderá a um número inteiro, pois não é possível dizermos que a academia possui uma esteira e meia. Outros exemplos de variáveis quantitativas discretas são: número de praticantes de uma determinada modalidade, quantidade de crianças com necessidades especiais em uma escola, número de carros. Já as variáveis quantitativas contínuas, podem apresentar qualquer valor em um intervalo de variação possível, ou seja, elas podem ser expressas em números fracionados. Vamos supor que seu objetivo seja comparar a variável altura de dois alunos. Nessa situação, você provavelmente encontrará valores que não são inteiros. Por exemplo, um aluno pode ter 1,58 m e outro 1,47 m de altura. Entretanto, e se considerar a variável peso corporal: podemos classificá‑la como discreta ou contínua? Nesse caso, embora sejamais comum você encontrar valores inteiros para essa variável, não necessariamente os resultados serão sempre inteiros. Assim, valores que não são inteiros (como 60,4 Kg e 59,7 Kg) fazem sentido para expressar o peso corporal e, portanto, essa variável pode ser classificada como quantitativa contínua. Outros exemplos de variáveis quantitativas contínuas são: tempo de treinamento, idade dos alunos, sobrecarga de um exercício. Figura 9 – Exemplo de variável quantitativa contínua 21 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Lembrete O que difere as variáveis quantitativas discretas e contínuas é a possibilidade de um valor fracionado. Variáveis discretas só podem ser expressas em números inteiros. Outra forma de classificar as variáveis está relacionada à função que elas apresentam dentro de um trabalho de pesquisa. A partir desse pressuposto, estabelece‑se a seguinte classificação: variável independente; variável dependente; variável categórica; variável de controle e variável interveniente. Variável independente é aquela que o pesquisador deseja manipular, ou seja, é sua variável experimental. Vamos supor que sua intenção seja avaliar a influência de diferentes tipos de exercício no ganho de força de determinado grupo muscular. Sua variável independente, nesse caso, corresponde aos diferentes tipos de exercício, pois é isso que você está testando ou “manipulando” para avaliar os possíveis ganhos de força muscular. Dito de outra forma, você está testando se alterações na variável independente (tipo de exercício) podem causar diferenças no ganho de força muscular. Já a variável dependente é aquela que pode ser medida ou registrada para acessar o efeito da variável independente. No exemplo anterior, a variável dependente é a força de determinado grupo muscular. A partir das mudanças nas variáveis independentes (tipo de exercício), pode ou não ocorrer alterações nas variáveis dependentes (força muscular). Figura 10 – Diferentes tipos de exercício (variáveis independentes) podem ou não gerar alterações na força muscular (variáveis dependentes) Dessa forma, pode‑se perceber que existe uma inter‑relação entre as variáveis independentes e dependentes do tipo causa‑efeito, sendo que a variável independente está associada à causa, enquanto que a variável dependente representa o efeito. Para ficar mais claro, vamos a outro exemplo: imagine que o seu objetivo de pesquisa seja avaliar a influência da fase de aprendizado motor no número de chutes a gol realizados com êxito no futebol. A 22 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 partir desse exemplo, qual será a variável independente e qual será a variável dependente? Nesse caso, a variável independente será aquela capaz de modificar a variável dependente. Portanto, a variável independente é a fase de aprendizado motor. Já a variável dependente, é aquela que você deseja medir e que é influenciada pela independente; portanto, corresponde ao número de chutes a gol realizados com êxito no futebol. Exemplo de aplicação De modo semelhante ao que foi realizado anteriormente, pense em um objetivo de pesquisa. Agora, procure determinar as variáveis independentes e dependentes de acordo com esse objetivo que você propõe. Figura 11 – Prática do voleibol que pode ou não ser influenciada pela prática do treinamento pliométrico, conforme proposta de pesquisa A variável categórica pode ser considerada um tipo de variável independente, mas ela não pode ser manipulada, pois está em categorias. Essas categorias nada mais são do que classificações das variáveis que permitem identificá‑las como pertencentes a um determinado grupo. São exemplos de variáveis categóricas dados como idade, raça, gênero, entre outros. Imagine que o objetivo de seu estudo seja analisar o efeito de um treinamento pliométrico no desempenho de jogadores de voleibol. Nesse caso, a variável independente é a modalidade do treinamento e a variável dependente é o desempenho de jogadores de voleibol. E as variáveis categóricas? Podemos assumir que os efeitos do treinamento pliométrico poderão ser diferentes dependendo do gênero dos jogadores de voleibol e da faixa etária em que estes se encontram. Portanto, o gênero desses indivíduos e a sua faixa etária podem ser considerados importantes variáveis categóricas. Claro que poderíamos ter inúmeras variáveis categóricas, mas é importante avaliar sua interferência no projeto de pesquisa para determinar aquelas que são mais relevantes. Dito de outra forma é importante identificar, em um estudo, se a inter‑relação causa‑efeito da variável independente sobre a variável dependente pode ser diferente na presença de uma variável categórica. 23 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA A variável controle está relacionada a um fator que poderia, possivelmente, influenciar os resultados do estudo, ou seja, a variável dependente. Como se espera que as possíveis alterações na variável dependente possam ser atribuídas ao efeito da variável independente, qualquer outra variável que possa exercer influência sobre a variável dependente precisa ser controlada. Exatamente por isso essa variável deve ser analisada separadamente, ou, se for o caso, mantida fora da pesquisa. Vamos supor que o objetivo do seu estudo agora seja determinar a frequência cardíaca máxima em um teste incremental de corrida em esteira. Nessa condição, a variável independente corresponde ao teste incremental de corrida em esteira, enquanto que a variável dependente é a frequência cardíaca máxima. Obviamente, a velocidade máxima alcançada no teste e, consequentemente, a frequência cardíaca máxima a ser atingida será influenciada pela condição de fadiga que algum indivíduo possa apresentar. Dessa forma, nesse exemplo, a fadiga apresentada previamente à realização do teste precisa ser controlada para que ela não cause alteração na variável dependente (frequência cardíaca máxima). Seria recomendado que, nessa situação, fosse solicitado aos indivíduos que não realizassem exercícios muito extenuantes 24 horas antes da realização do referido teste de corrida. Por fim, a variável interveniente é um fator que também pode afetar a relação entre a variável independente e dependente, mas não pode ser totalmente excluída ou controlada. De acordo com Lakatos e Marconi (2001), a variável interveniente se posiciona entre a variável independente e dependente, podendo ampliar, reduzir ou anular o efeito da variável independente sobre a variável dependente. Considere novamente o exemplo anterior sobre a determinação da frequência cardíaca máxima a partir de um teste incremental de corrida em esteira. Vamos supor que, no dia do teste, esteja fazendo muito calor e que, na sala em que o teste será realizado, não haja nenhum sistema de ar condicionado. Podemos dizer, então, que a temperatura pode ser considerada uma variável interveniente. Quanto maior o controle que o pesquisador conseguir exercer sobre as variáveis intervenientes, mais fortemente poderá se assumir que as alterações na variável dependente foram causadas devido à influência da variável independente. Ao contrário, quanto maior a influência da variável interveniente sobre a variável dependente, maior será a chance de atribuir erroneamente uma relação causa‑efeito entrea variável independente e dependente. Observação A inter‑relação entre as variáveis independentes e dependentes é do tipo causa‑efeito. A variável independente representa causa, enquanto a variável dependente representa o efeito. É claro que dificilmente uma pesquisa estará livre dos efeitos de alguma variável interveniente. Sendo assim, assume‑se que, em quase todas as pesquisas, há alguma fonte de erro. Como futuro pesquisador, é importante que você perceba a necessidade de minimizar ao máximo qualquer possível 24 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 fonte de erro. Podemos dizer que alguns são mais graves que outros, dependendo de sua natureza. Basicamente, podemos dividir os erros em dois tipos de acordo com suas características: erro sistemático e erro aleatório. Chama‑se de erro sistemático aquele que representa uma interferência que é constante em todas as medidas. Assim, o erro é quase sempre o mesmo em todos os resultados obtidos em uma medição. Já o erro aleatório pode ser observado eventualmente, ou seja, em torno da medida verdadeira, os erros podem ou não serem observados. Para exemplificar esses dois tipos de erro, vamos à seguinte aplicação prática: imagine que, na determinação da velocidade em uma esteira, ocorra um erro atribuindo sempre um acréscimo de 1 km/h em todas as velocidades. Nessa situação, você tem um erro sistemático, pois este será observado em todas as velocidades e para todos os indivíduos avaliados. Agora imagine que esse acréscimo, na velocidade da esteira, ocorra apenas em algumas situações, e que você não tenha controle sobre a presença ou não desse acréscimo. Nessa situação, você tem um erro aleatório que está presente em algumas condições, mas em outras não. Como já mencionamos anteriormente, obviamente devemos tentar minimizar ao máximo qualquer fonte de erro, mas imagine que você não tenha como impedir uma fonte de erro. Nessa condição, o que preferiria: o erro sistemático ou o erro aleatório? O erro sistemático parece ser preferível, pois como ele ocorre constantemente, é mais fácil conhecê‑lo e o quantificar. Uma vez que esse erro é conhecido, torna‑se possível excluí‑lo do valor real correspondente à medida. Por exemplo, imagine que você está utilizando um estadiômetro (equipamento usado para medir a estatura), o qual apresenta um incremento de 2 cm nas medidas realizadas. É preferível que esse erro aconteça em todas as medidas do que ocorra eventualmente, pois conhecendo o erro constante (2 cm), basta subtrair esse valor de erro das medidas realizadas. Podemos classificar, ainda, os erros de acordo com as suas causas, como: • erro instrumental; • erro ambiental; • erro observacional; • erro teórico. O erro instrumental ocorre quando há alguma imprecisão no instrumento de medida utilizado para realizar a pesquisa. Tomemos como exemplo uma balança utilizada para mensurar a massa corporal esteja desregulada e que ela forneça sempre 1 Kg a mais no momento de realizar a medida. 25 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Outro exemplo de erro sistemático instrumental bastante comum na Educação Física é a imprecisão de alguns plicômetros utilizados para aferir as dobras cutâneas para a do percentual de gordura corporal; fornecem resultados sistematicamente superiores ou inferiores em todas as medidas realizadas. O erro ambiental refere‑se a alguma alteração no meio de avaliação, ou seja, no ambiente que promova alteração na variável dependente. Utilizando um exemplo anterior, podemos citar a presença de um ambiente muito quente. Outra possibilidade é um ambiente muito escuro que não permita, por exemplo, a execução de uma determinada habilidade motora fina. Figura 12 – Exigência de flexibilidade – variável que pode ser testada em diversos tipos de protocolo O erro observacional representa uma inconsistência na análise ou um erro de leitura na medição. Isso acontece, por exemplo, quando algum método de análise é utilizado de forma inapropriada, não fornecendo resultados que possam ser considerados válidos. Para exemplificar, imagine que seu objetivo seja realizar uma avaliação e análise dos níveis de flexibilidade de um determinado indivíduo. Para tanto, você utiliza o teste conhecido como sentar e alcançar e encontra índices muito baixos de flexibilidade. Com isso, a partir dessa análise, você poderia concluir que a flexibilidade do indivíduo avaliado é ruim. Entretanto, a análise única e exclusivamente deste teste não permite essa conclusão, pois desconsidera a mobilidade de outras articulações. Outro erro observacional muito comum é a medição equivocada por parte do avaliador em função de um erro de leitura do equipamento. Isso geralmente acontece quando um indivíduo não está familiarizado a utilizar um determinado instrumento de medida. Também é bastante comum em avaliadores que usam pela primeira vez um plicômetro para avaliação das dobras cutâneas em avaliação física. 26 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 São considerados erros teóricos aqueles associados à falta de clareza na determinação das variáveis de análise. Imagine que você deseja calcular o percentual de gordura de um aluno a partir das medidas de dobras cutâneas realizadas. O problema é que existem inúmeras fórmulas que permitem esses cálculos, diferindo de acordo com a população para qual se deve aplicar cada uma delas. Dessa forma, sem adequado conhecimento sobre a população‑alvo, tais fórmulas podem ser aplicadas levando a uma considerável fonte de erro. Como o objetivo primordial de qualquer medida é minimizar e controlar as fontes de erro, sugere‑se que se tomem os devidos cuidados para reduzir os fatores aleatórios de erros, repetindo medições e garantindo a apropriada proficiência dos avaliados com o instrumento de medida. Lembrete Os erros podem ser de dois tipos de acordo com suas características: erro sistemático (interferência constante em todas as medidas) e erro aleatório (pode ser observado eventualmente). 2.2 Variáveis de posição: valores máximos, mínimos, moda, média e mediana Uma vez que as variáveis foram definidas e classificadas, vamos tratar de um tipo específico de variável conhecido como variável de posição, que é calculada quando desejamos representar um conjunto de dados por um valor único. Existem variáveis de posição conhecidas como valores extremos, que correspondem aos valores máximos e mínimos de um conjunto de dados. Outro subconjunto de variáveis de posição são as medidas de tendência central. Nesse caso, é calculado um valor central no conjunto de dados. Os valores de tendência central mais utilizados são: a média, a moda e a mediana. Figura 13 – Representação da série de 10 chutes a gol, conforme explicitado no exemplo 27 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Muitas vezes, esses valores são utilizados para representar a tendência central do conjunto de dados, mesmo sendo este um valor abstrato. Para ficar mais claro, vamos a um exemplo: imagine que você tem um conjunto de dados de seis alunos representandoo número de chutes a gol realizados com sucesso em dez tentativas. Nessa situação, a partir do desempenho dos alunos, você obteve o seguinte conjunto de dados: 8, 7, 8, 6, 9 e 5. A partir desses valores, você pretende agora calcular o valor médio desse conjunto de dados, ou seja, serão calculados, em média, quantos chutes a gol foram realizados com sucesso em dez tentativas para esses alunos. O valor obtido será 7,16 chutes a gol com sucesso. Entretanto, note que esse valor não está originalmente no conjunto de dados. Portanto, não é real ao conjunto de dados, e sim apenas um valor utilizado como representativo do conjunto. Lembrete Os principais valores de posição são valor máximo, valor mínimo, valor de média, valor de moda e valor de mediana. Valor máximo e valor mínimo: Os valores máximos e mínimos são aqueles que se encontram nos extremos de um conjunto de dados. Dessa forma, o valor máximo (Vmáx.) – também conhecido como valor de pico – corresponde ao maior valor do conjunto de dados, enquanto que o valor mínimo (Vmín.) representa o menor valor desse conjunto. Vamos supor que tenhamos conjunto de dados conhecido como (A) que apresenta os seguintes valores: (A) = 7, 9, 1, 12, 6, 4, 9, 7. Nessa situação, temos: Vmáx. (A) = 12 Vmín. (A) = 1 Ou seja, o valor máximo de (A) é 12 e o valor mínimo é 1. A figura 14 ilustra uma curva obtida a partir de um conjunto de dados, e nela podemos observar a determinação dos valores máximos e mínimos. 28 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Máximo Mínimo Figura 14 – Gráfico mostrando a determinação dos valores máximos e mínimos de um conjunto de dados Há grande aplicabilidade da utilização desses valores em função de sua fácil obtenção, pois podem ser determinados diretamente, sem a necessidade da realização de cálculos e aplicados em diversas condições específicas da área da Educação Física. Figura 15 – Exercício de caminhada, a partir do qual o objetivo pode ser determinar os ângulos máximos e mínimos das diferentes articulações do membro inferior Para ficar mais claro, vamos a um exemplo prático. Imagine que durante uma caminhada você tem como objetivo determinar os ângulos máximos e mínimos das diferentes articulações do membro inferior. Utilizando técnicas de filmagem e uma análise biomecânica do movimento, é possível determinarmos a variação angular de cada articulação ao longo de um ciclo de uma passada, ou seja, do momento em que um pé toca o solo, até o contato subsequente desse mesmo pé com o solo. A figura 16 mostra a variação angular durante um ciclo de marcha, ou seja, uma passada, para as principais articulações do membro inferior: quadril, joelho e tornozelo. 29 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Quadril Joelho Tornozelo Ân gu lo a rt ic ul ar Porcentagem do ciclo Co nt at o do c al ca nh ar Pé a pl ai na do Ap oi o m éd io Re tir ad a do c al ca nh ar Re tir ad a do s d ed os Ba la nç o m éd io Co nt at o do c al ca nh ar 30 50 ‑10 10 10 30 70 10 ‑10 20 40 ‑20 0 0 20 60 0 ‑20 0 10 20 30 40 50 60 70 80 90 100 Figura 16 – Variação angular das articulações do quadril, joelho e tornozelo em uma passada da marcha Nessa figura, o valor 0, no eixo horizontal (eixo x), representa o contato do pé com o solo, e o valor 100 corresponde ao novo contato desse mesmo pé com o solo novamente. Portanto, temos a descrição do que acontece ao longo do período correspondente a uma passada. No eixo vertical (eixo y), temos a visualização de três diferentes gráficos simultaneamente, correspondentes às articulações do quadril, joelho e tornozelo, que se encontram nessa ordem de cima para baixo. Para cada articulação é possível observar um valor de zero, que corresponde, nas diferentes articulações, à posição neutra, ou posição anatômica dessas articulações. Para as articulações do quadril e joelho, valores positivos significam que o segmento do indivíduo está posicionado em flexão, enquanto os valores negativos representam o segmento posicionado em extensão. Já para a articulação do tornozelo, os valores positivos denotam uma flexão dorsal, enquanto valores negativos correspondem a uma posição de flexão plantar. Uma vez que os dados da figura 16 foram explicados, podemos ter como objetivo a determinação dos valores máximos e mínimos, identificando sua localização aproximada em função do percentual do ciclo da passada. Para a articulação do quadril: • Vmáx. 28° em flexão, ocorrendo em 85% do ciclo de passada, quando o segmento precisa se posicionar a frente para iniciar uma nova passada. Vmín. 20° em extensão, ocorrendo em 55% do ciclo de passada, um pouco antes de dar início à fase aérea. 30 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Para a articulação do joelho: • Vmáx. 70° em flexão, ocorrendo em 72% do ciclo de passada, quando uma grande flexão torna‑se importante para absorção de choque mecânico. • Vmín. 3° em extensão, ocorrendo em 98% do ciclo de passada, que mostra imediatamente antes do contato o joelho se posicionar com o máximo de extensão possível, ou seja, a articulação está retesada. Para a articulação do tornozelo: • Vmáx. 10° em flexão dorsal, ocorrendo em 50% do ciclo de passada, representando o avanço máximo da tíbia sobre o pé na fase de apoio. • Vmín. 15°, ocorrendo em 8% do ciclo de passada, representando a flexão plantar necessária para o aplanamento do pé após o contato. Como realizado no exemplo anterior, pode‑se perceber que a determinação dos valores máximos e mínimos torna‑se de suma importância para adequada caracterização do movimento – no caso, a marcha. Lembrete Os valores de posição considerados extremos são conhecidos como valor máximo (maior valor do conjunto de dados) e como valor mínimo (menor valor desse conjunto). De forma semelhante, esse procedimento pode ser realizado para caracterizar outras formas do movimento humano. A identificação desses ângulos em diferentes atividades torna‑se importante para associação das ações musculares em cada fase do movimento, o que pode apresentar grande aplicabilidade na determinação do treinamento, na tentativa de deixá‑lo o mais específico possível, aumentando sua funcionalidade. Exemplo de aplicação Utilizando as informações da figura 17 que é apresentada a seguir, determine aproximadamente: a) o valor máximo no eixo horizontal; b) o valor mínimo no eixo horizontal; c) o valor máximo no eixo vertical; d) o valor mínimo no eixo vertical. 31 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA A partir desses valores calcule, de forma aproximada, a amplitude da passada e altura da passada por meio das seguintes fórmulas: Amplitude da passada = 2 x (valor máximo no eixo horizontal – valor mínimo no eixo horizontal); Altura da passada = 2 x (valor máximo no eixo vertical – valor mínimo no eixo vertical); b 100 50 75 25 0 0 100 20050 150 Deslocamento horizontal (cm) De slo ca m en to v er tic al (c m ) 250 a c ∆a ∆c Figura 17 – Deslocamentos verticais e horizontais a partirdo eixo de coordenadas do ponto de referência posicionado no calcâneo, representativo de um ciclo de passada, método utilizado para quantificar a amplitude de passada Valor de média Os valores de média são calculados considerando a média aritmética dos valores de um conjunto de dados. A média é o valor de medida central mais utilizado, em função do seu fácil emprego e interpretação dos resultados, apresentando grande aplicabilidade para diversas populações. A média é geralmente representada pela letra x acrescida de um traço superior (leia‑se x barra). Dessa forma, tem‑se a seguinte fórmula: x x x x x n n n� � � � � � � 1 2 3 ... xi i=n n Sendo que: Σ x = soma de todos os valores de x. n = ao número de dados que temos no conjunto. 32 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Vamos a um exemplo simples: imagine que tenhamos um conjunto de dados contendo os seguintes valores: 2, 5, 3, 7 e 8. Para este exemplo, Σ x será a soma de todos os valores, ou seja: Σ x = 2 + 5 + 3 + 7 + 8 Σ x = 25 E n corresponde ao número de valores que temos no conjunto; portanto: n = 5 Dessa forma, a média será: Média = 25/5 = 5 Para ficar mais claro, vamos a um exemplo prático: imagine que em um teste de resistência, dois alunos conseguiram executar os seguintes números de repetições em seis tentativas: • Aluno 1: 28, 29, 32, 35, 35, 30. • Aluno 2: 21, 20, 20, 21, 24, 19. A partir desses dados, vamos calcular o desempenho médio dos referidos alunos nos testes de resistência. Para tanto, temos o seguinte: • Desempenho médio do aluno 1: (28 + 29 + 32 + 35 + 35 + 30)/6 Desempenho médio do aluno 1: 189/6 = 31,5 repetições. • Desempenho médio do aluno 2: (21 + 20 + 20 + 21 + 24 + 19)/6 Desempenho médio do aluno 2: 125/6 = 20,83 repetições. Agora, poderíamos ter como objetivo realizar o cálculo do desempenho médio considerando os dois alunos em conjunto. Nesse caso, poderíamos somar os 12 valores e dividir por 12 (que é o número total de testes realizados pelos dois alunos). Entretanto, é importante lembrar que já calculamos o desempenho médio para cada aluno. Assim, de posse desses valores, bastará calcular uma nova média a partir dos valores correspondentes ao desempenho médio de cada aluno. 33 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Portanto, temos: • desempenho médio do aluno 1 = 31,5 repetições; • desempenho médio do aluno 2 = 20,83 repetições; • cálculo da Média = (31,5 + 20,83)/2 = 52,33/2 = 26,16; • desempenho médio dos dois alunos = 26,16 repetições. Vamos a mais dois exemplos práticos especificamente relacionados à área da Educação Física. Exemplo 1 Imagine que você pediu para um grupo de cinco alunos para que realizassem uma corrida leve (um trote). Durante essa atividade você decidiu aferir a frequência cardíaca em batimentos por minuto (b.p.m.) para cada aluno, e foram obtidos os seguintes valores: aluno 1: 123 b.p.m. aluno 2: 136 b.p.m. aluno 3: 154 b.p.m. aluno 4: 108 b.p.m. aluno 5: 121 b.p.m. Agora, você deseja calcular a frequência cardíaca média para esse grupo de alunos. Para tanto, deve ser realizado o seguinte cálculo: média = (123+136+154+108+121)/5 FC média = 128,4 b.p.m. Exemplo 2 Imagine, agora, que, para avaliar os possíveis índices de sobrepeso e obesidade de um grupo de alunos de uma turma de Educação Física Escolar, você mensurou a massa corporal de cada aluno desse grupo: massa corporal de dez alunos: 64 kg, 70 kg, 59 kg, 71 kg, 67 kg, 72 kg, 70 kg, 81 kg, 83 kg, 75 kg. Agora, você deseja calcular a massa corporal média desse grupo de alunos. Para tanto, será realizado o seguinte cálculo: 34 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 média = (64, 70, 59, 71, 67, 72, 70, 81, 83, 75)/10 massa corporal média = 71,2 kg Lembrete Para calcular a média, devem‑se somar todos os valores de um conjunto de dados e dividir pelo número de dados. Valor de Moda A moda é um valor de tendência central muito fácil de determinar em um conjunto de dados, pois também não envolve nenhum procedimento matemático específico. Para identificar o valor de moda, basta determinar o valor que mais se repete no conjunto de dados, ou seja, de maior frequência. Esse conceito apresenta significado semelhante ao que popularmente se chama de moda para outras aplicações. Por exemplo, quando dizemos que uma determinada modalidade de ginástica de academia está na moda, significa que muita gente está praticando essa modalidade. Podemos pressupor que se formos a uma academia, a sala dessa determinada modalidade estará cheia de alunos e que a maioria dos alunos da academia a estão praticando. Assim, chama‑se de moda aquilo que se repete com maior frequência. Figura 18 – Modalidade de ginástica de academia que pode ser considerada como moda 35 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Agora, vamos entender matematicamente o que isso representa. Imagine que você tem os seguintes valores no conjunto de dados (B). (B) = 4, 7, 9, 3, 6, 7, 2 Nesse exemplo, o valor de moda é 7, pois é aquele que mais vezes aparece no conjunto de dados. Agora, imagine que temos os seguintes valores no conjunto de dados (C). (C)= 3, 9, 10, 8, 8, 2, 9 Nesse caso, os valores de moda são 9 e 8, pois ambos se repetem duas vezes no conjunto de dados. Dessa forma, não temos apenas um valor de moda, mas dois. Lembrete A moda é o valor que mais se repete no conjunto de dados, ou seja, o valor de maior frequência. A partir disso, podemos dizer que um conjunto de dados pode apresentar diferentes formas de distribuição, podendo ser classificado como: • amodal: quando o conjunto de dados não apresenta nenhum valor de moda; • unimodal: quando apenas um valor de moda é identificado; • bimodal: quando dois valores de moda são identificados; • multimodal: quando mais de dois valores de moda são identificados. Vamos a um exemplo. Imagine os conjuntos de dados (A) e (B): (A) = 1, 2, 2, 2, 3, 4, 5, 6, 6, 6, 7, 9. (B) = 5, 5, 5, 3, 1, 5, 1, 6, 4, 3, 1, 5. Identifique o (s) valor (es) de moda para cada conjunto e classifique‑o como amodal, unimodal, bimodal ou multimodal. Conjunto (A): moda: 2 e 6; classificação: bimodal. 36 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Conjunto (B): moda: 5; classificação: unimodal. Note que no conjunto (B) outros valores também se repetem (como o valor 1 e o valor 3), mas apenas o valor 5 é considerado como moda, uma vez que é aquele que mais se repete. Para fixarmos melhor essa ideia, vamos a outro exemplo: em seis avaliações de uma turma do curso de Educação Física, quatro alunos obtiveram as seguintes notas: • aluno 1: 8, 6, 7, 9, 6, 7; • aluno 2: 4, 6, 5, 6, 6, 7; • aluno 3: 7, 8, 5, 9, 6,10; • aluno 4: 6, 8, 7, 7, 8, 6. Determine o valor de moda para cada aluno e classifique o conjunto de notas de cada um como amodal, unimodal, bimodal ou multimodal.• Aluno 1: valores de moda – 6 e 7; classificação – bimodal. • Aluno 2: valor de moda – 6; classificação – unimodal. • Aluno 3: sem nenhum valor de moda; classificação – amodal. • Aluno 4: valores de moda – 6, 8 e 7; classificação – multimodal. Observação Um conjunto de dados pode ser classificado como amodal (sem moda), unimodal (um valor de moda), bimodal (dois valores de moda), e multimodal (mais de dois valores de moda). Valor de Mediana A mediana é uma medida de tendência central correspondente ao valor da variável que ocupa a posição central de um conjunto de n dados ordenados. Assim, para calcularmos o valor de mediana, o primeiro procedimento importante é colocarmos os valores do conjunto de dados em ordem crescente. Esse valor é geralmente expresso pelo símbolo Md. 37 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Assim, pode‑se dizer que o valor Md divide o conjunto de dados em duas partes de igual tamanho, ou seja, há mesma quantidade de valores menores e maiores em torno desse valor. Por exemplo, considere o conjunto de dados (A) formado pelos valores 2, 6, 3, 7, 8. Ao ordenarmos esse conjunto de dados, teremos a seguinte sequência de valores: Dados ordenados: Conjunto (A) = 2, 3, 6, 7, 8. A partir disso, o valor de mediana corresponde àquele valor que está no “meio”, ou seja, o valor central. Como nesse exemplo temos poucas variáveis (apenas cinco números), torna‑se mais fácil identificar esse valor. Temos dois valores para esquerda (números 2 e 3) e dois valores para direita (números 7 e 8), sendo que a variável correspondente ao número 6 ocupa a posição central, sendo, portanto, o valor da mediana. 2 3 6 7 8 ↑ Posição mediana Assim, Md = 6. Entretanto, nem sempre esse valor é identificável tão rapidamente, pois quando há um grande número de dados, essa rápida visualização torna‑se inviável. Exatamente por isso, após a primeira etapa de ordenamento dos dados, sugere‑se a aplicação da seguinte fórmula para identificar a posição da mediana: Posição da mediana = n+1 2 Nesse caso, n corresponde ao número de variáveis do conjunto de dados. Vamos aplicar essa fórmula no nosso exemplo anterior em que tínhamos o conjunto de dados (A) e você perceberá que o mesmo valor determinado anteriormente será obtido. O conjunto de dados (A) apresenta cinco valores; portanto, n é igual a 5. Assim, para identificar a posição da mediana no conjunto de dados (A), temos: Posição da mediana = 5 1 2 3 � � Portanto, para o conjunto (A), a valor de mediana está na posição 3 dos dados ordenados. 38 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Dados ordenados: Conjunto (A) = 2, 3, 6, 7, 8. Valor da mediana na posição 3 = 6 Md = 6 Vamos a um exemplo aplicado à Educação Física: você registrou o número de saques no voleibol realizados com sucesso para nove alunos e obteve os seguintes valores: 13, 8, 7, 11, 9, 8, 12, 5, 10. Para calcular a mediana, a primeira coisa a se fazer é ordenar esses valores: Dados ordenados: Valores de saques realizados com sucesso = 5, 7, 8, 8, 9, 10, 11, 12, 13. Para esse conjunto de dados, temos o valor de n igual a 9 (número de variáveis do conjunto). Agora, usando a fórmula para encontrar a posição da mediana, temos: Posição da mediana = 9 1 2 5 � � Valor da mediana na posição 5 = 9 Md = 9 Dessa forma, a utilização desse procedimento permitirá a identificação de forma simples e rápida do valor correspondente à mediana. Entretanto, a identificação direta desse valor ocorre apenas quando temos um número ímpar de variáveis no nosso conjunto de dados. Note que nos dois exemplos anteriores o valor de n era ímpar (no conjunto de dados (A), o n era igual a 5; e 9 alunos realizaram saques no voleibol – portanto, nessa condição o n era 9). Lembrete A mediana corresponde ao valor da variável que ocupa a posição central de um conjunto de n dados ordenados. Quando o valor correspondente a n for um número ímpar, ao encontrar a posição da mediana, você terá exatamente a mesma quantidade de valores superiores e inferiores ao valor da Md. E quando o conjunto de dados tiver um número par de variáveis? Como devemos proceder nessa situação? 39 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Figura 19 – Registro do número de saques no voleibol realizados com sucesso para nove alunos Para ficar mais claro, vamos a um exemplo: imagine que você tenha os seguintes valores no conjunto de dados (B). Conjunto de dados (B) = 4, 8, 2, 1, 9, 6 Como vimos, o primeiro passo é ordenar os dados desse conjunto. Dessa forma, temos: Conjunto de dados (B) = 1, 2, 4, 6, 8, 9 O próximo passo é aplicar a fórmula para encontrar a posição da mediana: n+1 2 Como o conjunto de dados (B) apresenta seis variáveis, temos nosso valor de n nessa condição correspondente a 6. Então, aplicando a fórmula anterior para determinarmos a posição da mediana, teremos: Posição da mediana = 6 1 2 3 5 � � , 40 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 O problema é que não existe a posição 3,5, existe um valor correspondente à posição 3 e outro correspondente à posição 4, mas a posição 3,5 não é real e, portanto, não podemos atribuir diretamente um valor de Md. Nessa situação, utilizamos os valores em torno da posição encontrada e calculamos a média desses dois valores. Seguindo o nosso exemplo anterior, encontramos a Md na posição 3,5. Assim, vamos tomar os valores de uma posição imediatamente superior e de uma posição imediatamente inferior para calcularmos a média desses valores. A posição imediatamente superior a 3,5 é o valor na posição 3, e aquela imediatamente inferior é o valor na posição 4. Considerando o conjunto de dados ordenados, temos: • valor na posição 3 = 4; • valor na posição 4 = 6. Agora, calculamos a média entre esses dois valores. Dessa forma, temos: Média entre os valores das duas posições = (4+6)/ 2 = 5 Portanto, para o conjunto de dados (B), em que o valor de n corresponde a um número par, encontramos o seguinte valor de Md. Valor da mediana na posição 3,5 = 5 Md = 5 Vamos a outro exemplo mais diretamente relacionado à área da Educação Física. Imagine oito crianças pulando corda e que queira determinar quantas vezes elas conseguem saltar seguidamente sem cometer nenhum erro. Considerando o desempenho de cada criança, você chega ao seguinte conjunto de dados: Saltos realizados com sucesso: 23, 41, 9, 17, 22, 39, 12, 28. Agora, vamos calcular o número de Md para esse conjunto de dados, sendo a primeira etapa ordenar os dados. Saltos realizados com sucesso (ordenados): 9, 12, 17, 22, 23, 28, 39, 41. A segunda etapa é achar a posição da mediana. Considerando que temos 8 valores (oito crianças saltaram), nosso n é igual a 8. Posição da mediana= n� � � � 1 2 8 1 2 4 5, 41 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Como o valor de n é par,a posição da Md não é real nesse conjunto de dados (4,5). Portanto, precisamos calcular a média entre o valor da posição inferior (posição 4) e o valor da posição superior (posição 5), a partir do conjunto de dados ordenados. Valor da posição 4 = 22 Valor da posição 5 = 23 Média entre os valores das duas posições = (22+23)/ 2 = 22,5 Md = 22,5 saltos Dessa forma, o desempenho mediano das oito crianças que brincaram de pular corda foi 22,5 saltos. Observação Quando o valor de n é par em um conjunto de dados, para calcular a mediana, deve‑se obter a média entre o valor da posição inferior e da posição superior no conjunto de dados ordenados. Uma característica importante da Md é que ela não é influenciada pelos valores extremos do conjunto de dados. Imagine que, no exemplo dado anteriormente você tivesse uma criança com desempenho extraordinário que conseguisse saltar 160 vezes, em vez de 41 vezes. Note que ainda assim, o valor de Md continuaria sendo 22,5 saltos, pois nessa variável não importa o pior e o melhor desempenho; apenas os desempenhos centrais. Isso já não acontece quando calculamos a média, a qual é fortemente influenciada por todos os valores, uma vez que para calculá‑la precisamos primeiro somar todos os valores do conjunto de dados (conforme já discutimos anteriormente). Saiba mais No final do livro Bioestatística: princípios e aplicações, da autora Sidia M. Callegari‑Jacques, Editora Artmed, há uma lista de exercícios da qual constam mais alguns exemplos para que os valores de média, moda e mediana sejam determinados. Utilize mais essa oportunidade para aprimorar seus conhecimentos. Como discutimos, existem diferentes valores de tendência central, sendo os mais importantes os de média, moda e mediana. Geralmente, estes diferem em um conjunto de dados, mas isso não necessariamente ocorrerá sempre. 42 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Considere uma situação em que o conjunto de dados mostre uma distribuição exatamente simétrica, ou seja, os dados se distribuem de modo uniforme, o que pode ser observado na figura 20 (B), na qual os valores de média, moda e mediana coincidem. Quando a distribuição dos dados mostra‑se assimétrica e os valores se localizam mais direita no gráfico, ou seja, mais em direção aos maiores valores (figura 20 (A)), podemos observar que os valores de moda serão maiores que os de mediana, os quais por sua vez serão maiores que os de média. Ao contrário, quando a distribuição dos dados é assimétrica, mas eles se localizam mais à esquerda no gráfico, em direção aos menores valores (figura 20(C)), podemos observar que os valores de média agora são maiores que os valores de mediana, os quais por sua vez são maiores que os valores de moda. Média Mediana Moda (A) (B) (C) Média Mediana Moda Média Mediana Moda Figura 20 – Identificação dos valores de média, moda e mediana em gráficos com dados em distribuição simétrica (B) e assimétrica (A e C) Lembrete Quando a distribuição dos dados for simétrica, teremos os mesmos valores de média, moda e mediana. Quando a distribuição dos dados for assimétrica, esses valores não irão coincidir. 3 MEDIDAS DE VARIABILIDADE As medidas de variabilidade, também conhecidas como medidas de dispersão, permitem avaliar a diversidade da distribuição das variáveis em um conjunto de dados, ou seja, indicam como os dados estão neste dispostos. Se os fenômenos naturais fossem sempre estáveis de modo que as mesmas causas produzissem sempre efeitos idênticos, não teríamos desenvolvido a noção de variabilidade. Desse modo, as medidas de variabilidade são muito importantes, pois muitas vezes as medidas de posição não fornecem informações suficientes que permitam caracterizar adequadamente um conjunto de dados. 43 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Figura 21 – Exemplo de dois alunos que somam trinta pontos em uma avaliação e, assim, atingem médias iguais Para ficar mais claro, vamos a um exemplo prático. Imagine que dois alunos tenham tirado as seguintes notas em seis avaliações: • aluno I: 5, 5, 5, 5, 5, 5; • aluno II: 8, 2, 7, 4, 6, 3. Nesse exemplo, os dois alunos somam trinta pontos na avaliação e atingem uma média igual a cinco, já que nos dois casos temos um total de seis avaliações. Entretanto, existe uma diferença clara entre os dois alunos: ambos apresentam dados com variabilidades distintas. Uma das formas mais básicas de avaliar a variabilidade corresponde ao cálculo da amplitude de variação. Para tanto, basta calcular a diferença entre os valores extremos. Assim, para o aluno I, temos a amplitude de variação igual a zero, enquanto que, para o aluno II, a amplitude de variação foi 6, conforme mostram os cálculos a seguir: amplitude de variação para o aluno I: 5 (maior valor) – 5 (menor valor) = 0; amplitude de variação para o aluno II: 8 (maior valor) – 2 (menor valor) = 6. Como, quanto maior a amplitude maior é a variação, podemos afirmar que o aluno II apresentou uma variação em suas notas maior que o aluno I. Vamos a outro exemplo: agora outros dois alunos que atingiram o mesmo valor de média final (6) apresentaram as seguintes notas nas seis avaliações propostas: • aluno III: 7, 3, 8, 9, 2, 7; • aluno IV: 4, 7, 5, 8, 5, 7. 44 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 A partir desses dados, qual aluno teve maior amplitude de variação? Vamos aos cálculos: amplitude de variação para o aluno III: 9 (maior valor) – 2 (menor valor) = 7; amplitude de variação para o aluno IV: 8 (maior valor) – 4 (menor valor) = 4. Com isso, chegamos à conclusão de que o aluno III apresentou maior variação nos dados, embora os valores de média tenham sido os mesmos para os dois alunos. Contudo, o cálculo da amplitude variação apresenta uma importante limitação. Como apenas os valores extremos são considerados para os cálculos, não é informado nada a respeito sobre a variabilidade dos valores intermediários. Além disso, em situações em que uma medida se afasta muito da média (apenas um valor é muito alto ou muito baixo), a variação pode ser descrita como alta, mesmo sem refletir a realidade para a maioria dos dados daquele conjunto. Por esse motivo, em muitas situações, a amplitude de variação pode ser uma estimativa inadequada e insuficiente para determinar a variabilidade de um conjunto de dados. Pensando nisso, serão abordados a partir de agora os conceitos de variância, desvio padrão e coeficiente de variação. Observação Para a determinação da amplitude de variação, basta calcular a diferença entre os valores extremos. Entretanto, a amplitude de variação desconsidera os valores intermediários do conjunto de dados. Lembrete A forma mais comum para determinarmos a variabilidade de um conjunto de dados corresponde ao cálculo da variância, do desvio padrão e do coeficiente de variação. 3.1 Variância Com o intuito de considerarmos todos os valores de um conjunto de dados para determinarmos a variabilidade, surge a possibilidade de calcularmos a variância. Primeiro, podemos pensar que para afirmarmos que algo variou será necessário utilizarmos um ponto de referência, para conhecermos o quanto todos os valores do conjunto de dados oscilam em torno 45 Re vi sã o: C ar la - D ia gr am aç ão :M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA desse valor de referência comum. No caso específico do cálculo da variância, esse valor de referência comum corresponde à média aritmética. Quanto maior a variância de um conjunto de dados, podemos afirmar que maior será a variabilidade dos valores que o compõem. Dessa forma, se a variância de conjunto de dados é 0,27 e de outro é 0,91, podemos afirmar que a variabilidade é maior no segundo caso. Quando não houver nenhuma variabilidade, a variância será igual a zero. Para calcularmos a variância, torna‑se fundamental seguirmos as quatro etapas: 1. Subtrair de cada valor a média aritmética do conjunto ao qual pertence. 2. Elevar cada diferença encontrada ao quadrado. 3. Somar os quadrados. 4. Dividir a soma dos quadrados pelo número de parcelas. Para ficar mais claro, vamos a um exemplo prático, relacionado à nossa área de atuação. Imagine a situação em que temos dois conjuntos de atiradores: atiradores do grupo (A) e atiradores do grupo (B). Cada grupo possui oito atiradores, e você quantificou os acertos individuais de cada atirador, em cada grupo, obtendo os seguintes valores: • desempenho dos atiradores do grupo (A) = 8, 9, 10, 8, 6, 11, 7, 13 acertos; • desempenho dos atiradores do grupo (B) = 7, 3, 10, 6, 5, 13, 18, 10 acertos. Figura 22 – Desempenho dos dois grupos de atiradores (A e B) 46 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Note que o desempenho dos dois grupos é o mesmo se o considerarmos como a soma dos acertos individuais de todos os atiradores em cada grupo. Dessa forma, temos: desempenho do grupo (A) = 72 acertos (soma do desempenho de todos os atiradores); desempenho do grupo (B) = 72 acertos (soma do desempenho de todos os atiradores). Se avaliarmos o desempenho médio de cada grupo, novamente obteremos valores iguais, uma vez que a soma leva aos mesmos valores (72 acertos) e temos o mesmo número de atiradores em cada grupo (oito atiradores no grupo A e B). Com isso, chegamos ao seguinte desempenho médio para os dois grupos: • desempenho médio = 72/ 8 = 9 acertos. E será que a variabilidade dos dois grupos de atiradores é a mesma? E se não for, qual grupo de atiradores possui maior variação de desempenho? Para responder a essas questões, vamos ao cálculo da variância. Para tanto, vamos cumprir todas as etapas propostas anteriormente para os dois grupos: primeiro para o grupo de atiradores (A) e depois para o grupo de atiradores (B). Cálculo da variância a partir do desempenho dos atiradores do grupo (A) • Primeira etapa: subtrair de cada valor a média aritmética do conjunto ao qual pertence. Média do grupo (A) = 9 acertos. Tabela 1 – Valores referentes ao cálculo do valor de mediana Acertos individuais Subtrair a média de cada valor 8 8 – 9 = ‑1 9 9 – 9 = 0 10 10 – 9 = 1 8 8 – 9 = ‑1 6 6 – 9 = ‑3 11 11 – 9 = 2 7 7 – 9 = ‑2 13 13 – 9 = 4 • Segunda etapa: elevar ao quadrado cada diferença (resultado) obtida na primeira etapa. 47 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Tabela 2 – Valores referentes ao cálculo do valor de mediana Acertos individuais Subtrair a média de cada valor Resultado 8 8 – 9 = ‑1 (‑1)2 = 1 9 9 – 9 = 0 (0)2 = 0 10 10 – 9 = 1 (1)2 = 1 8 8 – 9 = ‑1 (‑1)2 = 1 6 6 – 9 = ‑3 (‑3)2 = 9 11 11 – 9 = 2 (2)2 = 4 7 7 – 9 = ‑2 (‑2)2 = 4 13 13 – 9 = 4 (4)2 = 16 Note que agora todos os valores se tornaram positivos. • Terceira etapa: somar todos os valores ao quadrado obtidos na segunda etapa. Tabela 3 – Valores referentes ao cálculo do valor de mediana Acertos individuais Subtrair a média de cada valor Resultado 8 8 – 9 = ‑1 (‑1)2 = 1 9 9 – 9 = 0 (0)2 = 0 10 10 – 9 = 1 (1)2 = 1 8 8 – 9 = ‑1 (‑1)2 = 1 6 6 – 9 = ‑3 (‑3)2 = 9 11 11 – 9 = 2 (2)2 = 4 7 7 – 9 = ‑2 (‑2)2 = 4 13 13 – 9 = 4 (4)2 = 16 Soma dos quadrados → 36 • Quarta etapa: dividir esse valor corresponde à soma dos quadrados pelo número de parcelas (no nosso exemplo, o número de atiradores). Soma dos quadrados = 36 Número de atiradores = 8 Variância = 36/8 = 4,5 acertos2 Para fixar esse cálculo, vamos repetir esse procedimento para os atiradores do grupo (B). 48 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Cálculo da variância a partir do desempenho dos atiradores do grupo (B) • Primeira etapa: subtrair de cada valor a média aritmética do conjunto ao qual pertence. Média do grupo (B) = 9 acertos. Tabela 4 – Valores referentes ao cálculo do valor de mediana Acertos individuais Subtrair a média de cada valor 7 7 – 9 = ‑2 3 3 – 9 = ‑6 10 10 – 9 = 1 6 6 – 9 = ‑3 5 5 – 9 = ‑4 13 13 – 9 = 4 18 18 – 9 = 9 10 10 – 9 = 1 • Segunda etapa: elevar ao quadrado cada diferença (resultado) obtida na primeira etapa. Tabela 5 – Valores referentes ao cálculo do valor de mediana Acertos individuais Subtrair a média de cada valor Resultado 7 7 – 9 = ‑2 (‑2)2 = 4 3 3 – 9 = ‑6 (‑6)2 = 36 10 10 – 9 = 1 (1)2 = 1 6 6 – 9 = ‑3 (‑3)2 = 9 5 5 – 9 = ‑4 (‑4)2 = 16 13 13 – 9 = 4 (4)2 = 16 18 18 – 9 = 9 (9)2 = 81 10 10 – 9 = 1 (1)2 = 1 • Terceira etapa: somar todos os valores ao quadrado obtidos na segunda etapa. Tabela 6 – Valores referentes ao cálculo do valor de mediana Acertos individuais Subtrair a média de cada valor Resultado 7 7 – 9 = ‑2 (‑2)2 = 4 3 3 – 9 = ‑6 (‑6)2 = 36 10 10 – 9 = 1 (1)2 = 1 6 6 – 9 = ‑3 (‑3)2 = 9 5 5 – 9 = ‑4 (‑4)2 = 16 49 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA 13 13 – 9 = 4 (4)2 = 16 18 18 – 9 = 9 (9)2 = 81 10 10 – 9 = 1 (1)2 = 1 Soma dos quadrados → 164 • Quarta etapa: dividir esse valor corresponde à soma dos quadrados pelo número de parcelas (no nosso exemplo, o número de atiradores). Soma dos quadrados = 164 Número de atiradores = 8 Variância = 164/8 = 20,5 acertos2 Lembrete Para calcularmos a variância, devemos: (1) subtrair de cada valor a média; (2) elevar cada diferença ao quadrado; (3) somar os quadrados; (4) dividir essa soma pelo número de dados. Após termos calculado a variância para os dois grupos de atiradores, podemos responder as nossas duas questões iniciais: (1) A variabilidade dos dois grupos de atiradores é a mesma? Não, pois verificamos que os valores de variância mostraram‑se diferentes para os dois grupos: 4,5 acertos2 para o grupo (A) e 20,5 acertos2 para o grupo (B). (2) Sendo esses valores diferentes, qual grupo de atiradores possui maior variação de desempenho? Para responder essa questão, precisamos lembrar que quanto maior a variância, maior a heterogeneidade dos dados, ou seja, maior a variabilidade dos dados daquele conjunto. Dessa forma, o grupo (B) de atiradores apresentou maior variação no desempenho, pois o valor de variância desse grupo de atiradores (variância = 20,5 acertos2) foi superior ao do grupo (A) de atiradores (variância = 4,5 acertos2). Observação Note que quanto maior for o resultado da variância, mais heterogênea será a distribuição dos dados dentrode um determinado conjunto; sendo assim, maior será a variabilidade desses dados. 50 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 3.2 Desvio‑padrão Uma das grandes limitações da aplicação da variância para determinar a variabilidade de um conjunto de dados é que os valores de variância obtidos não estão na mesma unidade dos dados originais. Note que, no exemplo anterior, os dados referentes ao desempenho de cada grupo são expressos na unidade acertos. Já, quando calculamos a variância para os dois grupos de atiradores, chegamos à unidade acertos2. Isso aconteceu porque em uma das etapas necessária para calcularmos a variância, todas as diferenças encontradas foram elevadas ao quadrado. Dessa forma, o que temos a partir disto são valores ao quadrado obtidos a partir dos dados originais. Então, independente do tipo de variável para qual calculamos a variância, sempre chegaremos a um resultado em que a variável será expressa como o quadrado da unidade de mensuração original. Para ficar mais claro, imagine que seu conjunto original de dados tenha valores referentes à altura de diferentes indivíduos e que esses valores estão expressos na unidade m. O resultado da variância desse conjunto de dados certamente será expresso na unidade m2. Da mesma forma, se no conjunto de dados você tem a velocidade de corrida atingida por seus atletas em uma prova, sendo expressos na unidade km/h, a variância desse conjunto de dados será expressa em (km/h)2. Figura 23 – Velocidade de corrida atingida por atletas em uma prova, sendo expressos na unidade km/h A solução para essa problemática seria extrairmos a raiz quadrada dos valores correspondentes à variância, pois, assim, chegaríamos novamente à unidade original da medida. Essa nova medida de variabilidade é conhecida como desvio‑padrão. Em trabalhos científicos da Educação Física, é muito comum vermos o desvio‑padrão sendo representado pelas letras DP. Dessa forma, uma vez que os valores de variância tenham sido obtidos, o cálculo do desvio‑padrão será muito facilmente empregado: basta calcularmos a raiz quadrada dos valores de variância calculados. 51 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Vamos voltar ao nosso exemplo original em que calculamos os valores de variância para o grupo de atiradores (A) e (B). Veja a seguir a determinação dos valores correspondentes ao desvio‑padrão para cada grupo de atiradores: Grupo de atiradores (A): Variância = 4,5 acertos2 Desvio‑padrão = 4 5 2, acertos Assim, chegamos a: desvio‑padrão = 2,1 acertos. Grupo de atiradores (B): Variância = 20,5 acertos2 Desvio‑padrão = 20 5 2, acertos Assim, chegamos a: desvio‑padrão = 4,5 acertos. Note que, ao calcularmos os valores de desvio‑padrão para os dois grupos de atiradores, os resultados obtidos estão expressos novamente na mesma unidade dos dados originais, ou seja, estão expressos em número de acertos, e não mais em acertos2. Os valores de desvio‑padrão podem ser interpretados como uma medida capaz de medir a variação em torno de um valor de referência que, nesse caso, corresponde ao valor da média. Por isso, o desvio‑padrão pode ser entendido com uma oscilação dos valores originais em torno da média. Com isso, podemos chegar às seguintes conclusões: • o grupo de atiradores (A) apresentou uma variação de 2,1 acertos; • o grupo de atiradores (B) apresentou uma variação de 4,5 acertos. Assim, o grupo de atiradores (B) apresenta maior variação no desempenho, pois os desempenhos individuais oscilaram mais em torno da média obtida para o grupo. Lembrete O desvio padrão é calculado a partir da raiz quadrada dos valores correspondentes à variância. 52 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 3.3 Coeficiente de variação Dessa forma, observamos que quando uma mesma variável é comparada para dois grupos distintos (por exemplo, desempenho para dois grupos de atiradores), o cálculo do desvio‑padrão permite avaliar em que grupo a variação é menor. Contudo, isso já não pode ser realizado quando comparamos variáveis diferentes. Para ficar mais claro, vamos a um exemplo específico. Imagine que você pretenda avaliar a variabilidade da distribuição dos dados de medidas correspondentes à massa corporal e à estatura de cinco alunos, que foram divididos em dois grupos (A e B), conforme mostra a seguir a tabela 7: Tabela 7‑ Valores de massa corporal e estatura para dois grupos de alunos Grupo de alunos (A) Grupo de alunos (B) Massa corporal Estatura Massa corporal Estatura 59 kg 1,54 m 78 kg 1,81 m 67 kg 1,65 m 81 kg 1,60 m 72 kg 1,70 m 79 kg 1,81 m 61 kg 1,69 m 77 kg 1,94 m 76 kg 1,77 m 80 kg 1,74 m Para determinarmos o desvio padrão, devemos primeiro calcular a variância para cada conjunto de dados, ou seja: variância para a variável massa corporal para o grupo de alunos (A); variância para a variável estatura para o grupo de alunos (A); variância para a variável massa corporal para o grupo de alunos (B); variância para a variável estatura para o grupo de alunos (B). Para tanto, torna‑se necessário, primeiro, calcularmos a média para cada conjunto de dados, conforme apresentado a seguir: • média da massa corporal para o grupo de alunos (A) = 335/5 = 67 kg; • média da estatura para o grupo de alunos (A) = 8,35/5 = 1,67 m; • média da massa corporal para o grupo de alunos (B) = 395/5 = 79 kg; • média da estatura para o grupo de alunos (B) = 8,90/5 = 1,78 m. A partir disso, os cálculos para determinarmos a variância para massa corporal e estatura para os grupos (A) e (B) são apresentados a seguir nas tabelas 8 e 9, respectivamente. 53 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Tabela 8‑ Cálculo da variância para massa corporal e estatura para os indivíduos do grupo (A) Massa corporal grupo (A) Estatura grupo (A) 59 – 67 = (‑8)2 = 64 1,54 – 1,67 = (‑0,13)2 = 0,0169 67 – 67 = (0)2 = 0 1,65 – 1,67 = (‑0,02)2 = 0,0004 72 – 67 = (5)2 = 25 1,70 – 1,67 = (0,03)2 = 0,0009 61 – 67 = (‑6)2 = 36 1,69 – 1,67 = (0,02)2 = 0,0004 76 – 67 = (9)2 = 81 1,77 – 1,67 = (0,10)2 = 0,01 Soma dos quadrados = 206 Soma dos quadrados = 0,0286 Variância = 206/5 = 41,2 kg2 Variância = 0,0286/5 = 0,0057 m2 Tabela 9‑ Cálculo da variância para massa corporal e estatura para os indivíduos do grupo (B) Massa corporal grupo (B) Estatura grupo (B) 78 – 79 = (‑1)2 = 1 1,81 – 1,78 = (0,03)2 = 0,0009 81 – 79 = (2)2 = 4 1,60 – 1,78 = (‑0,18)2 = 0,0324 79 – 79 = (0)2 = 0 1,81 – 1,78 = (0,03)2 = 0,0009 77 – 79 = (‑2)2 = 4 1,94 – 1,78 = (0,16)2 = 0,0256 80 – 79 = (1)2 = 1 1,74 – 1,78 = (‑0,04)2 = 0,0016 Soma dos quadrados = 10 Soma dos quadrados = 0,0614 Variância = 10/5 = 2 kg2 Variância = 0,0614/5 = 0,01228 m2 Como anteriormente mencionado, extraindo a raiz quadrada dos valores de variância para cada conjunto de dados, chegamos aos seguintes valores de desvio‑padrão: • desvio‑padrão para massa corporal do grupo (A) = 412, = 6,42 kg; • desvio‑padrão para estatura do grupo (A) = 0,0057 = 0,0755 m; • desvio‑padrão para massa corporal do grupo (B) = 2 = 1,41 kg; • desvio‑padrão para estaturado grupo (B) = 0,01228 = 0,1108 m. A partir do cálculo desses valores, podemos inferir algo importante na nossa discussão sobre variabilidade. Se considerarmos apenas os valores absolutos de cada tipo de variável, seremos levados a crer que a variação na massa corporal é sempre superior à variação nos dados de estatura. Entretanto, essa é uma visão equivocada. O desvio‑padrão só nos permite a comparação da variabilidade do mesmo tipo de variáveis, ou seja, nesse exemplo, possibilita comparar a massa corporal do grupo (A) com a massa corporal do 54 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 grupo (B); ou comparar a estatura do grupo (A) com a estatura do grupo (B). Com essa comparação específica, poderíamos afirmar que: a variabilidade da massa corporal foi maior para grupo A quando comparado ao grupo B; contudo, a variabilidade da estatura foi maior para grupo B quando comparado ao grupo A. No entanto, não conseguiremos comparar a variabilidade da massa corporal com a variabilidade da estatura para o grupo utilizando os valores de desvio‑padrão, pois são variáveis expressas em unidades distintas. Para cumprirmos esse objetivo, precisamos calcular o Coeficiente de Variação (CV), que é uma medida de dispersão independente da unidade de medida da variável. O CV permite avaliar a variabilidade sendo essa representada como uma fração em relação à média. É utilizada a seguinte fórmula para o seu cálculo: CV DP m dia = é *100 Dessa forma, para calcularmos o CV, devemos dividir o desvio‑padrão pela média e multiplicarmos o resultado dessa razão por 100. Essa multiplicação final é realizada para que o resultado do CV seja expresso em valor percentual (%). Vamos agora calcular o CV considerando nosso exemplo anterior para as variáveis de massa corporal e de estatura para os dois grupos de indivíduos (A e B). • CV da variável massa corporal para o grupo (A): DP = 6,42 kg Média = 67 kg CV DP m dia = é *100 CV = 6 42 67 100 , * CV = 9,58% • CV da variável estatura para o grupo (A): DP = 0,0755 m Média = 1,67 m 55 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA CV DP m dia = é *100 CV = 0 0755 167 100 , , * CV = 4,52% • CV da variável massa corporal para o grupo (B): DP = 1,41 kg Média = 79 kg CV = DP m diaé *100 CV = 141 79 100 , * CV = 1,78% • CV da variável estatura para o grupo (B): DP = 0,1108 m Média = 1,78 m CV DP m dia = é *100 CV = 0 1108 178 100 , , * CV = 6,22% Dessa forma, chegamos aos seguintes resultados de CV apresentados na tabela 10: Tabela 10 – CV para diferentes tipos de variáveis de dois grupos de indivíduos CV da variável massa corporal CV da variável estatura Grupo A 9,58% 4,52% Grupo B 1,78% 6,22% 56 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Note que o CV é expresso em percentual e, por isso, permite a comparação de variáveis que originalmente eram expressas em unidades diferentes (por exemplo, em kg e m). Os resultados da tabela 10 permitem observar que a variabilidade na variável massa corporal foi maior do que para a variável estatura para o grupo A. Todavia, para o grupo B, pode‑se observar que a variabilidade foi maior para os dados de estatura do que para os dados de massa corporal. Se utilizássemos apenas os valores de DP do grupo B, não chegaríamos corretamente a essa conclusão, já que os valores absolutos do DP da variável massa corporal são sempre maiores do que o DP da variável estatura. Portanto, o cálculo do CV torna‑se importante para possibilitar a comparação da variabilidade de dois conjuntos de dados que tenham unidades diferentes. Lembrete O CV é obtido dividindo o desvio‑padrão pela média e multiplicando esse resultado por 100. Como o CV é expresso em percentual, torna‑se possível comparar variáveis com unidades diferentes. 4 GRÁFICOS E TABELAS Fazer representações gráficas de uma série de dados ou apresentá‑las em uma tabela são ferramentas indispensáveis à análise estatística de um estudo. Essas representações permitem uma visualização plena da análise e das variáveis que queremos comparar. Para tanto, torna‑se necessário conseguir interpretar gráficos de forma adequada, pois dessa maneira uma série de discussões pode ser atribuída ao fenômeno que desejamos investigar. Contudo, para que essa estratégia funcione de forma eficiente, é necessário interpretar os resultados adequadamente. É nesse sentido que os tópicos a seguir buscarão aumentar a compreensão sobre como os dados de um estudo, de uma análise, devem ser apresentados e interpretados. 4.1 Elaboração de tabelas Uma tabela representa um conjunto de dados dispostos em número finito de colunas e número ilimitado de linhas, ou seja, ela pode ter várias linhas, mas geralmente apresenta algumas colunas. As tabelas permitem a apresentação de dados individuais discriminados, oferecendo uma visão global dos resultados. É importante notar que não existe apenas uma forma de se apresentar uma tabela, portanto a melhor é aquela mais clara para o leitor a interpretar. O objetivo principal de uma tabela é permitir que os resultados possam ser facilmente analisados e interpretados. Para tanto, é importante sempre buscar a apresentação mais limpa e simples dos resultados que queremos discutir. 57 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Por exemplo, muitas vezes em pesquisa, coletamos vários dados para ver como o fenômeno se apresenta, mas apenas alguns conjuntos de dados serão discutidos. Portanto, não há motivo para apresentar todos os dados se apenas uma ou duas variáveis serão analisadas. Coluna 1 Coluna 2 (↓) (↓) Linha 1 (→) Linha 2 (→) Linha 3 (→) Figura 24 – Ilustração de uma tabela com suas linhas e colunas Na tabela, teremos colunas e linhas conforme observado na figura 24. A escolha da forma como os dados serão apresentados é de opção do pesquisador, e não há regra, mas alguns aspectos precisam ser seguidos na elaboração das tabelas para que ela possa ser adequadamente interpretada: • Todos os dados devem ser visíveis: o tamanho da fonte deve ser escolhido a ponto que seja visível. Embora pareça óbvio, muitas tabelas apresentam dados em excesso e com isso o tamanho da fonte se torna ilegível. Nesses casos, melhor considerar dividir os dados em duas ou mais tabelas. • Todas as variáveis devem ter sua descrição clara, para que se possa interpretar o que os dados representam. • Todas as variáveis devem ter suas unidades apresentadas; por exemplo, distância em metros (m), frequência cardíaca em batimentos por minuto (bpm) ou força em Newtons (N). • Toda tabela deve ter um título que deve ser apresentado antes dela e suficientemente descritivo a ponto de permitir que a análise dos dados independa do texto escrito. • Toda tabela deve ser inserida no texto escrito e discutida com base nos objetivos propostos pelo estudo ou análise. Observação A principal finalidade de uma tabela é permitir que os resultados possam ser facilmente analisados e interpretados. Para tanto, é importante que as informações sejam claras e precisas. Os dados apresentados numatabela podem ser valores discretos de uma variável, ou seja, apenas pontos de uma observação qualquer, ou valores sequenciais apresentados em função do tempo, como, por exemplo, as variações da frequência cardíaca ao longo do tempo da realização de uma corrida com velocidades progressivamente mais altas até a exaustão. 58 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 A tabela 11 ilustra uma situação hipotética de dados sequenciais, ou seja, que seguem uma ordem em função do tempo. A coluna do eixo de x indica os valores sequenciais de 1 a 10, que indicam momentos no tempo nos quais dados foram coletados; por exemplo, registros feitos a cada 1 minuto. Os valores apresentados nas colunas azul e vermelho são fictícios, mas poderiam ser registros de frequência cardíaca, de lactato sanguíneo ou outra variável qualquer. Tabela 11 ‑ Duas séries de dados (azul e vermelho) Eixo X Azul (Y) Vermelho(Y) 1 1 2 2 2 52 3 4 102 4 8 152 5 16 202 6 32 252 7 64 302 8 128 352 9 256 402 10 512 452 Na figura 25, observa‑se a representação gráfica dos dados da tabela 11. A curva em vermelho corresponde aos dados da tabela da coluna vermelho, já a curva em azul representa os dados da tabela da coluna azul. Os pontos em cada curva correspondem aos exatos valores observados na tabela. Por exemplo, na curva em vermelho, o valor 5 do eixo de X apresenta o valor correspondente a 202 no eixo de Y. Isso significa que cada ponto apresenta um valor no sistema de coordenadas que permite localizá‑lo em relação à origem nos dois eixos, ou seja, no caso (5, 202) para X e Y, respectivamente. 500 100 300 400 0 1 53 7 92 64 8 10 200 Figura 25 – Representação gráfica dos dados apresentados na tabela 11. A curva em azul reflete os dados da tabela na coluna azul, e a curva em vermelho, os dados da tabela correspondentes à coluna vermelha Embora os dados apresentem certa ordem temporal, dados coletados de qualquer natureza são discretos, pois toda vez que realizamos um registro, este ocorre em apenas um instante no tempo, por isso não é contínuo. Apenas os dados analógicos, ou seja, reais na natureza, são contínuos. 59 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Para entender esse conceito, imagine o avançar dos segundos num relógio digital; entre um segundo e outro, há uma possibilidade infinita de divisões do tempo. Quando observamos a mudança dos segundos, isso representa apenas um instante no tempo. Outro exemplo poderia ser o que ocorre quando realizamos uma sequência de fotos de alguém correndo. Entre cada foto que registra um instante no tempo há infinitos registros possíveis que não foram feitos. Na figura 25 essa ideia pode ser visualizada. Cada ponto representa um registro, mas entre os pontos observamos uma reta conectando‑os. Essa reta contém ilimitados pontos que não foram registrados no tempo. Por isso, toda coleta visa a reconstruir o fenômeno real, porém ele será sempre apenas uma reconstrução próxima do comportamento real, nunca o comportamento real em si. Lembrete As tabelas mostram um conjunto de dados dispostos em número finito de colunas e número ilimitado de linhas. 4.2 Representações gráficas Os dados de uma tabela podem e devem sempre que possível ser representados por meio de gráficos, pois dessa forma será possível ver o comportamento da variável na análise em questão. 70 80 90 100 10 50 40 60 0 1 53 7 92 64 8 10 14 1812 16 2011 15 1913 17 30 20 Figura 26 – Dados discretos de vinte sujeitos para uma variável fictícia Vejamos o exemplo da figura 26 no qual temos valores de Y para vinte sujeitos. Quando temos dados discretos que não apresentam relação temporal, estes podem ser analisados por meio de vários gráficos. Uma forma de representação é o gráfico de barras e colunas. Cada barra representa o valor da variável para um sujeito nesse exemplo. Cada número no eixo de X representaria um sujeito, e o tamanho da barra representaria o valor registrado. 60 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Figura 27 – Prática da corrida na condição de os pés descalços Sempre que um gráfico nos for apresentado, o primeiro passo é identificar o que este nos informa. Essa informação deve ser extraída da legenda que deve se encontrar imediatamente após o gráfico. Veja o exemplo da figura 28, em que se observam valores de primeiro pico de força vertical da Força de Reação do Solo (força de impacto) na corrida para dez sujeitos, em duas condições distintas, com os pés descalços e com calçados próprios para a atividade. 2,5 3,0 3,5 4,0 0,5 1,5 Fy 1 (P C) Sujeitos Calçado Descalço 2,0 0,0 1 53 7 92 64 8 10 1,0 Figura 28 – Valores de primeiro pico de força vertical da Força de Reação do Solo (Fy1) para dez sujeitos em duas condições de corrida, com os pés descalços e com calçados de corrida 61 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA No gráfico, observamos força medida em peso corporal, para dez sujeitos; cada cor de coluna representa uma condição. Nesse gráfico, os dados são discretos de medida de força, no caso força de impacto. Repare que, nos sujeitos 1, 3, 5, 6 e 8, os valores de força de impacto na corrida com os pés descalços e com o calçado foram muito semelhantes. Já nos sujeitos 2, 7, 9 e 10, a força de impacto na corrida com os pés descalços foi maior que com os calçados. Por outro lado, no sujeito 4, o impacto foi maior na corrida com os pés descalços do que com o calçado de corrida. Não temos como objetivo, no momento, investigar se correr descalço ou com calçado seria melhor para a atenuação do impacto, mas, sim, ver como um gráfico deve ser interpretado, em função das informações que ele apresenta. Vejamos outro exemplo de Fisiologia Aplicada à Atividade Motora. A figura 30 agrupa valores de consumo máximo de oxigênio (VO2 máx.) para atletas de diferentes modalidades esportivas, sedentários e cardiopatas. Observe que abaixo da legenda VO2 máx., há a unidade de medida dessa variável, ml/kg/min. Essa unidade é muito importante para que possamos fazer comparações entre estudos, pois se não houvesse a indicação dela, eventualmente dois estudos poderiam ter unidades diferentes e isso teria implicação na comparação dos resultados. Figura 29 – Nadadores de longa distância em sua prática que faz com que o VO2 máx. seja maior que indivíduos sedentários Note que na figura 30 há várias colunas e cada uma corresponde a uma população específica. Por exemplo, na extremidade direita do gráfico, observamos o VO2 máx. de pacientes imediatamente após infarto de miocárdio e na extremidade esquerda, notamos atletas esquiadores de cross country, ou seja, os valores mais baixos e mais altos de VO2 máx., respectivamente. Para iniciar uma análise, é sempre importante ter algum valor referencial. Nesse caso, poderíamos pensar nos valores de consumo máximo de oxigênio de sedentários saudáveis. Procure a coluna correspondente a essa população e faça a leitura do valor de VO2 máx. Isso se faz acompanhando o valor máximo dessa coluna, sedentários saudáveis, até o eixo de Y e fazendo a leiturado valor; no caso, aproximadamente, 35 ml/kg/min. 62 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 50 60 70 80 90 100 10 30 40 0 20 Es qu ia do re s d e cr os s c ou nt ry Re m ad or es Se de nt ár io s sa ud áv ei s Pa tin ad or es n o ge lo d e en du ra nc e VO2máx (ml/kg/min) N ad ad or es d e lo ng a di st ân ci a Pa ci en te s q ue so fr er am in fa rt o do m io cá rr di o Co rr ed or es At le ta s d e gi ná st ic a ae ró bi ca De fic ie nt es se de nt ár io s Ci cl ist as d e ru a Le va nt ad or es de p es o Pa ci en te s i m ed ia ta m en te ap ós in fa rt o do m io cá rd io Figura 30 – Valores médios de consumo máximo de oxigênio (VO2 máx.) para atletas de diferentes modalidades esportivas, sedentários e cardiopatas Tendo esse valor de sedentários saudáveis como referência, podemos observar que, à direita dessa coluna, temos populações com condições patológicas, o que significa que qualquer acometimento faz com que o consumo máximo de oxigênio diminua em relação ao sedentário. Por outro lado, à esquerda da coluna dos sedentários saudáveis, notamos apenas populações de indivíduos ativos ou atletas, ou seja, qualquer exercício físico que seja praticado regularmente já serve para tornar o VO2 máx. mais alto que em sedentários, independente de a modalidade envolver metabolismo aeróbio ou anaeróbio predominantemente. Contudo, observamos diferenças entre as modalidades praticadas, indicando que a característica da modalidade interfere nos ganhos em VO2 máx. Façamos a leitura do valor de VO2 máx. da modalidade mais próxima dos sedentários saudáveis, levantadores de peso, e da modalidade mais distante dos sedentários, esquiadores de cross country. A coluna dos levantadores de peso indica um valor de VO2 máx. de 45 ml/kg/min, aproximadamente. Já a coluna dos esquiadores de cross country, indica um valor de VO2 máx. de 85 ml/kg/ min. A diferença entre esses dois extremos é bastante grande, mesmo analisando apenas qualitativamente. Vejamos se conseguimos atribuir essas diferenças a alguma característica das modalidades. Acompanhe as modalidades, perceba que, com exceção dos levantadores de peso, todas as outras apresentam como característica alta exigência de produção de energia pela via aeróbia. Com isso, poderíamos inferir que as modalidades que apresentam maior consumo máximo de oxigênio são, 63 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA justamente, as modalidades que predominantemente usam o oxigênio para produção de energia, ou seja, as atividades aeróbias. Repare quantas informações conseguimos extrair de um gráfico quando a análise é mais aprofundada. Note também que essa discussão foi feita exclusivamente com os dados apontados no gráfico e com as informações contidas na legenda. Se tivéssemos o texto do livro adicionalmente, a compreensão e o aprofundamento na análise poderiam ter sido maiores. Esse é o motivo pelo qual é tão importante treinar a capacidade de interpretar gráficos e tabelas. Sigamos com a nossa análise usando outros exemplos de tipos de gráficos. Vejamos agora um gráfico de barras. Não existe muita regra para quando usar um estilo de gráfico de colunas ou de barras. Isso realmente depende do objetivo que se tem ao apresentar os dados. Observe a figura 31 a contribuição relativa das vias metabólicas de creatina fosfato (CrP), glicolítica (glicólise anaeróbia) e mitocondrial (via oxidativa) para a ressíntese de ATP em diferentes intervalos de tempo em exercícios intensos. 120 10 90 CrP Glocólico Mitocondrial 0 4020 6010 5030 70 Porcentagem da ressíntese de ATP Te m po (s ) 30 Figura 31 – Contribuição relativa das vias metabólicas de creatina fosfato (CrP), glicolítica (glicólise anaeróbia) e mitocondrial (via oxidativa) para a ressíntese de ATP em diferentes intervalos de tempo em exercícios intensos Observe que estamos nos referindo à contribuição dessas vias para a quantidade total de energia que foi produzida em 10, 30, 90 e 120 segundos de atividade. Nesse gráfico, não há como saber quanto de energia foi produzida, apenas quanto cada via contribuiu para essa energia total para a ressíntese de ATP. 64 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Figura 32 – Local onde é realizado o treinamento para corridas em alta intensidade Repare que em cada duração de atividade, 10, 30, 90 ou 120 segundos, as três vias estão atuando, mas com contribuições diferentes. Na atividade de 10 segundos, a barra de creatina fosfato é muito maior que na atividade de 120 segundos. Isso não significa, necessariamente, que mais energia foi produzida pela creatina fosfato aos 10 segundos do que aos 120 segundos, pois o gráfico mostra contribuição percentual das vias. Portanto, da energia total usada para a atividade de 10 segundos, um pouco mais de 50% foi obtida pela via da creatina fosfato. Já aos 120 segundos, o gasto energético total foi muito maior que aos 10 segundos, e dessa energia, menos de 10% foi obtido pela via da creatina fosfato. Inversamente, se observarmos a via da respiração mitocondrial, ou seja, a via oxidativa ou aeróbia, notaremos que o comportamento é inverso ao comportamento da via creatina fosfato. A contribuição dessa via na atividade de 10 segundos foi, aproximadamente, de 3%, enquanto que na atividade de 120 segundos, a via da respiração mitocondrial foi responsável por cerca de 60% da energia total necessária. Não cabe agora discutirmos as razões desse comportamento, embora isso seja importante, mas, sim, nos interessa agora compreender o que a representação gráfica nos informa sobre as variáveis de análise. Por último, ainda analisando a figura 31, notamos que, para cada duração de atividade, as três vias deveriam somar 100%. Se o objetivo principal fosse visualizar a distribuição na energia total, essa distribuição dos dados pode não ser a mais adequada, pois não nos dá a visualização do todo. Nesse sentido, mais eficiente seria usar um gráfico de pizzas, também conhecidos como tortas, ou de colunas empilhadas em 100%. Esses gráficos ilustram de forma mais clara a contribuição de cada valor para o todo. Vejamos, portanto, como seriam esses mesmos dados agrupados em um gráfico de pizzas. 65 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA A figura 33 ilustra os mesmos dados apresentados pela figura 31, contudo com outra disposição. 3% 42% 55% 8% 32% 42% 12% 46% 25% 47% 60% 28% 90s 120s CrP Glicolítica Mitocondrial 30sTempo 10s Figura 33 – Contribuição relativa das vias metabólicas de creatina fosfato (CrP), glicolítica (glicólise anaeróbia) e mitocondrial (via oxidativa) para a ressíntese de ATP em diferentes intervalos de tempo em exercícios intensos No gráfico de barras, podemos notar que uma barra é maior que a outra, mas no gráfico de pizzas, temos a dimensão da contribuição que cada via tem para o todo. Isso não significa que o gráfico de barras apresentado anteriormente está errado, mas apenas que ele quer chamara atenção para a maior contribuição que podemos observar para cada duração de atividade física realizada. A outra forma que temos para analisar a contribuição parcial das variáveis para o todo é o gráfico de colunas empilhadas em 100%. A figura 34 apresenta os resultados de três modelos distintos para a determinação de composição corporal. 66 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 20 40 60 80 100 0 0 1 2 3 Modelo Mineral Co m po si çã o (% ) Massa corporal livre de gordura MCG MCG MCG MCLG MCM Água corporal Água corporal Tecido magro Figura 34 – Apresentação dos resultados de três modelos para a determinação de composição corporal. MCG indica massa corporal gorda, MCM indica massa corporal magra e MCLG indica massa corporal livre de gordura Nesse gráfico, MCG indica massa corporal gorda, MCM indica massa corporal magra e MCLG indica massa corporal livre de gordura. Repare que cada coluna apresenta‑se com o valor máximo de 100%, mas essa coluna é subdividida em função da contribuição que cada variável tem ao valor total. Por exemplo, veja a coluna correspondente ao modelo 1. Podemos observar que a massa corporal total está dividida em dois componentes, a massa corporal gorda e a massa corporal magra, sendo que a massa corporal magra apresenta maior contribuição à massa corporal total. Figura 35 – Figura representativa das medidas de massa corporal Note que, nos três modelos, o percentual de contribuição da massa corporal gorda não muda, apenas a massa corporal magra passa a ser subdividida do modelo 1 para os modelos 2 e 3. No modelo 2, podemos 67 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA observar que a massa corporal magra é em grande parte composta por água corporal e, no modelo 3, podemos ainda notar que o tecido magro, apresentado no modelo 2, aparece ainda mais subdividido em massa corporal livre de gordura e minerais. Em cada um dos modelos, as subdivisões se aprofundam nos oferecendo a ideia da contribuição que cada parte tem ao todo. Perceba que essa apresentação não é a mais eficiente para apresentar valores numéricos, embora estes possam ter sido incluídos, pois podemos perceber que a contribuição de minerais para a composição corporal é pequena, mas não há como saber o valor percentual preciso. Certamente, é inferior a 10%, mas pode ser 3 a 6%, não há como saber. Contudo, isso pouco importa se o objetivo do autor do estudo for apenas permitir a visualização geral do comportamento. Nos casos discutidos anteriormente, pudemos observar exemplos de valores de variáveis discretas e atemporais, ou seja, nos quais não nos interessava saber o comportamento da variável ao longo do tempo. Contudo, em alguns casos, nos interessa saber de que forma uma variável muda seu comportamento ao logo do tempo. Nesses casos, nos referimos a séries temporais e é mais interessante usarmos gráficos de pontos ou de linhas. Os valores da variável seguem uma sequência temporal, que pode ser de segundos, minutos, horas ou anos. Também podemos usar esses gráficos quando os valores encontram‑se ordenados em relação a algum critério como intensidade, por exemplo. Figura 36 – Fadiga que pode ser proveniente da realização de testes de exaustão Veja a figura 37, na qual quantidades de hormônios (adrenalina e noradrenalina) presentes na circulação sanguínea em função de intensidades progressivamente maiores de exercício. Nesse gráfico, as intensidades relativas apresentam‑se em relação %VO2 máx. e o exercício consiste num teste de esforço em cicloergômetro até a exaustão. 68 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 0,5 1 1,5 2 2,5 0 1 20 40 60 80 100 Norandrenalina Adrenalina % VO2máx. Ca te co la m in as (n g/ m L) Figura 37 – Aumento na concentração de catecolaminas circulantes (adrenalina e noradrenalina) em função de intensidade relativa medida em %VO2 máx., obtido durante teste de esforço em cicloergômetro Note que nesse gráfico existe uma sequência, uma ordem nos acontecimentos, mas os valores apresentados são discretos, pois ocorreram em um instante no tempo, não foram coletados continuamente. Interessa‑nos a relação que a variável apresenta com o tempo ou com a ordem dos fatos; por isso, esse gráfico se torna mais eficiente para a visualização. Olhando cuidadosamente para as informações do gráfico, que tendências de comportamento podemos extrair? Existe uma tendência bem clara de maior liberação de catecolaminas (adrenalina e noradrenalina) com intensidades progressivamente mais altas. Outra constatação possível é que a relação da liberação dos hormônios não é linear, ou seja, não é uma reta. O aumento na quantidade de hormônios circulantes não é a mesma quando aumentamos a intensidade de 20% para 40% do VO2 máx. e quando aumentamos a intensidade de 80% para 100% do VO2 máx. Essa relação é exponencial, não linear. Essa análise poderia ser feita em tabelas também, mas o gráfico ilustra essa característica no comportamento do fenômeno, de forma muito mais eficiente. 69 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA 100 0 02 24 27 7 105 110 115 120 VO2máx. % dos valores iniciais Período de treinamento 1 Semanas Semanas Período de treinamento 2 Inatividade, 7 semanas Figura 38 – Valores médios e individuais de VO2 máx. de mulheres sedentárias saudáveis submetidas a 7 semanas de treinamento aeróbio em cicloergômetro, seguido de 7 semanas de inatividade e novas 7 semanas de treinamento Observe outra situação de variável com valores sequenciais, mas, nesse caso, vejamos uma sequência de valores temporais. Na figura 38, podemos observar valores médios e individuais de VO2 máx. de mulheres sedentárias saudáveis submetidas a sete semanas de treinamento aeróbio em cicloergômetro, seguido de sete semanas de inatividade e novas sete semanas de treinamento. Observe que o primeiro valor corresponde a 100%, ou seja, as participantes desse estudo fizeram uma avaliação inicial e esse valor de consumo máximo de oxigênio foi denominado de 100%. É a partir desse valor inicial que a análise se iniciou. Repare como, no primeiro período de treinamento, em média (linha mais espessa), o VO2 máx. das participantes aumentou progressivamente, após 2, 4 e 7 semanas de treinamento. Podemos observar também que cada participante apresentou valores de VO2 máx. bastante diferentes ao longo desse período (linhas mais finas), mas que na média apontou para aumento geral. Nas sete semanas de inatividade, houve perdas nos valores médios e individuais de VO2 máx., e, no segundo período de treinamento, novamente houve aumento nos valores de consumo de oxigênio. Os valores de VO2 máx. ao término dos dois períodos de treinamento são muito semelhantes; podemos visualizar isso fazendo a leitura dos últimos pontos de cada período de treinamento no eixo de Y. 70 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da/ Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Na análise desse gráfico de VO2 máx. nota‑se uma sequência temporal, mas, na verdade, a ideia é de investigar momentos específicos e discretos na linha de tempo para averiguar efeitos de treinamento. Esse tipo de análise é bastante diferente de um registro de alguma variável em uma determinada janela temporal, como o que ocorre no uso de uma plataforma de força para registrar a Força de Reação do Solo. A figura 39 apresenta uma curva média, com desvio‑padrão ponto a ponto, da componente vertical da Força de Reação do Solo medida a partir da plataforma de força para 10 fases de apoio na corrida. A força está apresentada em função do peso corporal (PC) e o tempo em porcentagem do tempo total de apoio (%). 0,5 1,0 1,5 2,0 2,5 3,0 0,0 0 20 40 60 80 100 Tempo (%) CV = 5,29% Fo rç a (P C) Figura 39 – Curva média, com desvio‑padrão ponto a ponto, da componente vertical da Força de Reação do Solo medida a partir da plataforma de força para 10 fases de apoio na corrida. A força está apresentada em função do peso corporal (PC) e o tempo em porcentagem do tempo total de apoio (%). CV indica o coeficiente de variação da curva O gráfico apresenta força em função do tempo, correspondente à fase de apoio na corrida, ou seja, o contato com o solo se inicia no tempo zero e termina no tempo correspondente a 100%. Repare que vários registros são feitos na força durante a fase de apoio para poder reconstruir as forças presentes durante a corrida. A cada ponto de registro, em cada fase de apoio, as medidas de força foram ligeiramente diferentes, por isso podemos observar uma média e um desvio‑padrão a cada instante. O valor indicado de coeficiente de variabilidade (CV) indica quanto a força variou na média ao longo da curva. Esse valor não é a variação nas magnitudes de força, pois isso é natural que varie, uma vez que, logo no início do contato as forças, são muito mais baixas que na fase de médio apoio. A cada ponto, podemos 71 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA observar certa variação nos valores de força. Se a média da variação a cada ponto for calculada, teremos o valor de CV de 5,29%. Com base nos exemplos explorados, buscamos mostrar as possibilidades e aplicações que os mais diversos gráficos e tabelas podem ter. Poderíamos analisar muitos outros exemplos, mas, com base no que foi visto, acreditamos que a extrapolação das ideias para outras situações seja possível. Lembrete A representação gráfica é um recurso indispensável à estatística, porque permite visualizar mais facilmente o comportamento de variáveis e interpretar seus resultados. Reforçamos que, para toda interpretação de dados, é fundamental, inicialmente, se inteirar do assunto, das variáveis de análise e dos objetivos propostos. Em segundo lugar, proceda a uma análise sistemática do gráfico ou da tabela, faça a leitura dos eixos, para saber o que é analisado e, em terceiro, leia as informações do gráfico ou da tabela à luz dos objetivos que foram sugeridos logo no início do estudo. Exemplo de aplicação Com base no que foi discutido, reflita sobre os resultados do gráfico a seguir (figura 40). Procure extrair as informações mais relevantes e compreender seu significado. Peso corporal total Gordura corporal Massa isenta de gordura 4 11,7 10,6 12,6 12,0 13,1 9,3 Dieta Exercício Combinação 2,4 2,0 1,1 ‑4 0 ‑8 ‑12 2 ‑6 ‑2 ‑10 ‑14 M ud an ça s ( kg ) Figura 40 – Mudanças (kg) no peso corporal total, na gordura corporal e na massa isenta de gordura após certo período mantendo uma dieta restritiva, apenas exercícios ou a combinação dos dois, dieta e exercícios 72 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Saiba mais Consulte o capítulo 5 do livro Análise de Dados em Atividade Física, de Barros e Reis (2003), para obter mais informações sobre disposição de dados em gráficos e tabelas. Observação São formas comuns de representação gráfica: gráficos de barras e colunas; histogramas; gráficos circulares; gráficos de pontos; gráficos de linhas. Resumo Na unidade I, definimos os conceitos básicos de Bioestatística e suas possíveis aplicações; discutimos as diferenças entre população e amostra; classificamos os tipos de variáveis; aprendemos como determinar e aplicar medidas de posição (valor máximo, valor mínimo, média, moda e mediana) e medidas de variabilidade (variância, desvio‑padrão e coeficiente de variação). Vimos que a Estatística representa um conjunto de técnicas que possibilita a padronização e a adequação das formas de coleta, organização e análise de dados. Dessa forma, a Bioestatística é a aplicação desses métodos estatísticos buscando investigar os fenômenos biológicos. São as ferramentas estatísticas que nos permitem descrever as características de um grupo de pessoas, testar associações entre dois ou mais conjuntos de dados, ou comparar as características de grupos distintos de dados. A população é um conjunto de indivíduos ou objetos que apresentam pelo menos uma característica em comum. Já a amostra, é uma redução representativa da população a dimensões menores, porém sem perda dessa característica específica. Para uma determinada amostra, analisamos variáveis que são definidas como todas as características, atributos ou medidas que podem ser analisadas em um experimento, apresentando variações entre os indivíduos avaliados. Essas variáveis podem ser classificadas como qualitativas ou quantitativas de acordo com sua natureza. 73 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA A variável qualitativa é uma medida de natureza não numérica, ou seja, ela não é representada por um número, mas, sim, por uma qualidade. Por exemplo, forte ou rápido são classificações atribuídas a variáveis qualitativas. As variáveis qualitativas podem ser classificadas como nominal ou ordinal. Uma variável é qualitativa nominal quando não expressa nenhum critério de ordenação, ou seja, as variáveis não podem ser classificadas como melhores ou piores. Um exemplo é a variável qualitativa nominal cor dos olhos. Uma variável é qualitativa ordinal quando ela apresenta um ordenamento que permita classificar uma variável como superior e outra como inferior. Como exemplo, podemos citar a variável nível de condicionamento físico. Já a variável quantitativa, é uma medida de natureza numérica, sendo que ela necessariamente é expressa por um valor. Podemos citar como exemplo as variáveis estatura e massa corporal. As variáveis quantitativas podem ser classificadas como discretas ou como contínuas. As variáveis quantitativas discretas são aquelas expressas exclusivamente por números inteiros, sendo que números fracionados não fazem sentido lógico. Pode‑se citar como exemplo o número de esteiras de uma academia. As variáveis quantitativas contínuas podem ser expressas em números fracionados; por exemplo, a variável tempo de exercício. Formas importantes de quantificar as variáveis correspondem às medidas de posição e às medidas de variabilidade. Existem dois principais tipos de medidas de posição: os valores extremos e os valores de tendência central. Os valores extremos são conhecidos como valor máximo (maior valor do conjunto de dados) e como valor mínimo (menor valor desse conjunto).Os valores de tendência central mais conhecidos são: média, moda e mediana. Para calcular a média, devem‑se somar todos os valores de um conjunto de dados e dividir pelo número de dados. A moda é o valor que mais se repete no conjunto de dados. Um conjunto de dados pode ser classificado como amodal (sem valor de moda), unimodal (apresenta um valor de moda), bimodal (apresenta dois valores de moda) e multimodal (apresenta mais de dois valores de moda). A mediana correspondente ao valor da variável que ocupa a posição central de um conjunto de n dados ordenados. As medidas de variabilidade, também conhecidas como medidas de dispersão, permitem avaliar a diversidade da distribuição das variáveis em um conjunto de dados. A forma mais comum para determinarmos a variabilidade de um conjunto de dados corresponde ao cálculo da variância, do desvio‑padrão e do coeficiente de variação. 74 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 A variância possibilita a quantificação da variação dos valores em um conjunto de dados em torno de um valor de referência comum – a média. A variância é representada como o quadrado da unidade de mensuração original. O desvio‑padrão é calculado a partir da raiz quadrada dos valores correspondentes à variância. Já o coeficiente de variação, é obtido dividindo o desvio‑padrão pela média e multiplicando o resultado dessa razão por 100. Como o coeficiente de variação é expresso em percentual, torna‑se possível a comparação de variáveis originalmente expressas em unidades diferentes. Por fim, vimos que a representação gráfica é um recurso indispensável à Estatística, porque permite visualizar mais facilmente o comportamento de variáveis e interpretar seus resultados. São formas comuns de representação gráfica: gráficos de barras e colunas; histogramas; gráficos circulares; gráficos de pontos; gráficos de linhas. As tabelas, por sua vez, mostram um conjunto de dados dispostos em número finito de colunas e número ilimitado de linhas. Exercícios Questão 1. (TJ/SP 2014) Certa competição tem 6 etapas eliminatórias. Sabe‑se que a média aritmética do número de pessoas que participaram da primeira e da segunda etapa é igual ao quádruplo da média aritmética do número de pessoas que participaram de cada uma das quatro etapas seguintes. Desse modo, a razão entre o número de pessoas que participaram da primeira e da segunda etapa e o número total de pessoas que participaram dessa competição é de: A) 1/2. B) 1/3. C) 1/4. D) 2/3. E) 3/4. Resposta correta: alternativa D. Análise da questão Justificativa geral: vamos representar cada etapa pelas letras a, b, c, d, e, f, nesta ordem. Utilizando o conceito de média aritmética, temos, pelo enunciado, que: (a + b)/2 = 4.(c + d + e + f)/4 (a + b)/2 = (c + d + e + f) 75 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Somando (a + b) em ambos os lados, temos: (a + b)/2 + (a + b) = (c + d + e + f) + (a + b) (a + b)/2 + 2(a + b)/2 = (a + b + c + d + e + f) (a + b)3/2 = (a + b + c + d + e + f) (a + b) = (a + b + c + d + e + f)2/3 Logo, a quantidade de participantes das duas primeiras etapas representa 2/3 do total. Questão 2. (Enem 2013) As notas de um professor que participou de um processo seletivo, em que a banca avaliadora era composta por cinco membros, são apresentadas no gráfico. Sabe‑se que cada membro da banca atribuiu duas notas ao professor, uma relativa aos conhecimentos específicos da área de atuação e outra, aos conhecimentos pedagógicos, e que a média final do professor foi dada pela média aritmética de todas as notas atribuídas pela banca avaliadora. 20 18 16 14 12 10 8 6 4 2 0 Avaliador A Notas (em pontos) Avaliador B Avaliador C Avaliador D Avaliador E Conhecimentos específicos Conhecimentos pedagógicos 18 16 17 13 1 14 19 14 16 12 Utilizando um novo critério, essa banca avaliadora resolveu descartar a maior e a menor notas atribuídas ao professor. A nova média, em relação à média anterior, é: A) 0,25 ponto maior. B) 1,00 ponto maior. C) 1,00 ponto menor. D) 1,25 ponto maior. E) 2,00 pontos menor. Resolução desta questão na plataforma.