Baixe o app para aproveitar ainda mais
Prévia do material em texto
Leandro Vinhas de Paula Bioestatística Unidade 1 Conceitos básicos e análise exploratória de dados Livro didático digital Diretor Executivo DAVID LIRA STEPHEN BARROS Diretora Editorial ANDRÉA CÉSAR PEDROSA Projeto Gráfico MANUELA CÉSAR ARRUDA Autor LEANDRO VINHAS DE PAULA Desenvolvedor CAIO BENTO GOMES DOS SANTOS Olá! Meu nome é Leandro Vinhas de Paula, sou bacharel e licenciado em Educação Física (Faculdade de Educação Física e Fisioterapia – Universidade Federal de Uberlândia), mestre em Ciências do Esporte (Escola de Educação Física, Fisioterapia e Terapia Ocupacional – Universidade Federal de Minas Gerais – EEFFTO/UFMG) e especialista em Estatística Aplicada (Departamento de Estatística – Instituto de Ciências Exatas – ICEX/UFMG) com uma experiência técnico-profissional na área de educação física e esportes por mais de 10 anos em atividades de ensino, pesquisa e extensão na Universidade Federal de Ouro Preto e no meio privado. Atualmente sou doutorando na área de Biomecânica (EEFFTO - UFMG). Por isso fui convidado pela Editora Telesapiens a integrar seu elenco de autores independentes. Estou muito feliz em poder ajudar você nesta fase de muito estudo e trabalho. Conte comigo! Autor LEANDRO VINHAS DE PAULA INTRODUÇÃO: para o início do desenvolvimen- to de uma nova competência; DEFINIÇÃO: houver necessidade de se apresentar um novo conceito; NOTA: quando forem necessários obser- vações ou comple- mentações para o seu conhecimento; IMPORTANTE: as observações escritas tiveram que ser prioriza- das para você; EXPLICANDO MELHOR: algo precisa ser melhor explicado ou detalhado; VOCÊ SABIA? curiosidades e indagações lúdicas sobre o tema em estudo, se forem necessárias; SAIBA MAIS: textos, referências bibliográficas e links para aprofun- damento do seu conhecimento; REFLITA: se houver a neces- sidade de chamar a atenção sobre algo a ser refletido ou discutido sobre; ACESSE: se for preciso aces- sar um ou mais sites para fazer download, assistir vídeos, ler textos, ouvir podcast; RESUMINDO: quando for preciso se fazer um resumo acumulativo das últimas abordagens; ATIVIDADES: quando alguma ativi- dade de autoapren- dizagem for aplicada; TESTANDO: quando o desen- volvimento de uma competência for concluído e questões forem explicadas; Iconográficos Olá. Meu nome é Manuela César de Arruda. Sou a responsável pelo pro- jeto gráfico de seu material. Esses ícones irão aparecer em sua trilha de aprendizagem toda vez que: SUMÁRIO Introdução......................................................................................10 Competências................................................................................11 Definindo conceitos básicos.....................................................12 Tipos de estudos...............................................................................................12 Amostragem.........................................................................................................14 Variáveis...................................................................................................................17 Aprendendo a estimar parâmetros populacionais e amostrais descrevendo dados................................................20 Medidas de tendência central................................................................20 Média aritmética e ponderada................................................21 Mediana....................................................................................................22 Moda.........................................................................................................23 Medidas de dispersão: absoluta e relativa ....................................24 Amplitude...............................................................................................24 Desvio médio.......................................................................................25 Variância..................................................................................................25 Desvio padrão.....................................................................................27 Coeficiente de variação...............................................................27 Medição separatrizes.....................................................................................28 Construindo tabelas e gráficos no pacote microsoft excel®..............................................................................................31 Aplicando conceitos em um banco de dados no pacote microsoft excel®..........................................................................51 Bibliografia.....................................................................................54 Bioestatística 9 UNIDADE 01 CONCEITOS BÁSICOS E ANÁLISE EXPLORATÓRIA DE DADOS Bioestatística10 Você sabia que a área estatística foi considerada a melhor carreira do ano 2017 nos Estados Unidos e a segunda carreira com maior rentabilidade no Brasil no mesmo período? Apesar de pouco difundida, a estatística pode ser definida como uma ciência que está interessada nos métodos científicos para coleta, organização, sumarização, apresentação de dados e análise de dados, bem como a obtenção de conclusões válidas e na tomada de decisões razoáveis baseadas em tais análises em diversas áreas como a política, economia, marketing, negócios, esportes, ciências da saúde, etc. A sub-área de Bioestatística se ocupa dos métodos estatísticos para investigação quantitativa de problemas nas áreas de saúde. Está preparado para se inteirar um pouco mais desta área fascinante? Ao longo desta unidade letiva você irá mergulhar um pouco neste universo! INTRODUÇÃO Bioestatística 11 Olá. Seja muito bem-vindo à Unidade 1. Nosso objetivo é auxiliar você no desenvolvimento das seguintes competências profissionais até o término desta etapa de estudos: 1. Definindo conceitos básicos 2. Aprendendo a estimar parâmetros populacionais e amostrais descrevendo dados 3. Construindo tabelas e gráficos 4. Aplicando conceitos em um banco de dados no pacote Excel® Vamos começar? Está preparado? Então vamos ao trabalho! COMPETÊNCIAS Bioestatística12 Definindo conceitos básicos Objetivo: Ao término deste capítulo espera-se que você domine conceito e aplique os métodos para exploração e apresentação de dados. Isto será de suma importância para o exercício de sua profissão. E então? Motivado para desenvolver esta competência? Sigamos adiante! A importância da estatística tem sido reportada em diversas áreas como nas ciências da saúde. A estatística é uma ciência que está interessada nos métodos científicos para coleta, organização, sumarização, apresentação, análise de dados, obtenção de conclusões válidas e tomada de decisões razoáveis baseadas em tais análises. Em todas as áreas surgem questionamentos, tais como a evolução do salário mínimo real, consumo de energia per capita, a eficácia de um novo medicamento em relação a um pré- existente em diferentes grupos de indivíduos, testagem da efetividade de um novo método de treinamento, quais doenças decorrentes do consumo de bebidas alcoólicas, entre outros. Na subseção seguinte são relatados alguns tipos de estudos e particularmente aqueles onde é imprescindível o emprego da bioestatística para solução ou estudo de tais problemas. Tipos de estudos Para solução de problemas em bioestatística os profissionais envolvidos devem seguir alguns passos preconizados pelo método científicos, como observação, descrição minuciosa de fenômenos e problemas, elaboração e testagem de hipóteses. O propósito de exploração dos dados proposto nesta unidade é fundamental para cumprir as etapas de observação e descrição minuciosa de fenômenos e problemas. Bioestatística 13 Para suplantar estas etapas, os profissionais devem pesquisar bibliografias a respeito do tema e procurarresultados prévios bem como informações relevantes para entender o problema traçado. Neste sentido, para solucionar e/ou entender melhor estes problemas, as etapas de planejamento e execução de pesquisas de descrição, explicação, predição e/ou controle de dados observados devem ser respeitadas. De forma indissociável, o tratamento estatístico é dependente do planejamento experimental adotado e coleta de dados realizada. De forma geral, os estudos podem ser classificados como: (1) Estudos retrospectivos, onde são utilizados estudos históricos; (2) Estudos de observação, onde o profissional observa processos ou população e extrai grandezas de interesse para solução do problema; (3) Estudos experimentais, em que profissional responsável faz avaliações deliberadas ou propositais sobre as variáveis controláveis do sistema ou de um processo, geralmente precedido por um estudo – piloto; (4) Estudo de caso, necessariamente realizados na área de saúde, definidos por uma cuidadosa e minuciosa descrição, por um ou mais profissionais, do diagnóstico e evolução de uma doença de um reduzido número de indivíduos. (5) Estudos comparativos de coorte, nestes estudos compara-se um grupo exposto a um determinado tratamento em estudo com outro sem exposição ao tratamento (controle); (6) Estudo comparativos de caso-controle, onde compara-se um grupo de doentes ou que apresentam o desfecho pesquisado (os casos) e um grupo de pessoas sem a doença estudada ou sem o desfecho pesquisado (os controles). Bioestatística14 EXPLICANDO MELHOR: A taxonomia de classificação de tipos de estudos oscila dependendo da referência das referencias adotadas, então atenha-se as referências que melhor ajudam a visualizar as situações problemas traçadas por você! EXPLICANDO MELHOR: Em outras palavras, a população e um conjunto ou coleção de dados que descreve algum fenômeno de nosso interesse (“N” é o número de observações da população). Amostragem é usada intuitivamente em nosso cotidiano. A amostra é uma parte representativa da população (“n” é o número de observações de uma amostra). Abaixo os conceitos de população e amostra são expressos matematicamente: 𝑋𝑁 = 𝑋1,𝑋2 ,𝑋3,…𝑋𝑁 𝑥𝑛 = 𝑥1,𝑥2 , 𝑥3, … 𝑥𝑛 Amostragem Em linhas gerais, uma população pode ser definida como um conjunto total de objetos ou indivíduos de interesse em estudo. Por outro lado, o processo de amostragem de extração de uma amostra a partir de uma população – alvo, neste sentido uma amostra é um subconjunto de uma população. Bioestatística 15 Em pesquisas científicas, em que se quer conhecer algumas características de uma população, é muito comum se observar apenas uma amostra de seus elementos e, a partir dos resultados dessa amostra, obter valores aproximados para as características populacionais. No levantamento por amostragem, a seleção dos elementos que serão efetivamente observados deve ser feita sob uma metodologia adequada, de tal forma que os resultados das amostras sejam informativos para avaliar características de toda a população. Reflita: Por que amostrar? Economia: torna-se bem mais econômico o levantamento de somente uma parte da população; Tempo: em pesquisa pode não haver tempo suficiente para pesquisar toda a população, mesmo de posse de recursos financeiros; Confiabilidade dos dados: um número reduzido de elementos, dar-se-á mais atenção aos casos individuais, evitando erros nas respostas obtidas; Operacionalidade: operações de pequena escala são mais fáceis de produzir, como exemplo, um dos problemas típicos nos grandes censos é o controle dos entrevistadores. Nesse sentido, basicamente, as técnicas de amostragem simples podem ser classificadas como não – probabilísticas e probabilísticas. Na amostragem não- probabilística, são selecionadas as unidades amostras que consideramos ser típicas ou representativas, são os estudos de casos tão comuns em diversas áreas de atividade, como nas ciências da saúde. Neste tipo de amostragem, a amostra obtida é não representativa da população. Os dados não se prestam a tratamento estatístico que leva a inferências sobre a população. Os resultados são válidos apenas dentro dos limites da própria amostra. Bioestatística16 Por outro lado, na amostragem probabilística ou aleatória, caracteriza-se pela aleatoriedade na seleção das unidades amostrais. Neste tipo de amostragem a amostra obtida deve ser representativa da população. Os dados devem se prestar ao tratamento estatístico. Os resultados obtidos para a amostra podem ser estendidos para a população com grau de confiança determinado. Porém, existem situações em que o uso de amostragem deve ser melhor avaliado como no caso de uma população reduzida (Ex.: indivíduos experts em determinado domínio musical, cientistas experts, etc.). A amostragem não é necessária se a população for reduzida para termos uma amostra capaz de gerar resultados precisos. Além disso, quando as características – alvo são de fácil mensuração onde talvez a população não seja tão pequena, mas a variável que se quer observar é de tão fácil mensuração, talvez não compense investir em um plano de amostragem. A amostragem aleatória pode ser subdividida em amostragem aleatória simples (AAS), amostragem sistemática (AS), amostragem aleatória estratificada (AAE) e amostragem estratificada proporcional (AEP). A AAS é do ponto de vista conceitual e computacional, o método mais direto de se amostrar uma população. Para a seleção de uma amostra aleatória simples precisamos ter uma lista completa dos elementos da população. Este tipo de amostragem consiste em selecionar a amostra através de um sorteio aleatório, sem restrições. Na amostragem aleatória simples cada elemento da população tem a mesma probabilidade de pertencer à amostra. Na amostragem sistemática, se queremos extrair uma amostra de “n” elementos, dentre uma população de “N” elementos, podemos extrair, sistematicamente, um elemento a cada grupo definido por um intervalo de amplitude (N/n). Uma amostra sistemática poderá ser Bioestatística 17 tratada como uma amostra simples se os elementos da população estiverem ordenados aleatoriamente. Adicionalmente, a amostragem aleatória estratificada (AAE) consiste em dividir a população em subgrupos (estratos). Estes estratos devem ser internamente mais homogêneos do que a população, com respeito às variáveis em estudo. Para os diversos estratos da população, são realizadas seleções aleatórias, de forma independente entre as seleções. Por fim, a amostra completa é obtida através da agregação das amostras de cada estrato. Obviamente, neste contexto um prévio conhecimento sobre a população em estudo é fundamental. Por fim, no caso particular da AEP, a proporção do tamanho de cada estrato da população é mantida. Caso um estrato amostral corresponda a 10% da população, o estrato também deve corresponder a 10% da amostra. Porém, esta relação entre amostra e população é eventualmente muito difícil de ser estabelecida. Porém, uma vantagem da AEP, reside na garantia de que cada elemento da população tem a mesma probabilidade de ocorrência na amostra. Variáveis O conceito de variável consiste em um valor ou qualidade que pode variar de objeto para objeto ou de um indivíduo para outro, de um instante a outro. Exemplificando: A estatura é uma variável pois seus valores podem oscilar de uma pessoa a outra (Ex.: 1.85m), ou o número de acidentes em uma estrada é uma variável (Ex.: 135 acidentes). Os nomes das variáveis são freqüentemente abreviadas por uma letra (Ex.: “QI” que representa Quociente de inteligência). As variáveis são classificadas como qualitativas, quando se usa a escala nominal ou ordinal para medição ou contar as características ou grandezas que estamos Bioestatística18 interessados em estudar. Basicamente, a variável é nominal ou categórica quando se é usada a escala nominal para medir seus valores.Uma variável pode ser classificada como nominal se ela é composta por nomes simples ou categorias (Ex.: masculino ou feminino) e as categorias ou nomes não tem ordem. A variável é ordinal, se é usada a escala ordinal para medir seus valores. A variável é ordinal se ela é composta de categorias que tem ordenamento natural (Ex.: Satisfeito, Insatisfeito; Estagio I, Estagio II, Estagio III). Exemplificando: Variáveis ordinais podem tomar os seguintes valores: Não-numéricos: por exemplo variável com valores resultantes de “níveis de satisfação”: ( ) a favor, ( ) contra; Numéricos: quando usamos escalas numéricas, as escalas da razão, tais como a escala likert, que são usadas na área de Ciências da Saúde: ( ) 1 – Discordo totalmente, ( ) 2 – Discordo parcialmente, ( ) 3 - Indiferente, ( ) 4 – Concordo parcialmente, ( ) 5 – Concordo totalmente. Variável qualitativa ordinal: se tem por exemplo quando se mede a perspectiva de funcionários no início e final de um treinamento (01 – Nenhuma; 10 – A melhor): (01) (02)(03)(04)(05)(06)(07)(08)(09)(10) Por outro lado, as variáveis quantitativas referem-se a quantidades medidas em escala numérica. As variáveis quantitativas são discretas, quando assumem valores inteiros ou contáveis (Ex.:0,1,2,3...). As variáveis quantitativas são denominadas contínuas, quando não são contáveis, isto é, assumindo qualquer valor do conjunto dos números reais (Ex.: 1,60; 1,72; 1,85; 2,04). Bioestatística 19 Figura 01: Tipos de variáveis. VARIÁVEL QUALITATIVA Nominal Ordinal Discreta Continua QUANTITATIVA Fonte: Autor. Bioestatística20 Aprendendo a estimar parâmetros populacionais e amostrais descrevendo dados Após uma breve introdução sobre alguns conceitos básicos em estatística, tais como tipos de estudos, variáveis, amostragem e população. Estes conceitos são imprescindíveis para a realização de seus trabalhos e estudos. Nesta seção serão abordadas medidas tendência central, dispersão e separatrizes. Basicamente, as medidas de tendência central são conceituadas como valores centrais (média, moda e mediana) aos quais os dados obtidos encontram-se agrupados. Por outro lado, as medidas de dispersão são necessárias ao estudo da variação de variáveis de estudo (variância, desvio médio, desvio padrão, coeficiente de variação). Por fim, como o próprio nome já reporta, as medidas separatrizes são valores que separam o conjunto de dados obtidos em partes iguais (quartis, decis e percentis). Nesse sentido, o objetivo desta seção é conceituar essas medidas e como entender estas medidas de forma correta. Os conceitos e medidas que você verá a seguir serão necessários para resolução de exercícios e construção de relatórios nas atividades da disciplina. Medidas de tendência central As medidas de tendência central ou de posição são amplamente empregadas para expressar resultados de experimentos, bases de dados, para resumir variáveis aleatórias. A determinação das medidas de tendência central tem como objetivo definir o valor mais provável de uma dada variável. Dessa forma, a média possui a função de transformar um conjunto de valores de uma amostra ou população em apenas um valor, fornecendo uma ideia ou tendência do conjunto de dados. Bioestatística 21 Média aritmética e ponderada Basicamente, a média aritmética simples (μ, média populacional; ẋ, média amostral) pode ser obtida a partir da relação entre o somatório dos valores de um determinado conjunto de dados populacionais ou amostrais e o número de valores deste conjunto de dados (Equação X). Por outro lado, a média aritmética ponderada determina o valor médio considerando o peso dos valores observados. Na média ponderada, a alteração da posição dos números pode ocasionar resultados errados ao contrário da média aritmética simples. TESTANDO: Em uma turma de judô para crianças, verificou- se o seguinte conjunto de dados referente à massa corporal (kg): Massa = (34; 40; 33; 29; 37; 38,5; 30; 32); Logo, o valor médio é de: ẋ = ∑ 𝑥𝑖𝑛𝑖 𝑛 = 34 + 40 + 33 + 29 + 37 + 38,5 + 30 + 32 8 ẋ = 34,18 𝑘𝑔 A média de massa corporal da turma de judô é de 34,18 kg. 𝜇 = ∑ 𝑋𝑖𝑁𝑖 𝑁 𝑀é𝑑𝑖𝑎 𝑝𝑜𝑝𝑢𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙 ; ẋ = ∑ 𝑥𝑖𝑛𝑖 𝑛 𝑀é𝑑𝑖𝑎 𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑙 (𝐸𝑞. 𝑋) ẋ𝑝 = ∑ 𝑝𝑖 ∗ 𝑥𝑖𝑛𝑖=1 ∑ 𝑝𝑖𝑛𝑖=1 Bioestatística22 Nesse caso, a média ponderada de desempenho no ENADE será de 78,83 pontos. Mediana A mediana pode ser conceituada como o valor que divide o conjunto de dados em partes iguais com o mesmo número de elementos, constituindo em uma medida de posição. O valor da mediana situa-se na posição central do conjunto de dados organizado em ordem crescente de forma que o número de dados situados antes desse valor é igual ao número de dados que se encontram após esse valor. O cálculo da mediana é dependente do número de observações do conjunto de dados. Exemplo: Calcular a mediana para conjunto ímpar de dados (9, 12, 8, 6, 14, 11, 5): Em um primeiro momento, ordena- se os dados (n=7) de forma crescente (5, 6, 8, 9, 11, 12, 14). Logo, a mediana será determinada pelo elemento que divide o conjunto de dados em partes iguais, nesse caso igual a 9. TESTANDO: Suponhamos que no exame nacional de desempenho de estudantes (ENADE) para cômputo da nota final dos concluintes no ensino superior sejam avaliadas as seguintes competências com pesos diferentes: (1) conhecimentos teóricos do curso; (2) conhecimentos gerais; (3) conhecimentos práticos. As 3 competências possuem respectivamente os pesos de 2, 1 e 3. Logo, se você ao final do curso obtiver as notas de 72, 65 e 88, sua média ponderada será: ẋ𝑝 = ∑ 𝑝𝑖 ∗ 𝑥𝑖𝑛𝑖=1 ∑ 𝑝𝑖𝑛𝑖=1 = 2 ∗ 72 + 1 ∗ 65 + 88 ∗ 3 6 = 78,83 Bioestatística 23 Para o conjunto de dados ímpar a mediana é definida como o valor da variável que ocupa a posição de ordem 𝑛 2 + 1 . Em conjunto de dados par, não há valor o central, a mediana é determinada como a média dos valores que ocupam as posições de ordem 𝑛 2 e 𝑛 + 1 2 . TESTANDO: Calcular a mediana para conjunto par de dados (9,8,6,12,11,14): Em um primeiro, ordena-se o conjunto par de dados (n=6) de forma crescente (6,8,9,11,12,14) e calculam-se a posições: 𝑛 2 = 3 ; 𝑛 2 + 1 = 4 Logo, a mediana será dada pela média entre os elementos que ocupam respectivamente a terceira e quarta posições do conjunto de dados: 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 = 9 + 11 2 = 10 . TESTANDO: Calcular a moda para as idades dos candidatos à presidência de um clube desportivo: idade = (75, 87, 39, 58, 75, 75, 67, 83, 87, 79). Logo, a Moda = 75 (é frequente por 3 vezes). Moda Em síntese, a moda é o valor mais comum no conjunto de dados de uma determinada variável, ou ainda o valor mais frequente, denominado valor modal. Logo, um mesmo conjunto de dados pode apresentar mais de uma moda, ou seja, mais de um valor frequente, classificado como multimodal. Bioestatística24 Medidas de dispersão: absoluta e relativa Após a definição de conceitual das medidas de tendência central, um aspecto de suma importância para exploração de dados é o estudo da variação das respostas obtidas, relativamente às medidas de tendência central da amostra ou população. A seguir são apresentadas medidas estatísticas para estudo da variabilidade de respostas em torno da medida de tendência central principal, a média. Amplitude De forma simplificada, a amplitude dos dados corresponde à diferença entre os valores máximos e mínimos de uma variável ordenada de forma crescente. A abaixo a amplitude é apresentada matematicamente, onde 𝑥𝑚𝑖𝑛representa o valor mínimo e o 𝑥𝑚á𝑥 o valor máximo do conjunto de dados: 𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 𝑡𝑜𝑡𝑎𝑙 = 𝑥𝑚á𝑥 − 𝑥𝑚𝑖𝑛 TESTANDO: A partir de 2 conjuntos de dados x = [3,5,6,12,15] e y = [60,60,60,60,60], a amplitude dos dados é: 𝐴𝑇𝑋 = 𝑥𝑚á𝑥 − 𝑥𝑚𝑖𝑛 = 15 − 3 = 12 𝐴𝑇𝑌 = 𝑥𝑚á𝑥 − 𝑥𝑚𝑖𝑛 = 60 − 60 = 0 Logo a variável “x” possui amplitude igual a 12 ea variável “y” possui amplitude igual a 0 (dispersão nula), ou seja, os valores da variável “y” não variam entre si. A utilização isolada da amplitude dos dados como medida de dispersão é limitada, uma vez que considera apenas 2 dados extremos. Dessa forma, quanto maior a amplitude total dos dados, maior a variação da variável. Bioestatística 25 Desvio médio O desvio médio diferentemente da amplitude leva em consideração o valor médio do conjunto de dados. O desvio médio pode ser definido como o somatório do módulo das diferenças dos dados em relação à média, dividido pelo número total de dados. Abaixo o desvio médio é definido matematicamente: 𝐷𝑒𝑠𝑣𝑖𝑜 𝑀é𝑑𝑖𝑜 = ∑ 𝑥𝑖 − ẋ�� 𝑛 TESTANDO: Considerando o conjunto de dados da variável x = (12,8,9,10,7,13), calcule o desvio médio: 𝐷𝑀 = ((12 − 9,83) + (8 − 9,83) + (9 − 9,83) + (10 − 9,83) + (7 − 9,83) + (13 − 9,83)) 6 𝐷𝑀 = 1,83 Logo, a dispersão média dos dados é da ordem de 1,83. Variância A variância é uma medida de dispersão que verifica a distância entre os valores obtidos pela medida de tendência central amostral ou populacional (média aritmética). Em suma, a variância pode ser entendida como o somatório dos desvios elevados ao quadrado, dividido pelo total de observações no caso da variância populacional, ou dividido pelo total de observações menos 1 no caso da variância amostral. Abaixo são definidas as variâncias populacional e amostral: Bioestatística26 TESTANDO: Para melhorar o atendimento semanal, a administração de um hospital registrou o tempo médio de atendimento de pacientes junto ao sistema único de saúde. Os resultados obtidos em minutos nos setores de especialidades A, B, C e D para cada dia da semana são destacadas abaixo: Em suma, os setores A e D possuem maior e menor tempo de espera semanalmente, respectivamente. Por outro lado, os setores A e D possuem maior e menor dispersão em relação à média. 𝑆2 = ∑ 𝑋𝑖 − 𝜇 2�� 𝑁 𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 𝑝𝑜𝑝𝑢𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙 𝑠2 = ∑ 𝑥𝑖 − ẋ 2�� 𝑛 − 1 (𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑙) Setor Seg Ter Qua Qui Sex Sáb Dom A 52 55 63 76 55 66 77 B 35 42 37 45 41 47 44 C 42 35 44 49 43 45 46 D 27 32 36 35 36 39 31 ẋ𝐴 = ∑ 𝑥𝑖𝑛𝑖 𝑛 = 𝟔𝟑, 𝟒𝟐; ẋ𝐵 = 41,57; ẋ𝐶 = 43,42; ẋ𝐷 = 𝟑𝟑,𝟕𝟏 𝑠𝐴2 = ∑ 𝑥𝑖 − ẋ 2�� 𝑛 − 1 = 𝟏𝟎𝟑, 𝟔𝟏; 𝑠𝐵 2 = 18,61; 𝑠𝐶2 = 18,95; 𝑠𝐷2 = 𝟏𝟓,𝟗𝟎 Bioestatística 27 Desvio padrão Apesar da variância ser extensivamente estudada, o desvio padrão é a medida mais usada na testagem de hipóteses estatísticas entre conjuntos de dados devido à sua maior precisão. Este parâmetro determina a dispersão dos valores do conjunto de dados em relação à média, determinado por meio da extração da raiz quadrada da variância. Abaixo, a fórmula do desvio padrão amostral é definida matematicamente: 𝑠 = ∑ 𝑥𝑖 − ẋ 2�� 𝑛 − 1 � Coeficiente de variação O coeficiente de variação é uma medida dispersão (instabilidade) relativa de uma variável resposta, permitindo a comparação de dispersão entre várias diferentes e para a mesma variável em momentos diferentes. O coeficiente de variação (CV) é determinado pela relação percentual entre o desvio padrão e a média, conforme descrito abaixo: 𝐶𝑉% = 𝑠 ẋ ∗ 100 TESTANDO: Relembrando o exemplo anterior, abaixo são calculados o desvio padrão do tempo de espera para os setores hospitalares de A a D. 𝑠𝐴 = ∑ 𝑥𝑖 − ẋ 2�� 𝑛 − 1 � = 10,17; 𝑠𝐵 = 4,31; 𝑠𝐶 = 4,35; 𝑠𝐷 = 3,98 Bioestatística28 Medição separatrizes Uma outra categoria de medidas para exploração de dados são as separatrizes. Estas medidas consistem valores de separação do conjunto de dados em partes iguais. Para a realização da separação do conjunto de dados os dados devem ser previamente ordenados de forma crescente. Além da mediana, as medidas separatrizes mais empregadas são os quartis, onde o conjunto de dados é dividido em quatro partes iguais, em que cada quartil são alocados 25% dos dados; os decis, quando o conjunto de dados é dividido em dez partes iguais e os percentis onde o conjunto de dados é dividido em cem partes iguais. TESTANDO: Ainda considerando o exemplo anterior, abaixo é determinado o coeficiente de variação para a variável tempo de espera em diferentes setores hospitalares: 𝐶𝑉𝐴% = 𝑠 ẋ ∗ 100 = 16,04%; 𝐶𝑉𝐵% = 10,37% ; 𝐶𝑉𝐴% = 10,02%; 𝐶𝑉𝐴% = 11,82% A dispersão relativa do desvio padrão em relação a média oscilou de 10,02% a 16,04% para variável tempo de espera. Em geral, o CV de 0,1% a 15% denota uma baixa instabilidade de medida, uma dispersão de 15,1% a 30% indica uma moderada instabilidade de medida e, por fim, valores maiores que 30% indicam uma elevada dispersão relativa em relação à média. Bioestatística 29 A partir das medidas separatrizes é construído um diagrama de caixas (denominado em língua inglesa de “box-plot”) que tem sido extensivamente empregado para exploração do conjunto de dados por evidenciar os principais aspectos da distribuição dos dados. A construção do diagrama box-plot é realizada por meio do emprego de cinco números, formados pelo valor mínimo, primeiro quartil, segundo quartil (mediana), terceiro quartil e valor máximo. Este tipo gráfico além de denotar características da distribuição é útil comparação de distribuições de frequência de dados. Na figura abaixo é exemplificado o diagrama box-plot para exploração do conjunto de dados. O diagrama box-plot é representa os dados de forma resumida, onde as arestas laterais do retângulo representam o primeiro e o terceiro quartis (Q1 e Q3) e a linha central dentro do retângulo a mediana ou segundo quartil. Entre o valor mínimo e Q1, Q1 e Q2, Q2 e Q3 e de Q3 ao valor máximo são determinados os quartis. Cada um dos quartis possui 25% dos dados, e, obviamente, entre os limites de Q1 e Q3 situam-se 50% dos dados (intervalo interquartil). Dessa forma, para representar os 25% restantes dos dados em cada cauda serão considerados dados atípicos se o valor do dado for menor que o valor observado de Q1 – 1,5(Q3- Q1) ou maior que o valor observado de Q3 + 1,5(Q3-Q1). Adicionalmente, os dados são classificados como valores discrepantes ou “outliers”, caso o valor do dado for menor que o valor observado de Q1 – 3(Q3-Q1) ou maior que o valor observado de Q3 + 3(Q3-Q1). Por fim, para representar o domínio de variação dos dados que não são discrepantes é traçado a partir do primeiro quartil uma linha para cima e para trás é traçada até o ponto mais remoto. Abaixo é exemplificado o diagrama box – plot. Bioestatística30 Figura 02 Diagrama box – plot. Fonte: Autor. Bioestatística 31 Construindo tabelas e gráficos no pacote Microsoft Excel® A capacidade de sumarizar os dados em forma de tabelas (uni e bi-variadas) é fundamental ao método científico para suplantar a formulação de hipóteses estatísticas. A distribuição de frequências consiste de uma lista das categorias ou valores que uma ou mais variáveis apresentam em conjunto com a quantidade de ocorrências (número) de cada valor ou categoria. Esta quantidade é denominada de frequência absoluta e pode ainda ser expressa em forma de frequência percentual de cada categoria (%). A apresentação de dados é dependente do tipo de variável estudada. Basicamente, os gráficos de colunas, barras e linhas geralmente são empregados para expressar frequências absolutas, relativas e medidas de tendências central juntamente com medidas de dispersão. Por outro lado, histogramas e polígonos de frequências são empregados para expressar a distribuição de frequências de variáveis discretas e contínuas. Para sumarizar variáveis nominais o gráfico de setores é um recurso muito utilizado. Por outro lado, para expressar simultaneamente medidas de tendência central e frequência relativa acumulada tem sido empregado o gráfico de pareto. Deve ser destacado ainda os gráficos em formato de ogiva, muito usados para expressar processos e empreendimento a partirda frequência acumulada de determinada variável de controle. Nós incentivamos a você buscar outros exemplos de gráficos a ser empregados na sua área de estudo! Nesta seção trataremos da aplicação dos conceitos que você aprendeu anteriormente em ambiente Excel® a partir de um banco de dados conhecido (https://www.ime. usp.br/~noproest/dados/aeusp.xls) para determinação de medidas descritivas, tabelas e gráficos. Abaixo são descritas as variáveis observadas nas colunas do banco de dados na aba “descrição do arquivo”. https://www.ime.usp.br/~noproest/dados/aeusp.xls https://www.ime.usp.br/~noproest/dados/aeusp.xls Bioestatística32 Tabela 01– Descrição da base de dados (Passo 1). Dados contidos no arquivo de nome aeusp As informações referem-se a uma pesquisa realizada pela Associação dos Educadores da USP (AEUSP), sobre aspectos sócio-econômicos e culturais de comunidades de baixa renda da região do Butantã, São Paulo. Sendo um conjunto de dados reais, poderão aparecer incoerências oriundas de equívocos na digitação ou na coleta de dados. Nestes casos, adote uma alternativa que permita contornar a dificuldade encontrada. coluna 1: Número do questionário (Num). coluna 2: Comunidade (Comun). coluna 3: Sexo (Sexo): 1: masculino/2: feminino coluna 4: Faixas de idade, em anos (Idade): 1: de 14 (inclusive) a 25 (exclusive) 2: de 25 (inclusive) a 35 (exclusive) 3: de 35 (inclusive) a 45 (exclusive) 4: 45 anos ou mais coluna 5: Estado Civil (Ecivil): 1: solteiro/2: casado/3: divorcia- do/4: viúvo/5: outro coluna 6: Região de Procedência (Reproce). coluna 7: Tempo de residência em São Paulo, em anos (Tem- posp). coluna 8: Número de residentes na casa (Resid). coluna 9: Trabalho (Trab): 1: sim/2: não/3: aposentado coluna 10: Tipo de trabalho, só para os que responderam tra- balham (Ttrab): 1: empregado com carteira 2: empregado sem carteira 3: profissional liberal Bioestatística 33 4: autônomo 5: rural coluna 11: Idade que começou a trabalhar, em anos (Itrab). coluna 12: Renda familiar em faixas de reais (Renda): 1: de 0 (inclusive) a 150 (exclusive) 2: de 150 (inclusive) a 300 (exclusive) 3: de 300 (inclusive) a 450 (exclusive) 4: de 450 (inclusive) a 900 (exclusive) 5: de 900 (inclusive) a 1500 (exclusive) 6: 1500 ou mais coluna 13: Acesso a computador (Acompu): 1: sim/2: não coluna 14: Série em que parou de estudar (Serief): em branco: não parou de estudar 1 a 8: séries do ensino fundamental 9 a 12: séries do ensino médio Fonte: https://www.ime.usp.br/~noproest/dados/aeusp.xls. A seguir é feita uma breve descrição dos passos a seguir para construção de uma tabela dinâmicas. Para construir uma tabela univariada, seleciona-se todas as cédulas das variáveis incluindo o rótulo, clica-se na aba “inserir” e janela em “tabela dinâmica”. https://www.ime.usp.br/~noproest/dados/aeusp.xls Bioestatística34 Figura 03 – Inserção de tabela dinâmica e seleção de dados (Passo 2). Fonte: https://www.ime.usp.br/~noproest/dados/aeusp.xls. Na nova janela “criar tabela dinâmica”, escolhe-se os dados ou tabela que se deseja analisar e escolhe-se onde se deseja que o relatório de tabela dinâmica seja colocado (“Nova Planilha”) e clica-se em “ok”. Figura 04 – Inserção de tabela dinâmica e seleção de dados (Passo 3). Fonte: Autor. https://www.ime.usp.br/~noproest/dados/aeusp.xls Bioestatística 35 Fonte: Autor. Na nova planilha observam-se os campos de (1)“Soltar Campos de Filtros do Relatório aqui”, são os campos onde a variável vai ser resumida; (2) “Campos da tabela”, estes campos aparecem no lado direito da planilha, na área “Escolha os campos para adicionar ao relatório”, aparece o nome da variável ou variáveis a resumir, no exemplo aparece o nome da variável Sexo; e (3) “Arraste os campos entre as áreas abaixo”, onde existem o campo de (a) “Filtros”, onde se pode especificar algum filtro para se aplicar aos dados; (b) “colunas”, caso a variável vai ser resumida em coluna; (c) “linhas”, quando a variável escolhida vai ser resumida em linha; e (d) “∑ valores”, onde se tem diversos forma de resumir a variável, aparece o primeiro tipo de cálculo a resumir que é Soma. No exemplo anterior, para resumir a variável “Sexo” em linha e a variável “Resid”; então arrasta-se a variável sexo ao campo “Linhas” e a variável “Resid” para o campo de colunas, para que cada categoria da variável seja alocada em uma linha; e arrastei a variável ao campo “∑ valores”: observe que na tabela dinâmica se tem a soma de sexo. Figura 05 – Tabela uni-variada para a variável sexo (Passo 4). Bioestatística36 Fonte: Autor. Para mudar o tipo de cálculo a resumir, clicar duas vezes no campo “Soma de Sexo”, e observe que abre outra janela de “Configurações do Campo de Valor”, onde temos diversas maneiras de resumir a variável (inclusive usando medidas de tendência central), em nosso caso devemos mudar para “Contagem” e após de clicar “ok”, observe a mudança na tabela dinâmica: Figura 06 – Tabela uni-variada para a variável sexo (Passo 5). A tabela dinâmica obtida pode ser editada, mudando os rótulos das colunas, nome das categorias, e representar com um gráfico de coluna, barras ou circular. Para isso, deve-se selecionar a aba “análise de tabela dinâmica” e clicar em “gráfico dinâmico”. Bioestatística 37 Fonte: Autor. Fonte: Autor. Figura 07 – Gráfico dinâmico (Passo 6). Após de selecionar esta janela “Gráfico Dinâmico” tem-se uma nova janela que mostra todos os gráficos que podemos selecionar, para este tipo de variável nominal (“sexo”), podemos selecionar as alternativas de “Colunas”, “Pizza” ou “Barras”. Após selecionar e clicar em “ok”, aparecerá o gráfico selecionado, em que pode ser editado o Título, Legenda e toda a área do gráfico. Figura 08 – Gráfico de pizza (Passo 7). Bioestatística38 Para apresentar os dados da variável termos de frequência relativa (%), na mesma tabela, devemos colocar o cursor na tabela dinâmica, e arraste a variável sexo novamente ao campo “∑ valores”, observe que na tabela dinâmica há uma nova coluna à direita da frequência absoluta e no campo “∑ valores”, aparece uma nova soma de sexo (“Soma de Sexo2”). que devemos mudar para contagem (duplo clique). Para mudar a forma de resumir a variável, devemos mudar a forma de “Mostrar valores como” e clicar na linha “Sem cálculo”, observe que há diversas alternativas de mostrar valores, selecione a alternativa “% do Total Geral”. 1). Após clicar “ok”, observe a mudança na tabela dinâmica: Figura 09 – Gráfico de pizza (Passo 8). Fonte: Autor. Bioestatística 39 Fonte: Autor. Nesta tabela uni-variada, observa se que a maior proporção de alunos é do sexo feminino (“2”), representado no gráfico de pizza pela cor vermelha. Adicionalmente podem ser construídas tabelas bivariadas, imprescindível no futuro para construção de tabelas de contingência, muito empregadas na área de ciências da saúde. Após selecionar as colunas de dados à serem analisados, abre-se a aba “inserir” e clicar em “tabela dinâmica”. Na nova planilha, observe que no exemplo resume-se a variável “sexo” em linha, e arrasta-se a variável “Idade” ao campo “colunas”, e, por fim, para que cada categoria da variável seja alocada em uma coluna, a mesma a variável é adicionada ao campo “∑ valores”, observe que na tabela dinâmica se tem a soma de sexo. A seguir verifica-se a tabela bivariada para as variáveis sexo e idade. Figura 10 – Tabela bivariada (Passo 9). Bioestatística40 Para mudar o tipo de cálculo a resumir, clicar no campo Soma, e observe que abre outra janela de “Configurações do Campo de Valor”, onde temos diversas formas de resumir a variável, em nosso caso devemos mudar para Contagem. Após de clicar OK, observe a mudança na tabela dinâmica, na seguinte figura. Figura 11 – Tabela bivariada: contagem (Passo 10). Fonte: Autor. Após de ser editada a tabela dinâmica, mudando os rótulos de linha e rótulos de colunas e nome das categorias,observamos que o maior número de entrevistados na faixa etária de 14 a 25 anos (1) e do sexo feminino (2). Bioestatística 41 Fonte: Autor. Figura 12 – Gráfico bivariado: contagem (Passo 11). Para representar os dados da tabela bivariada em forma de gráfico, coloca-se o cursor, e clicar na janela superior “análise de tabela dinâmica”, nas alternativas abertas selecionar “Gráfico Dinâmico”. Após de selecionar esta janela “Gráfico Dinâmico”, tem-se uma nova janela que mostra todos os gráficos que podemos selecionar, para este tipo de variável nominal, podemos selecionar as seguintes as alternativas de gráficos de “colunas” ou “barras”, veja a seguinte figura: Novamente, após de clicar “ok”, aparece o gráfico selecionado, pode ser editado no título do gráfico, a legenda e toda a área do gráfico, a seguir um exemplo do gráfico da distribuição de entrevistados segundo sexo e faixa etária, onde se observa que o maior número de entrevistados são do sexo feminino e da faixa etária maior que 14 anos e menor que 25. Bioestatística42 Figura 13 – Gráfico bivariado (Passo 12). Fonte: Autor. Fonte: Autor. Em diversas situações, variáveis podem ser expressas como tabelas com intervalos de classe, em que cada classe possui limites superiores e inferiores para classificação da amostra. O procedimento de determinação dos intervalos de classe é mostrado para construir uma distribuição de frequências em intervalos de classe. Figura 14 Intervalos de classe para a variável “ITRAB” (Passo 13). Bioestatística 43 Fonte: Autor. No exemplo acima, uma tabela dinâmica foi construída com a variável de interesse “Itrab” que aparece em uma nova planilha. Na tabela dinâmica criada, coloca- se o cursor em uma das células, e seleciona-se “agrupar”. Figura 15: Variável ITRAB agrupada em 7 intervalos de classe (Passo 14). Após de selecionar a janela “Agrupar Seleção” se abre uma nova janela “Agrupamentos”, onde se observa os seguintes campos devemos indicar: “Iniciar em”, o limite inferior do primeiro intervalo de classe; “Finalizar em” o limite superior do último intervalo de classe e “Por” para a amplitude do intervalo. No exemplo, para agrupar a variável “Itrab”, dado que o valor mínimo é 0 e o máximo é 34, indicamos que agrupamento deve-se iniciar em 0, e terminar em 35 com uma amplitude de 5 (7 intervalos de classe, veja acima). Subsequentemente, a apresentação da distribuição de frequências é apresentada em formato de histograma e polígono de frequências. No exemplo, posiciona-se os dados a representar (frequência absoluta incluindo o rótulo) e em seguida a opção “gráfico dinâmico”. Por fim, define-se o tipo de gráfico adequado ao tipo de variável. Bioestatística44 Após fechar a janela temos o histograma da variável, é possível editá-lo para mudança do título e os rótulos do eixo horizontal. A seguir é apresentado o procedimento para construção do histograma e polígono de frequências. Para editar a entrada de dados, clica-se com o botão direito, dentro da janela aberta marcando “Selecionar Dados”, e na nova janela “Selecionar Fonte de Dados”, seleciona-se os seguintes itens: (a) “Intervalo de dados do gráfico”, as células onde os dados se encontram; (b) “Alterar entre linha e coluna”, alteração dos dados, entre linha e coluna; e (c)“Entrada de legenda Série”, se estamos adicionando outra série de dados, e/ou editar a série de dados apresentada e/ou remover a série apresentada. É recomendável que você explore as diferentes opções de edição do gráfico. Figura 16: Histograma de frequência da variável “ITRAB” (Passo 15). Fonte: Autor. Para construir o polígono de frequências no mesmo histograma, devemos colocar o mouse do lado direito, dentro da janela aberta marcar “Selecionar Dados”, e na nova janela “Selecionar Fonte de Dados”, esta nova janela no campo “Entrada de legenda Série”, adicionar a mesma série de dados, após de clicar Ok temos duas colunas que representa a frequência absoluta. Bioestatística 45 Fonte: Autor. Figura 17: Edição de histograma de frequência (Passo 16). Bioestatística46 Podemos construir também um histograma acompanhado de um polígono de frequências relativas. Para isso basta selecionar o intervalo de dados e mudar o tipo de gráfico para linhas na opção gráfico dinâmico, como mostrado a seguir. Figura 18: Histrograma e polígono de frequências para a variável “Itrab” (Passo). Fonte: Autor. Outra figura que podemos construir são as Ogivas, que são as representações das frequências relativa acumuladas. A seguir a tabela com estas frequências acumuladas e colunas indicando os limites inferiores (LI) e limites superiores (LS) dos intervalos de classe. Bioestatística 47 Fonte: Autor. Figura 19: Histrograma e polígono de frequências para a variável “Itrab”. Após de selecionar as células da frequência relativa acumulada abaixo de, abrimos a janela “Ferramentas de Gráfico”, selecionamos um gráfico de linha, após de editar o título do gráfico e eixo horizontal com os valores do limite inferior, temos a Ogiva Abaixo de, como se mostra na seguinte figura. Bioestatística48 Figura 20: Distribuição de frequências relativas acumuladas - Ogivas. Fonte: Autor. Da mesma forma, selecionando as células da frequência relativa acumulada Acima de, abrimos a janela “Ferramentas de Gráfico”, selecionamos um gráfico de linha, após de editar o título do gráfico e eixo horizontal com os valores do limite superior, temos a Ogiva Acima de, como se mostra na seguinte figura. Bioestatística 49 Fonte: Autor. Figura 21: Distribuição de frequências relativas acumuladas - Ogivas. Bioestatística50 Após apresentar as opções de apresentação de dados na plataforma excel, chegou momento de você treinar melhor os conceitos trabalhados na Unidade I: explore os demais tipos de gráficos a partir da base dados trabalhada nessa seção (https://www.ime.usp.br/~noproest/dados/ aeusp.xls). Agora é com você! https://www.ime.usp.br/~noproest/dados/aeusp.xls https://www.ime.usp.br/~noproest/dados/aeusp.xls Bioestatística 51 Aplicando conceitos em um banco de dados no pacote Microsoft Excel® Atualmente, existem vários pacotes estatísticos para tratamento de dados, gratuitos (“R” Statistical software, Python) e pagos (SPSS, Minitab, Microsoft Excel). Para expressar as medidas descritivas será empregado o software excel abaixo por meio de um procedimento simples para sumarização das medidas descritivas, permitindo ao usuário a exploração dos dados. Para isso na aba de “dados” do excel e clique na ferramenta de análise de dados. Para isso inicialmente, você terá de habilitar a ferramenta de “análise de dados” do excel. Após habilitar esta ferramenta, clique no ícone “análise de dados”. Figura 22: Icone “Análise de dados” da plataforma excel®. Fonte: Autor. Bioestatística52 Após selecionar o ícone, você deverá escolher a opção de análise de dados de “estatística descritiva”, conforme a figura abaixo: Figura 23: Estatística descritiva. Fonte: Autor. Fonte: Autor. Após a seleção da opção de estatística descritiva, você deverá selecionar o conjunto de dados de entrada (coluna), nova planilha e resumo estatístico, conforme abaixo. Figura 24: Seleção de dados da variável de interesse. Bioestatística 53 Fonte: Autor. Após selecionar o resumo estatístico, o conjunto de medidas de tendência central, dispersão e separatrizes. A partir do resumo estatístico obtido para variável “Tempo de residência em São Paulo em anos” você poderá melhor interpretar as variáveis de seu interesse e realizar os exercícios da unidade I. Você está preparado? Então vamos lá! Figura 25: Resumo estatístico: medidas descritivas. Bioestatística54 BIBLIOGRAFIA TRIOLA, M. F. Introdução à Estatística. 10. ed. Rio de Janeiro: LTC, 2011. 836p. SAMPAIO, I.B.M. Estatística aplicada à experimentação animal. Belo Horizonte: FEPMVZ, 2010. 264p. SHAHBABA, B. Biostatistics with R. New York: Springer,2012. 352p. SIQUEIRA, A. L.; TIBÚRCIO, J. D. Estatística na Área da Saúde: conceitos, metodologia, aplicações e prática computacional. Belo Horizonte: Coopmed, 2011. 520p. PAGANO, M.; GAUVREAU, K. Princípios de Bioestatística. 2. ed. São Paulo: Pioneira Thompson Learning, 2004. 522p. ZAR, J.H. Biostatistical analysis. New Jersey: Prentice- Hall.1984. 718p.
Compartilhar