Baixe o app para aproveitar ainda mais
Prévia do material em texto
BIOESTATÍSTICA AULA 2 Prof. Michael Pereira da Silva 2 CONVERSA INICIAL Os resultados de pesquisas científicas podem ser apresentados em diferentes formas, como em tabelas e gráficos, por exemplo. Para a apresentação desses dados, podemos nos utilizar da estatística descritiva, plor meio de média e desvio padrão, mediana e intervalos interquartílicos, distribuição de frequências, entre outros procedimentos. Nesta aula, vamos conversar sobre os mais comuns em estudos científicos. TEMA 1 – MEDIDAS DE FREQUÊNCIA Medidas de frequência ou distribuição de frequências fazem parte da estatística descritiva e nos remetem à quantidade de vezes que um dado se repete em determinada amostra, em que cada entrada na tabela e/ou gráfico representa a frequência ou contagem de ocorrências de valores dentro da amostra (Oliveira Filho, 2015). Pode ser descrita em frequência absoluta (f), acumulada (fa), relativa (fr) ou relativa acumulada (fra). Podemos apresentar os dados de distribuição de frequências em tabelas ou gráficos, a depender dos dados que estamos apresentando, das normas da revista em que está submetendo seu estudo, das normas da sua faculdade quando ao uso de tabelas e gráficos, ou simplesmente sobre a forma como melhor podemos descrever determinado conjunto de dados. 1.1 Frequência absoluta (f) A frequência absoluta (ou frequência simples) nada mais é do que a quantidade de vezes que determinada categoria ou valor aparece em sua tabela de dados (Kirkwood; Sterne, 2010). É comum em alguns artigos ser relatada como n, em substituição ao f. Observe a Tabela 1, que apresenta dados sobre o tipo sanguíneo de 841 pacientes. Tabela 1 – Distribuição de frequência absoluta para o tipo sanguíneo de 841 pacientes Tipo sanguíneo f A+ 127 A- 97 3 B+ 115 B- 103 AB+ 89 AB- 92 O+ 131 O- 87 Fonte: Silva, 2021. 1.2 Frequência acumulada (fa) A frequência acumulada é a soma da classe anterior com a classe atual e é muito útil para observamos quanto uma variável assume valor igual ou inferior a um determinado valor. A tabela 2 apresenta um exemplo de frequência absoluta e frequência acumulada, para uma amostra de tipos sanguíneos de 841 pacientes (Tabela 2). Tabela 2 – Distribuição de f e fa para o tipo sanguíneo em uma amostra de 841 pacientes Tipo sanguíneo f fa A+ 127 127 A- 97 127 + 97 = 224 B+ 115 224 + 115 = 339 B- 103 339 + 103 = 442 AB+ 89 442 + 89 = 531 AB- 92 531 + 92 = 623 O+ 131 623 + 131 = 754 O- 87 754 + 87 = 841 Fonte: Silva, 2021. 1.3 Frequência relativa (fr) Em alguns casos, precisamos de mais informações do que apenas a quantidade de vezes que uma categoria aparece em nosso conjunto de dados, então as porcentagens podem indicar informações relevantes (Oliveira Filho, 2015). Temos então a frequência relativa (fr), também chamada de frequência percentual em alguns trabalhos, que nada mais é do que a proporção ou 4 porcentagem das observações do conjunto de dados (Kirkwood; Sterne, 2010). Para se calcular a frequência relativa, temos duas possibilidades: podemos multiplicar a frequência absoluta por 100 e dividir esse resultado pela soma de todas as frequências absolutas de seu conjunto de dados (valor total). Ou também podemos calcular a razão entre a frequência absoluta e a soma de todas as frequências absolutas de seu conjunto de dados (valor total) (Quadro 1). Quadro 1 – Cálculo da frequência relativa Fonte: Silva, 2021. 1.4 Frequência relativa acumulada (fra) A frequência relativa acumulada também nos possibilita a visualização do número de vezes que uma variável apresenta valor igual ou inferior a um determinado valor. Para se obter a frequência relativa acumulada, a exemplo da frequência acumulada, basta somar a classe atual com a classe anterior. A Tabela 3 apresenta um exemplo para a frequência relativa e frequência relativa acumulada em uma amostra de 841 pacientes (Tabela 3). Tabela 3 – Distribuição de fr e fra para o tipo sanguíneo em uma amostra de 841 pacientes Tipo sanguíneo fr (%) fra (%) A+ 15,10 15,10 A- 11,53 15,10 + 11,53 = 26,63 B+ 13,67 26,63 + 11,53 = 38,16 B- 12,25 40,31 + 12,25 = 52,56 AB+ 10,58 52,56 + 10,58 = 63,14 AB- 10,94 63,14 + 10,94 = 74,08 O+ 15,58 74,08 + 15,58 = 89,66 O- 10,34 89,66 + 10,34 = 100,00 Fonte: Silva, 2021. (𝒇𝒂 × 𝟏𝟎𝟎) ÷ 𝑺𝒐𝒎𝒂 𝒅𝒆 𝒕𝒐𝒅𝒂𝒔 𝒂𝒔 𝒇𝒂 = 𝐟𝐫 ou (𝒇𝒂 ÷ 𝑺𝒐𝒎𝒂 𝒅𝒆 𝒕𝒐𝒅𝒂𝒔 𝒂𝒔 𝒇𝒂) × 𝟏𝟎𝟎 = 𝐟𝐫 5 TEMA 2 – MEDIDAS DE TENDÊNCIA CENTRAL Uma outra forma de apresentar os dados é por meio das medidas de tendência central, que é uma maneira de resumir os dados que possibilita observar um valor em torno do qual os dados tendem a se reunir ou se agrupar (Kirkwood; Sterne, 2010; Oliveira Filho, 2015; Rosner, 2016). Normalmente, são empregadas a média, a mediana ou a moda para a descrição dos dados, as quais podem nos orientar quanto a distribuição dos dados e possibilitar diferentes comparações, que, em linhas gerais, podem ser utilizadas de acordo com os pressupostos da Tabela 4, adaptada de Oliveira Filho (2015). Tabela 4 – Critérios para uso de medidas de tendência central Tipo de variável Medida de tendência central Média Mediana Moda Nominal Não Não Sim Ordinal Não Sim Sim Discreta Sim Sim, em caso de distribuição não paramétrica Sim Contínua Sim Não Fonte: Oliveira Filho, 2015. 2.1 Média Média é a soma das medidas, dividida pelo número de casos. Empregada quando se deseja uma medida de posição estável, ou quando há a necessidade de cálculos posteriores. Uma de suas características é sofrer grande influência de valores extremos (Field, 2009; Oliveira Filho, 2015) (Quadro 2). Quadro 2 – Cálculo da média Fonte: Silva, 2021. �̅� = 𝑿𝟏 + 𝑿𝟐 + ⋯ + 𝑿𝒏 𝒏 �̅� = 𝟐 + 𝟑 + 𝟒 𝟑 �̅� = 𝟑 6 Também não precisa ser um valor observado no conjunto de dados. Por exemplo, em um curso de graduação, observamos que as turmas do último período têm a respectiva quantidade de alunos: 25, 28, 23, 31 e 33. Calculando a média do número de alunos (25 + 28 + 23 + 31 + 33) / 5 = 27,8, ou seja, um valor diferente do contido nas observações. Digamos que você tenha coletado amostras sanguíneas de adultos de Curitiba e pretende comparar a quantidade de leucócitos com as tabelas de referência para obter informações sobre o sistema imunológico desses munícipes. Consultando tabelas de referência, você observou que os leucócitos devem estar entre 4000 e 11000 / µL. Obviamente, você irá utilizar a média da sua amostra para comparar com os valores de referência. Digamos que a média de leucócitos totais observada em sua amostra seja de 7890 / µL, então observando a tabela de referência, você chega à conclusão de que a amostra observada encontra dentro dos padrões de normalidade para os leucócitos totais. 2.2 Mediana Mediana é o valor que se encontra na posição central do conjunto de dados, ou seja, divide sua distribuição ao meio, em que uma metade das observações é igual ou menor do que o valor mediano e a outra metade é maior ou igual ao valor mediano (Oliveira Filho, 2015). Ela pode ser empregada quando há valores extremos que possam afetar de modo acentuado a média, quando representa melhor a variável do estudo, ainda em caso de uma análise de dados não paramétricos. Alguns estudos a descrevem com o percentil 50 (Quadro 3). Quadro 3 – Cálculo da mediana Fonte: Silva, 2021. Para calcular a mediana de seu conjunto de dados, lembre-se de primeiramente ordenar os dados (de forma crescente ou decrescente) e depois aplicar a equação abaixo (Quadro 4). 7 Quadro 4 – Etapas do cálculo da mediana em conjunto com número ímpar de observações Fonte: Silva, 2021. No exemplo acima, trabalhamos com um conjunto de dados com número ímpar de observações. Caso o conjunto de dados apresenteum número par de observações, você pode tirar a média dos valores centrais, como apresentado a seguir (Quadro 5): Quadro 5 – Etapas do cálculo da mediana em conjunto com número par de observações Fonte: Silva, 2021. Digamos que na sua turma, as notas da última avaliação foram: 34, 42, 44, 49, 51, 58, 60, 62, 65, 67, 70, 75, 77, 82, 85, 88, 90, 92, 95, 97 e 100. Encontramos a mediana 70. Considerando que a média para a aprovação na disciplina é de 70 pontos, observamos que 50% da turma já atingiu a nota mínima para a aprovação na disciplina. 8 2.3 Moda Moda é a categoria ou valor que mais se repete em um conjunto de dados, podendo inclusive ter mais de uma moda no conjunto de dados (Oliveira Filho, 2015). O exemplo abaixo traz as etapas para encontrar a moda em um conjunto de dados (Quadro 6). Quadro 6 – Etapas da identificação da moda Fonte: Silva, 2021. Agora, você deve estar atento para conjuntos de dados que possam apresentar mais do que uma moda, por exemplo: a. duas modas = bimodal; b. três ou mais modas = multimodal. Vamos imaginar que você está acompanhando a evolução in vitro de algumas bactérias e, percebeu que elas atingiam determinado estágio em 24, 22, 18, 20, 24, 21, 26, 25, 17, 18, 24, 26, 27 e 30 dias respectivamente. Observando o valor modal, percebemos que a maioria das bactérias leva 24 dias para se desenvolverem nas condições as quais você as submeteu. TEMA 3 – MEDIDAS DE DISPERSÃO Como vimos anteriormente, as medidas de tendência central nos dão uma clara ideia do ponto em torno do qual os dados se distribuem (Kirkwood; Sterne, 2010; Oliveira Filho, 2015; Rosner, 2016). 9 Entretanto, apenas conhecer a posição dos dados não é o suficiente para uma correta interpretação. Assim, temos as medidas de dispersão ou variabilidade, que nos permitem ter uma ideia da propagação dos dados (Rosner, 2016). Imagine que temos os dados de cinco aferições da pressão arterial sistólica de cinco diferentes pacientes e, a média da pressão arterial de todos é igual a 120 mmhg. Logo, deduzimos que está tudo bem com todos, afinal a média do grupo encontrasse dentro dos padrões de normalidade. Porém, se observarmos a dispersão entre cada avaliação, podemos perceber que alguns sujeitos talvez precisem de uma atenção especial (Tabela 5 e Gráfico 2). Tabela 5 – Medidas de pressão arterial sistólica de pacientes em cinco diferentes momentos Paciente Avaliação 1 2 3 4 5 Média A 122 120 119 120 121 120 B 135 105 130 110 120 120 C 120 120 120 120 120 120 D 115 118 116 125 124 120 E 137 105 134 102 120 120 Fonte: Silva, 2021. Figura 1 – Gráfico de dispersão – pressão arterial sistólica de pacientes em cinco diferentes momentos Fonte: Silva, 2021. 0 20 40 60 80 100 120 140 160 0 1 2 3 4 5 6 P re ss ão a rt er ia l s is tó lic a (m m H g) Avaliação A B C D E 10 Ou seja, conhecer apenas as medidas de posição não é o suficiente, pois não sabemos sobre como a pressão arterial destes sujeitos está variando ao longo do dia. 3.1 Amplitude Amplitude é uma medida simples de dispersão e com limitadas informações. Calculada com base na diferença entre o maior e o menor valor de um conjunto de dados (Barros et al., 2012; Rosner, 2016). Considerando o gráfico abaixo, temos o seguinte conjunto de dados = 1,1,2,2,2,3,4,5,5,6,8,26,35. Para calcular a amplitude destes dados basta então calcular a diferença entre o maior e o menor valor (Quadro 7). Quadro 7 – Etapas do cálculo da amplitude Fonte: Silva, 2021. Como mencionamos anteriormente, a amplitude nos fornece limitadas informações. Essa medida não é afetada pela assimetria dos dados, no entanto é sensível à adição ou remoção de valores discrepantes (Oliveira Filho, 2015). Um exemplo do uso da amplitude com o qual nos deparamos diariamente é em relação à temperatura. Quando a previsão do tempo apresenta a temperatura estimada para o dia, também informa a amplitude, por exemplo, a temperatura prevista para amanhã será de 15 °C, com mínima de 9 °C e máxima de 18 °C. Diante disso, sabemos que a amplitude térmica daquele dia será de 9 °C. 3.2 Variância A variância (s2) nos apresenta a média dos quadrados dos desvios. O desvio representa a diferença entre cada valor observado no conjunto de dados e a média de todas as observações (Barros, et al., 2012). Logo, a variância é o quadrado da unidade de medida da variável, por exemplo, se a variável de interesse for a pressão arterial, a variância terá como unidade mmhg2. 𝐴 = 35 − 1 𝐴 = 34 11 Para ficar mais claro, acompanhe a Tabela 6, na qual temos uma amostra da pressão arterial sistólica de 18 sujeitos. Primeiramente calculamos a média do grupo (�̅� = 122,50 mmhg). Depois, calculamos o desvio de cada observação em relação à média, por fim, calculamos a média dos desvios ao quadrado e chegamos à variância (s2 = 74,47 mmhg2) (Tabela 6). Tabela 6 – Cálculo da variância PRESSÃO ARTERIAL SISTÓLICA Desvio Desvio2 120 120 – 122,50 = - 2,50 (-2,50)2 = 6,25 122 120 – 122,50 = -0,50 (-0,50)2 = 0,25 135 135 – 122,50 = 12,50 (12,50)2 = 156,25 119 119 – 122,50 = -3,50 (-3,50)2 = 12,25 117 117 – 122,50 = -5,50 (-5,50)2 = 30,25 125 125 – 122,50 = 2,50 (2,50)2 = 6,25 145 145 – 122,50 = 22,50 (22,50)2 = 506,25 110 110 – 122,50 = -12,50 (-12,50)2 = 156,25 109 109 – 122,50 = -13,50 (-13,50)2 = 182,25 112 112 – 122,50 = -10,50 (-10,50)2 = 110,25 120 120 – 122,50 = -2,50 (-2,50)2 = 6,25 120 120 – 122,50 = -2,50 (-2,50)2 = 6,25 120 120 – 122,50 = -2,50 (-2,50)2 = 6,25 121 121 – 122,50 = -1,50 (-1,50)2 = 2,25 122 122 – 122,50 = -0,50 (-0,50)2 = 0,25 132 132 – 122,50 = 9,50 (9,50)2 = 90,25 129 129 – 122,50 = 6,50 (6,50)2 = 42,25 127 127 – 122,50 = 4,50 (4,50)2 = 20,25 VARIÂNCIA (S2) = 74,47 MMHG2 Fonte: Silva, 2021. 3.3 Desvio padrão Vimos anteriormente que a variância apresenta uma unidade diferente da medida nos dados, o que compromete sua utilidade ao representar a dispersão dos dados. Com isso, podemos usar o desvio padrão (s ou dp), que é calculado com base na raiz quadrada da variância. O desvio padrão apresenta a dispersão dos valores do conjunto de dados, na mesma medida dos dados originais. Atente para que, quanto maior o desvio padrão, maior é a variabilidade entre as observações, indicando dados heterogêneos, enquanto um menor desvio padrão indica uma menor variabilidade, consequentemente dados mais homogêneos. A Tabela 7 apresenta a média, a variância e o desvio padrão do conjunto de dados (Tabela 7). 12 Tabela 7 – Cálculo do desvio padrão (DP) Média 122,50 Variância 74,47 DP √74,47 = 8,63 Fonte: Silva, 2021. Considere que em duas diferentes cidades as crianças apresentam médias de peso corporal de 24 Kg. Porém, uma das cidades apresenta poucas crianças obesas e desnutridas, mas possui média de 24 kg. A outra cidade apresenta muitas crianças obesas e desnutridas, mas ainda com média de 24 kg. Assim, apenas a média não apresenta informações suficientes sobre a real situação das crianças. Então com o desvio padrão poderemos ter uma melhor indicação sobre a variabilidade entre as crianças das duas cidades. TEMA 4 – MEDIDAS DE SEPARATRIZES Medidas de separatrizes ocupam posições abrangendo intervalos iguais dentro do conjunto de dados. De acordo com a quantidade de partes que o conjunto de dados está dividido, há uma mudança no nome da medida, podendo ser mediana, quartis, decis e percentis, que utilizamos para dividir o conjunto de dados em partes iguais (com o mesmo número de elementos da série) e muitas vezes com o objetivo de classificarmos as observações de acordo com sua posição no conjunto de dados. Imaginem em uma avaliação de desempenho acadêmico voltada ao ingresso na faculdade na qual um determinado concorrente atinge a nota 550 e recebe como resultado queessa nota foi superior a 65% dos participantes. Para esse resultado foi utilizado uma medida separatriz que posiciona o valor individual do participante em relação aos valores de todos os participantes dessa avaliação. Vamos discutir um pouco mais sobre essas medidas a seguir. 4.1 Quartis Os quartis dividem o conjunto de dados em quatro partes iguais, de modo que cada intervalo tenha 25% dos elementos. Então o primeiro quartil ou quartil inferior (Q1) contempla os 25% menores valores do conjunto de dados e, consequentemente 75% das observações são maiores do que a do Qi. Também 13 é interessante notar que o segundo quartil (Q2), que equivale a 50% das observações, é exatamente o mesmo que a mediana. Por fim, o terceiro quartil ou quartil superior (Q3) delimita os 25% maiores valores das observações, consequentemente maiores do que 75% dos valores do conjunto de dados (Figura 2). Figura 2 – Conjunto de dados dividido em quartis. Fonte: Silva, 2021. Para calcular os quartis, você primeiramente deve ordenar o seu conjunto de dados e, posteriormente encontrar a mediana desse conjunto. Depois, calcular a mediana de cada metade do conjunto de dados, para encontrar respectivamente o Q1 e Q2 (Figura 3). Figura 3 – Cálculo dos quartis Fonte: Silva, 2021. 4.2 Decis Decis é a divisão do conjunto de dados em dez partes iguais, com o mesmo número de observações, assim cada intervalo terá 10% dos elementos coletados. Então, o primeiro decil separa os primeiros 10% das observações, o segundo decil separa 20% das observações, e assim sucessivamente (Figura 4). 14 Figura 4 – Conjunto de dados divididos em decis Fonte: Silva, 2021. 4.3 Centis O centil é a divisão do conjunto de dados em cem partes iguais, organizado em forma crescente. Assim, o primeiro centil corresponde a 1% dos dados; o décimo percentil representa 10% dos dados e também é o primeiro decil. O percentil 50 representa 50% dos dados e também é a mediana; o percentil 98 representa 98% dos dados, por exemplo. Um bom exemplo da utilização dos percentis são as curvas de crescimento. A curva abaixo (Figura 5) mostra o crescimento em estatura de meninos até 5 anos onde, por exemplo, um menino que se encontre no percentil 15, tem 85% das crianças de mesma idade mais altas do que ele. Figura 5 – Curvas de crescimento para meninos do nascimento aos 5 anos de idade Fonte: Organização Mundial da Saúde, S.d. Para o cálculo dos centis, do P1 ao P99, basta seguir a seguinte fórmula: 15 Quadro 8 – Cálculo do percentil Fonte: Silva, 2021. Figura 6 – Cálculo do percentil de 124 Fonte: Silva, 2021. TEMA 5 – APRESENTAÇÃO GRÁFICA DOS DADOS Algumas vezes as tabelas podem dificultar a interpretação dos dados, por exemplo, em caso de muitos valores a serem descritos. Um suplemento as tabelas ou ainda uma alternativa a estas podem ser os gráficos, que tem como propósito dar uma rápida e geral impressão (Rosner, 2016). 5.1 Gráfico de barras Os gráficos de barras são um dos mais utilizados para apresentar dados agrupados (categóricos). Para cada grupo ou caso, é construída uma coluna, de igual espessura, mas com altura proporcional a frequência deste caso (Rosner, 2016). Normalmente apresenta as frequências no eixo vertical e as categorias na horizontal, também pode apresentar barras agrupadas e empilhadas. Mas existe também a possibilidade de utilizar gráficos de barras para dados contínuos, através de histogramas (Oliveira Filho, 2015). 𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 𝑥 = (𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑚𝑒𝑛𝑜𝑟𝑒𝑠 𝑞𝑢𝑒 𝑥 × 100) ÷ 𝑛ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 16 Figura 7 – Gráfico de barras Fonte: Silva, 2021. Figura 8 – Gráfico de barras agrupadas Fonte: Silva, 2021. Figura 9 – Gráfico de barras empilhadas Fonte: Silva, 2021. 0 5 10 15 20 Tipo sanguíneo fr ( % ) Gráfico de barras A+ A- B+ B- AB+ AB- O+ O- 0 5 10 15 20 25 ≤ 120 > 120 fr ( % ) Gráficos de barras agrupadas 20 a 25 anos 26 a 30 anos 31 a 36 anos 0 10 20 30 40 50 60 ≤ 120 > 120 fr ( % ) Gráfico de barras empilhadas 20 a 25 anos 26 a 30 anos 31 a 36 anos 17 Figura 10 – Gráfico de histograma Fonte: Silva, 2021. 5.2 Gráficos de setor (pizza) Neste tipo de gráfico, cada setor (fatia da pizza), deve ser proporcional a frequência da categoria que representa. Como desvantagem, o gráfico de pizza só pode representar uma variável por vez. Esse gráfico também é pouco utilizado pela literatura científica, sendo muito mais abordado para os negócios (Oliveira Filho, 2015). Figura 11 – Gráfico de setor (pizza) Fonte: Silva, 2021. 18 Figura 7: Gráfico de barras. Fonte: Silva,2021 Figura 8: Gráfico de barras agrupadas. Fonte: Silva,2021 Figura 9: Gráfico de barras empilhadas. Fonte: Silva,2021 0 5 10 15 20 25 ≤ 120 > 120 fr ( % ) Gráficos de barras agrupadas 20 a 25 anos 26 a 30 anos 31 a 36 anos 0 10 20 30 40 50 60 ≤ 120 > 120 fr ( % ) Gráfico de barras empilhadas 20 a 25 anos 26 a 30 anos 31 a 36 anos 18 Figura 7: Gráfico de barras. Fonte: Silva,2021 Figura 8: Gráfico de barras agrupadas. Fonte: Silva,2021 Figura 9: Gráfico de barras empilhadas. Fonte: Silva,2021 0 5 10 15 20 25 ≤ 120 > 120 fr ( % ) Gráficos de barras agrupadas 20 a 25 anos 26 a 30 anos 31 a 36 anos 0 10 20 30 40 50 60 ≤ 120 > 120 fr ( % ) Gráfico de barras empilhadas 20 a 25 anos 26 a 30 anos 31 a 36 anos Commented [NGDPMW5]: Prof, poderia apenas colocar por extenso a categoria do eixo X, indicando a unidade de medida, por favor? F re q u ê n c ia a b s o lu ta Pressão Arterial Sistólica (mmHg) 15,10 11,53 13,67 12,25 10,58 10,94 15,58 10,34 Gráfico de setor (pizza) A+ A- B+ B- AB+ AB- O+ O- 18 5.3 Gráficos de linhas Os gráficos de linha podem nos ajudar a observar a oscilação que determinada variável sofre ao longo de um período, por exemplo. É muito útil para observar, por exemplo, a frequência cumulativa para uma variável (Oliveira Filho, 2015). Figura 12 – Gráfico de linhas da incidência de dengue em Jacarezinho-PR Fonte: Silva, 2021. 5.3 Gráficos de dispersão O gráfico de dispersão possibilita observar a posição de cada observação do conjunto de dados, em relação a duas variáveis. Em nosso exemplo, a pressão arterial sistólica em relação à idade dos sujeitos. Figura 13 – Gráfico de dispersão Fonte: Silva, 2021. 0 2 4 6 8 10 12 14 16 18 20 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 fr ( % ) Gráfico de linhas Incidência de casos de dengue em um município do interior do Paraná 0 10 20 30 40 50 100 110 120 130 140 150 Gráfico de dispersão 19 NA PRÁTICA Cuidado ao utilizar a média para representar a tendência central, afinal valores muito baixos ou muito altos podem causar desvios na média. Veja o exemplo a seguir: Ao coletarmos dados de sobrevivência (em horas) in vitro de 5 cepas de um determinado tipo de vírus (vírus X) em resposta à administração de um determinado antiviral, verificamos os seguintes valores para o primeiro dia de experimento: Tabela 8 – Sobrevivência em horas do vírus X após a administração da droga antiviral Y – dia 1 Cepas (vírus) Sobrevivência em horas 1 4 2 3 3 12 4 10 5 8 Nesse primeiro dia de experimento foi possível verificar que a média de sobrevivência do vírus X foi de 7,4 horas. No segundo dia de experimento, as cepas foram submetidas novamente ao contato com a droga antiviral e verificamos os seguintes resultados: Tabela 9 – Sobrevivência em horas do vírus X após a administração da droga antiviral Y – dia 2 Cepas (vírus) Sobrevivência em horas 1 4 2 3 3 120 4 10 5 8 Ao calcularmos a média de sobrevivência no segundo dia, temos um valor de 29,0horas. Muito diferente dos valores de média do dia anterior e muito distante até da maioria dos valores observados na própria amostra no dia 2. 20 Percebam que a cepa n. 3 apresentou 120 horas de sobrevivência e gerou essa discrepância na média. Nesse caso, a média não é o melhor indicador de tendência central desses dados bem como, seria interessante investigar o motivo da cepa n. 3 ter essa discrepância em relação ao dia anterior e até mesmo em relação às demais cepas testadas no dia 2. FINALIZANDO Vimos que é possível apresentar os dados de uma pesquisa de diferentes formas, de acordo com o tipo de dados que temos, se categóricos ou contínuos, podendo usar tabelas ou gráficos para representar medidas de posição e tendência central por exemplo. Além das medidas de dispersão, estes são essenciais para a interpretação dos resultados. Também temos as medidas de separatrizes, que dividem os dados em partes iguais dentro de um conjunto. 21 REFERÊNCIAS BARROS, M. V. G. et al. Análise de dados em saúde. 3. ed. Londrina: PR: Midiograf, 2012. FIELD, A. Descobrindo a estatistica usando o SPSS. Porto Alegre: Artmed, 2009. KIRKWOOD, B. R.; STERNE, J. A. Essential medical statistics. New York: John Wiley & Sons, 2010. OLIVEIRA FILHO, P. F. Epidemiologia e bioestatística: fundamentos para a leitura crítica. Rio de Janeiro: Rubio, 2015. ROSNER, B. Fundamentals of Biostatistics. 8. ed. Boston: Cengage Learning, 2016.
Compartilhar