Baixe o app para aproveitar ainda mais
Prévia do material em texto
ORGANIZAÇÃO E APRESENTAÇÃO DE DADOS PROF. CRISPIM INTRODUÇÃO Os dados obtidos dos pacientes participantes de estudos médicos devem ser analisados e interpretados com o auxílio de métodos estatísticos. A primeira etapa é organização e síntese dos dados = análise descritiva. Consiste na organização e descrição dos dados, identificação de valores que traduzem o elemento típico e na quantificação da variabilidade presente nos dados. Obs.: Uso de gráficos, tabelas e medidas ou sínteses numéricas. Essa análise ajuda com: familiarização com os dados, detecção de estruturas interessantes e de valores atípicos nos dados. VARIÁVEL Introdução É a quantificação ou a categorização da característica de interesse do estudo. Pode ser: idade, tamanho da família, renda familiar, estado civil. Em alguns casos, não fica exatamente claro como quantificar certas variáveis, como dispneia, dor ou o estado geral do paciente. Por isso, é preciso padronizar os procedimentos de avaliação, utilizando escalas específicas pré-definidas. Variável resposta é aquela a ser explicada no estudo, e variável controle (ou covariável) é aquela (ou aquelas) outras variáveis que devem ser consideradas na análise. Tipos de variáveis As variáveis podem ser de dois tipos: categóricas ou quantitaitivas. As VARIÁVEIS CATEGÓRICAS normalmente não são variáveis passíveis de contagem ou numeração, podendo ter 2 ou mais categorias. Essas variáveis podem ser do tipo: (1) nominal, quando não há ordem entre as classes (ex.: sexo); e (2) ordinal, quando há ordem (ex.: estadiamento de uma doença). Obs.: frequentemente os dados são reduzidos a 2 categorias; isso simplifica a análise, porém pode resultar em perda de informação. As VARIÁVEIS QUANTITATIVAS são variáveis passíveis de contagem ou enumeração. Essas variáveis podem ser do tipo: (1) discreta, em que os valores diferem entre si por uma quantidade fixa, sendo geralmente o resultado de contagens (ex.: tamanho da família); e (2) contínua, que são variáveis normalmente medidas (por aparelhos) e não são resultado de contagens, podendo o valor entre um indivíduo e outro se diferem por um valor intermediário (ex.: pressão arterial). Obs.: algumas variáveis podem ser de mais de um tipo, principalmente dependendo de como é feita a análise dessa variável. Idade pode ser uma variável contínua (tempo é contínuo) mas também discreta, pois a idade é uma contagem. Além disso, podemos ter que a renda medida em salários mínimos pode ser quantitativa discreta (ex.: 4 salários mínimos) ou categórica ordinal, caso consideremos que essa renda pode ser baixa, média ou alta. DADOS BRUTOS Os dados brutos são aqueles obtidos diretamente da pesquisa, ainda não tendo sido sujeitos a qualquer processo de síntese ou análise. Esses dados normalmente não conseguem transmitir de forma clara e/ou organizada os resultados obtidos pelo estudo, mostrando apenas valores referentes a cada um dos indivíduos envolvidos. Quando há valores com grande discrepância, é necessário que o padrão de referência procurado seja expresso por uma faixa e não por um único número. Já quando há muitos valores, mesmo que menos discrepantes, é muito difícil saber o valor em torno de qual as medidas estão agrupadas, a forma de distribuição e a extensão real da variabilidade. Os dados brutos também ficam muito difíceis de serem apresentados quando há um grande número de variáveis, tanto pela necessidade grande espaço quanto pela confusão causada pela quantidade grande de valores. TABELAS E GRÁFICOS As tabelas e gráficos são utilizados para organização e apresentação de dados. Esses recursos permitem uma apresentação de forma clara e compreensível, mostrando-se uma variável ou o cruzamento entre variáveis. Essas apresentações de dados exigem certo grau de capacidade interpretativa, bem como o seguimento de normas para sua confecção. A representação gráfica para variáveis categóricas é o gráfico de barras. Já para variáveis quantitativas contínuas costuma-se utilizar um histograma, sendo que faz-se uma tabela de frequência (pontuado no próximo item) antes para facilitação. A partir do histograma pode-se construir o polígono de frequências, que consiste em unir através de segmentos de reta as ordenadas correspondentes aos pontos médios de cada classe. O histograma e o histograma servem para visualizar a forma da distribuição da variável estudada. Para variáveis quantitativas contínuas também pode-se utilizar a ogiva, que é um gráfico de frequências acumuladas (usualmente relativas). Para construí-la, coloca-se no eixo horizontal os intervalos de classe nos quais a variável em estudo foi dividida e para cada limite de intervalo assinala-se no eixo vertical a sua porcentagem acumulada. Em seguida, os pontos marcados são ligados por segmentos de reta. Através da ogiva, pode-se estimar percentis de distribuição, podendo-se, por exemplo, estimar a mediana. Obs.: a ogiva é, na realidade, uma poligonal ascendente. A representação gráfica de dados temporais pode ser por gráfico em barras, embora o gráfico de linhas seja mais apropriado. No gráfico de linhas, a escala temporal é colocada no eixo horizontal e a variável a ser estudada no eixo vertical. Os pontos são unidos por segmentos de reta. Boxplot O boxplot (gráfico em caixas) é um tipo de gráfico muito útil para a descrição de dados, visualização de sua variabilidade e comparação entre diferentes grupos. Para a construção do boxplot obtêm-se primeiro as seguintes estatísticas: 1º quartil (Q1), mediana (Q2), 3º quartil (Q3) e a distância interquartílica (DQ), definida como DQ = Q3 - Q1. ETAPA 1. Numa reta são marcados o 1º quartil, a mediana e o 3º quartil. ETAPA 2. Acima dessa reta, constrói-se um retângulo com limites iguais às posições do primeiro e terceiro quartis, cortado por um segmento de reta na posição relativa à mediana. ETAPA 3. A partir dos limites do retângulo, traçam-se linhas até (a) encontrar um extremo (valor máximo ou mínimo) ou; (b) um valor correspondente a 1,5 DQ, se o extremo correspondente estiver a mais de 1,5 DQ do quartil respectivo. Obs.: os pontos que estão a mais de 1,5 DQ do quartil correspondente até 3 DQ são chamados pontos externos e os que estão a mais de 3 DQ, pontos soltos. Se na determinação do Q1 a posição corresponder a um número não-inteiro, é importante lembrar que ele deve seguir 2 critérios: (1) pelo menos 25% das observações abaixo dele; (2) pelo menos 75% das observações. Assim, faz-se a média entreos dois valores encontrados. Observações atípicas (outliers) Os outliers são observações atípicas, ou seja, são valores muito grandes ou muito pequenos em relação aos demais que aparecem entre os dados coletados. Esses valores podem distorcer as conclusões obtidas com o estudo e prejudicar a noção dos valores em cálculos. Os outliers podem aparecer por diversas causas: ● Leitura, anotação ou transcrição incorreta dos dados ● Erro na execução do experimento ou na tomada da medida ● Mudanças não controláveis nas condições experimentais ou dos pacientes ● Característica inerente À variável (ex.: instabilidade) As medidas a serem tomadas a partir da observação de um outlier: ● Abandonar: quando a observação é incorreta ou houve erro no experimento ou medida. ● Conservar: quando reflete uma característica do que está sendo estudado. Tratar com técnicas estatísticas especiais. TABELAS DE FREQUÊNCIA A tabela de frequência é uma maneira de sintetizar os dados que consiste na construção de uma tabela a partir dos dados brutos que leva em conta a frequência com que cada observação ocorre. É possível utilizar a frequência absoluta (número inteiro de vezes em que tal observação foi feita) e/ou a frequência relativa, em que considera-se a relação da frequência dessa observação com as outras. É possível, também, a construção de tabelas que que utilizam dados agrupados para determinar as frequências, quando são muitos valores diferentes e deseja-se criar classes. Ex.: Idades dos habitantes de uma rua de Vitória-ES que foram infectados com Covid-19 IDADES FREQUÊNCIA ABSOLUTA FREQUÊNCIA RELATIVA 0|---15 22 11 15|---30 76 38 30|---45 51 25,5 45|---60 31 15,5 >60 20 10 TOTAL 200 100 Obs.: |--- = exclui-se o elemento superior e inclui-se o inferior. Obs2.: Observe que a amplitude é a mesma. Construção de tabelas com dados agrupados ETAPA 1. Encontrar o menor e maior valores dentro do conjunto de dados. ETAPA 2. Escolher um número de classes, preferencialmente de igual tamanho (amplitude), que englobe todos os dados, sem superposição. Os extremos dos intervalos são conhecidos como limite de classes. ETAPA 3. Contar o número de elementos que pertencem a cada classe; esse número é denominado frequência absoluta, usualmente denotado por n. ETAPA 4. Determinar a frequência relativa de cada classe, dividindo a frequência da classe pelo número total de observações. Apesar de não existirem normas fixas para a construção dessas tabelas, algumas regras são normalmente seguidas para melhor construção: ● O número de classes deve variar de 5 a 15. ● O número de classes fixado como √n ou 1 + log2n para um tamanho de amostra n é um número razoável. ● O tamanho de cada classe é escolhido como o quociente entre a amplitude do conjunto e o número de classes escolhido. Este valor pode ser modificado de forma a facilitar a construção e interpretação da tabela. ● O limite inferior da primeira classe deve ser um pouco menor que a menor observação. ● O limite superior da última classe deve ser um pouco maior que a maior observação. MEDIDAS DE TENDÊNCIA CENTRAL As medidas de tendência central sintetizam o conjunto de dados em um único número, que represente bem a distribuição da variável de interesse. No caso de uma distribuição simétrica esse elemento é a média aritmética. Caso seja assimétrica, utiliza-se a mediana. Média Apesar de existirem vários tipos (aritmética, ponderada, geométrica), foca-se na aritmética. A média é interpretada como o ponto de equilíbrio do conjunto, consistindo no quociente entre a soma dos valores do conjunto e o número n de valores que existem nesse conjunto. A soma dos n valores x dividido pela quantidade de valores n é igual a média desses valores x. Mediana A mediana é, por definição, um valor que divide a distribuição ao meio: 50% das observações ficam acima da mediana e 50% ficam abaixo. Para obtê-la, ordena-se a amostra para que se localize a posição da mediana. Em amostras ímpares, a mediana é o valor encontrado na posição n+1/2 da ordem e em amostras pares a mediana é a média entre os valores das posições n/2 e n+2/2 da ordem. MEDIDAS DE VARIABILIDADE As medidas de variabilidade permite conhecer o grau de agregação, definindo e usando medidas medidas de dispersão de dados. Isso é importante pois permite descrever melhor os valores envolvidos no estudo, a medida que as medidas de tendência central sozinhas não se fazem suficientes. Variância A variância é uma medida da variabilidade dos dados em torno da média. Essa medida de dispersão permite o cálculo matemático de quão grande é variabilidade presente nos dados, analisando a relação desses desvios com a média. Tem-se que a variância é a média dos desvios ao quadrado das observações. Ou seja, calcula-se a média e eleva-se a distância de cada valor presente em relação a ela ao quadrado dividido pelo número de valores do conjunto (pode denotar-se n-1). Desvio-padrão A desvio-padrão é, por definição, uma medida de dispersão que avalia os desvios das observações na mesma unidade dessas observações, sendo obtido tirando-se a raiz quadrada da variância. Coeficiente de variação É um índice relativo de dispersão que compara o desvio-padrão com a média. O CV é um número adimensional, calculado pelo quociente entre o desvio-padrão (s) e a média (x).
Compartilhar