Buscar

[RESUMO] ORGANIZAÇÃO E APRESENTAÇÃO DE DADOS

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

ORGANIZAÇÃO E APRESENTAÇÃO DE DADOS  
PROF. CRISPIM 
 
INTRODUÇÃO 
 
Os dados obtidos dos pacientes participantes de estudos médicos devem ser ​analisados e                         
interpretados​ com o auxílio de métodos estatísticos. 
 
A primeira etapa é organização e síntese dos dados = ​análise descritiva​. Consiste na organização e                               
descrição dos dados, identificação de valores que traduzem o elemento típico e na quantificação da                             
variabilidade presente nos dados. 
 
Obs.:​ Uso de gráficos, tabelas e medidas ou sínteses numéricas. 
 
Essa análise ajuda com: familiarização com os dados, detecção de estruturas interessantes e de                           
valores atípicos nos dados. 
 
 
 
VARIÁVEL 
 
Introdução 
 
É a ​quantificação ou a categorização da característica de interesse do estudo. Pode ser: idade,                             
tamanho da família, renda familiar, estado civil. 
 
Em alguns casos, não fica exatamente claro como quantificar certas variáveis, como dispneia, dor ou                             
o estado geral do paciente. Por isso, é preciso padronizar os procedimentos de avaliação, utilizando                             
escalas específicas pré-definidas. 
 
Variável resposta é aquela a ser explicada no estudo, e ​variável controle (ou covariável) é aquela (ou                                 
aquelas) outras variáveis que devem ser consideradas na análise. 
 
Tipos de variáveis 
 
As variáveis podem ser de dois tipos: categóricas ou quantitaitivas. As ​VARIÁVEIS CATEGÓRICAS                         
normalmente não são variáveis passíveis de contagem ou numeração, podendo ter 2 ou mais                           
categorias. Essas variáveis podem ser do tipo: (1) ​nominal​, quando não há ordem entre as classes                               
(ex.: sexo); e (2) ​ordinal​, quando há ordem (ex.: estadiamento de uma doença). 
 
Obs.: frequentemente os dados são reduzidos a 2 categorias; isso simplifica a análise, porém pode                             
resultar em perda de informação. 
 
 
As ​VARIÁVEIS QUANTITATIVAS são variáveis passíveis de contagem ou enumeração. Essas                     
variáveis podem ser do tipo: (1) ​discreta​, em que os valores diferem entre si por uma quantidade                                 
fixa, sendo geralmente o resultado de contagens (ex.: tamanho da família); e (2) ​contínua​, que são                               
variáveis normalmente medidas (por aparelhos) e não são resultado de 
contagens, podendo o valor entre um indivíduo e outro se diferem por um valor intermediário (ex.:                               
pressão arterial). 
 
Obs.: algumas variáveis podem ser de mais de um tipo, principalmente dependendo de como é feita a                                 
análise dessa variável. Idade pode ser uma variável contínua (tempo é contínuo) mas também                           
discreta, pois a idade é uma contagem. Além disso, podemos ter que a renda medida em salários                                 
mínimos pode ser quantitativa discreta (ex.: 4 salários mínimos) ou categórica ordinal, caso                         
consideremos que essa renda pode ser baixa, média ou alta. 
 
 
 
DADOS BRUTOS 
 
Os ​dados brutos são aqueles obtidos diretamente da pesquisa, ainda não tendo sido sujeitos a                             
qualquer processo de síntese ou análise. Esses dados normalmente não conseguem transmitir de                         
forma clara e/ou organizada os resultados obtidos pelo estudo, mostrando apenas valores referentes                         
a cada um dos indivíduos envolvidos. 
 
Quando há valores com grande discrepância, é necessário que o padrão de referência procurado seja                             
expresso por uma faixa e não por um único número. Já quando há muitos valores, mesmo que                                 
menos discrepantes, é muito difícil saber o valor em torno de qual as medidas estão agrupadas, a                                 
forma de distribuição e a extensão real da variabilidade. 
Os dados brutos também ficam muito difíceis de serem apresentados quando há um grande número                             
de variáveis, tanto pela necessidade grande espaço quanto pela confusão causada pela quantidade                         
grande de valores. 
 
 
 
TABELAS E GRÁFICOS 
 
As ​tabelas e gráficos são utilizados para organização e apresentação de dados. Esses recursos                           
permitem uma apresentação de forma clara e compreensível, mostrando-se uma variável ou o                         
cruzamento entre variáveis. 
 
Essas apresentações de dados exigem certo grau de capacidade interpretativa, bem como o                         
seguimento de normas para sua confecção. 
 
A representação gráfica para variáveis categóricas é o ​gráfico de barras​. Já para variáveis                           
quantitativas contínuas costuma-se utilizar um ​histograma​, sendo que faz-se uma tabela de                       
frequência (pontuado no próximo item) antes para facilitação. 
 
 
A partir do histograma pode-se construir o ​polígono de                 
frequências​, que consiste em unir através de segmentos               
de reta as ordenadas correspondentes aos pontos médios               
de cada classe. O histograma e o histograma servem para                   
visualizar a forma da distribuição da variável estudada. 
 
Para variáveis quantitativas contínuas também pode-se           
utilizar a ​ogiva​, que é um gráfico de frequências                 
acumuladas (usualmente relativas). Para construí-la,         
coloca-se no eixo horizontal os intervalos de classe nos                 
quais a variável em estudo foi dividida e para cada limite                     
de intervalo assinala-se no eixo vertical a sua               
porcentagem acumulada. Em seguida, os pontos           
marcados são ligados por segmentos de reta. Através da                 
ogiva, pode-se estimar percentis de distribuição,           
podendo-se, por exemplo, estimar a mediana. 
 
Obs.: a ogiva é, na realidade, uma poligonal ascendente. 
 
A ​representação gráfica de dados temporais pode ser por                 
gráfico em barras, embora o gráfico de linhas seja mais                   
apropriado. No gráfico de linhas, a escala temporal é                 
colocada no eixo horizontal e a variável a ser estudada no                     
eixo vertical. Os pontos são unidos por segmentos de reta. 
 
Boxplot 
 
O ​boxplot (gráfico em caixas) ​é um tipo de gráfico muito útil para a descrição de dados, visualização                                   
de sua variabilidade e comparação entre diferentes grupos. 
 
Para a construção do boxplot obtêm-se primeiro as seguintes estatísticas: 1º quartil (Q1), mediana                           
(Q2), 3º quartil (Q3) e a distância interquartílica (DQ), definida como DQ = Q3 - Q1. 
 
ETAPA 1.​ Numa reta são marcados o 1º quartil, a mediana e o 3º quartil. 
 
ETAPA 2. Acima dessa reta, constrói-se um retângulo com limites iguais às posições do primeiro e                               
terceiro quartis, cortado por um segmento de reta na posição relativa à mediana. 
 
ETAPA 3.​ A partir dos limites do retângulo, traçam-se linhas até 
(a) encontrar um extremo (valor máximo ou mínimo) ou; 
(b) um valor correspondente a 1,5 DQ, se o extremo correspondente estiver a mais de 1,5 DQ do                                 
quartil respectivo. 
 
Obs​.: os pontos que estão a mais de 1,5 DQ do quartil correspondente até 3 DQ são chamados                                   
pontos externos e os que estão a mais de 3 DQ, pontos soltos. 
 
Se na determinação do Q1 a posição corresponder a um número não-inteiro, é importante lembrar                             
que ele deve seguir 2 critérios: (1) pelo menos 25% das observações abaixo dele; (2) pelo menos 75%                                   
das observações. Assim, faz-se a média entreos dois valores encontrados. 
 
Observações atípicas (outliers) 
 
Os ​outliers são ​observações atípicas​, ou seja, são valores muito grandes ou muito pequenos em                             
relação aos demais que aparecem entre os dados coletados. Esses valores podem distorcer as                           
conclusões obtidas com o estudo e prejudicar a noção dos valores em cálculos. 
 
Os outliers podem aparecer por diversas ​causas​: 
● Leitura, anotação ou transcrição incorreta dos dados 
● Erro na execução do experimento ou na tomada da medida 
● Mudanças não controláveis nas condições experimentais ou dos pacientes 
● Característica inerente À variável (ex.: instabilidade) 
 
As medidas a serem tomadas a partir da observação de um outlier: 
● Abandonar: quando a observação é incorreta ou houve erro no experimento ou medida. 
● Conservar: quando reflete uma característica do que está sendo estudado. Tratar com                       
técnicas estatísticas especiais. 
 
 
 
 
 
TABELAS DE FREQUÊNCIA 
 
A ​tabela de frequência é uma maneira de sintetizar os dados que consiste na construção de uma                                 
tabela a partir dos dados brutos que leva em conta a frequência com que cada observação ocorre. 
 
É possível utilizar a ​frequência absoluta (número inteiro de vezes em que tal observação foi feita)                               
e/ou a ​frequência relativa​, em que considera-se a relação da frequência dessa observação com as                             
outras. 
É possível, também, a construção de tabelas que que utilizam dados agrupados para determinar as                             
frequências, quando são muitos valores diferentes e deseja-se criar classes. 
 
 
Ex.:​ Idades dos habitantes de uma rua de Vitória-ES que foram infectados com Covid-19 
 
IDADES  FREQUÊNCIA ABSOLUTA  FREQUÊNCIA RELATIVA 
0|---15  22  11 
15|---30  76  38 
30|---45  51  25,5 
45|---60  31  15,5 
>60  20  10 
TOTAL  200  100 
 
Obs.:​ |--- = exclui-se o elemento superior e inclui-se o inferior. 
Obs​2​.: ​Observe que a amplitude é a mesma. 
 
Construção de tabelas com dados agrupados 
 
ETAPA 1.​ Encontrar o menor e maior valores dentro do conjunto de dados. 
 
ETAPA 2. Escolher um número de classes, preferencialmente de igual tamanho (amplitude), que                         
englobe todos os dados, sem superposição. Os extremos dos intervalos são conhecidos como limite                           
de classes. 
 
ETAPA 3. Contar o número de elementos que pertencem a cada classe; esse número é denominado                               
frequência absoluta, usualmente denotado por ​n​. 
 
ETAPA 4. Determinar a frequência relativa de cada classe, dividindo a frequência da classe pelo                             
número total de observações. 
 
Apesar de não existirem normas fixas para a construção dessas tabelas, algumas regras são                           
normalmente seguidas para melhor construção: 
● O número de classes deve variar de 5 a 15. 
● O número de classes fixado como ​√n ou ​1 + log​2​n para um tamanho de amostra n é um                                     
número razoável. 
● O tamanho de cada classe é escolhido como o quociente entre a amplitude do conjunto e o                                 
número de classes escolhido. Este valor pode ser modificado de forma a facilitar a                           
construção e interpretação da tabela. 
● O limite inferior da primeira classe deve ser um pouco menor que a menor observação. 
● O limite superior da última classe deve ser um pouco maior que a maior observação. 
 
 
 
MEDIDAS DE TENDÊNCIA CENTRAL 
 
As ​medidas de tendência central sintetizam o conjunto de dados em um único número, que                             
represente bem a distribuição da variável de interesse. No caso de uma distribuição simétrica esse                             
elemento é a ​média aritmética​. Caso seja assimétrica, utiliza-se a ​mediana​. 
 
Média 
 
Apesar de existirem vários tipos (aritmética, ponderada, geométrica), foca-se na aritmética.  
A ​média é interpretada como o ponto de equilíbrio do conjunto, consistindo no quociente entre a                               
soma dos valores do conjunto e o número​ n​ de valores que existem nesse conjunto. 
A soma dos ​n ​valores ​x​ dividido pela quantidade de valores ​n ​é igual a média desses valores ​x​. 
 
Mediana 
 
A ​mediana é, por definição, um valor que divide a distribuição ao meio: 50% das observações ficam                                 
acima da mediana e 50% ficam abaixo. Para obtê-la, ordena-se a amostra para que se localize a                                 
posição da mediana.  
 
Em amostras ímpares, a mediana é o valor encontrado na posição ​n+1/2 da ordem e em amostras                                 
pares a mediana é a média entre os valores das posições ​n/2​ e ​n+2/2​ da ordem. 
 
 
 
MEDIDAS DE VARIABILIDADE 
 
As ​medidas de variabilidade permite conhecer o grau de agregação, definindo e usando medidas                           
medidas de dispersão de dados. Isso é importante pois permite descrever melhor os valores                           
envolvidos no estudo, a medida que as medidas de tendência central sozinhas não se fazem                             
suficientes. 
 
 
Variância 
 
A ​variância é uma medida da variabilidade dos dados em torno da média. Essa medida de dispersão                                 
permite o cálculo matemático de quão grande é variabilidade presente nos dados, analisando a                           
relação desses desvios com a média. 
 
 
Tem-se que a variância é a média dos desvios ao quadrado das observações. Ou seja, calcula-se a                                 
média e eleva-se a distância de cada valor presente em relação a ela ao quadrado dividido pelo                                 
número de valores do conjunto (pode denotar-se ​n-1​).  
 
Desvio-padrão 
 
A ​desvio-padrão é, por definição, uma medida de dispersão que avalia os desvios das observações                             
na mesma unidade dessas observações, sendo obtido tirando-se a raiz quadrada da variância. 
 
Coeficiente de variação 
 
É um índice relativo de dispersão que compara o desvio-padrão com a média. O ​CV​ é um número 
adimensional, calculado pelo quociente entre o desvio-padrão (s) e a média (x).

Outros materiais