Baixe o app para aproveitar ainda mais
Prévia do material em texto
Dados categóricos ou qualitativos Quando observamos dados qualitativos, classificamos cada unidade da amostra em uma dada categoria e para analisarmos usamos a distribuição de frequências absoluta e relativa. Frequência absoluta: é o número de vezes em que uma determinada variável assume um valor Frequência relativa: é o resultado obtido entre a frequência absoluta e a quantidade de elementos da amostra, geralmente apresentada na forma da porcentagem, a partir da multiplicação por 100. frequência relativa = frequência/tamanho da amostra Dados contínuos ou quantitativos Os dados numéricos são apresentados na ordem em que são coletados e podem ser analisados por medidas de tendência central que dão a ideia de onde se localiza o centro, o ponto médio da amostra (média, moda ou mediana) ou medida de dispersão que é o modo como os dados se posicionam ao redor do ponto central (desvio-padrão, variância, intervalo Interquartílico). As medidas de dispersão são medidas estatísticas utilizadas para avaliar o grau de variabilidade, ou dispersão, dos valores em torno da média ou da mediada e servem para medir a representatividade. Média A média aritmética de um conjunto de dados é obtida somando todos os dados e dividindo o resultado pelo número deles. A média indica o centro de gravidade do conjunto de dados. Mediana Valor que ocupa a posição central do conjunto dos dados ordenados, divide a amostra em duas partes: uma com números menores ou iguais à mediana, outra com números maiores ou iguais à mediana. -Quando o número de dados é impar, existe um único valor na posição central, esse valor é a mediana. -Quando o número de dados é par, existem dois valores na posição central, a mediana é a média desses dois valores. ímpar Moda Moda é o valor que ocorre com maior frequência. Em distribuições sem intervalos de classe, a moda é o valor da variável com maior frequência Um conjunto de dados pode não ter moda porque nenhum valor se repete maior número de vezes, ou ter duas ou mais modas. Amplitude O mínimo de um conjunto de dados é o número de menor valor. O máximo de um conjunto de dados é o número de maior valor. Para medir variabilidade, você pode fornecer a amplitude de um conjunto de dados, definida como a diferença entre o máximo e o mínimo, é uma medida de dispersão ou variabilidade. Desvio Padrão O desvio padrão é uma medida de variabilidade muito recomendada porque mede bem a dispersão dos dados e permite, por conta disso, interpretação de interesse. Para calcular o desvio padrão, é preciso, primeiro, calcular a variância: quando a média é usada como medida de tendência central podemos calcular o desvio de cada observação em relação à média (Desvio = valor de observação - média). Se os desvios forem pequenos, os dados estão aglomerados em torno da média; logo, a variabilidade é pequena. Por outro lado, desvios grandes significam observações dispersas em torno da média e, portanto, variabilidade grande. Para obter uma medida de variabilidade usando os desvios em relação à média, é preciso eliminar os sinais, antes de somar, pois a soma dos desvios negativos é sempre igual à soma dos positivos. Uma maneira de eliminar sinais é elevar ao quadrado e a partir da soma dos quadrados, obtém-se a variância. Portanto, a variância é a soma dos quadrados dos desvios de cada observação em relação à média, dividida por (n - 1), em que n indica o número de elementos das amostra. Desvio padrão é a raiz quadrada da variância, com sinal positivo, medindo a dispersão de dados de uma amostra em relação a respectiva média. Análise Descritiva (Heloá Kapor de Brito) Página 1 de Bioestatística Intervalo interquartílico A mediana divide um conjunto de dados em dois subconjuntos com o mesmo número de dados. Se o número de observações for grande: a mediana divide o conjunto de dados em duas metades: os quartis, que dividem o conjunto de dados em quatro quartos. Para obter os quartis: -organize os dados em ordem crescente. Ache a mediana (que é, também, o segundo quartil); marque esse valor. -ache o primeiro quartil, da seguinte forma: tome o conjunto de dados à esquerda da mediana; o primeiro quartil é a mediana do novo conjunto de dados. -ache o terceiro quartil, da seguinte forma: tome o conjunto de dados à direita dessa mediana; o terceiro quartil é a mediana do novo conjunto de dados. Dessa forma: Q1 = 1º quartil, contém 25% da amostra Q2 = 2º quartil, coincide com a mediana, contém 50% da amostra Q3 = 3º quartil, contém 75% da amostra. A distância interquartílica também é uma medida de dispersão e é dada por distância entre o primeiro e o terceiro quartil. O intervalo interquartílico é melhor representado em diagrama de caixa (blox pot) Para desenhar o diagrama, são necessárias cinco medidas: mínimo, primeiro quartil, mediana, terceiro quartil, máximo. -desenhe um segmento de reta em posição vertical, para representar a amplitude dos dados. -marque, nesse segmento, o primeiro, o segundo e o terceiro quartis. -desenhe um retângulo (box) de maneira que o lado superior e o lado inferior passem exatamente sobre os pontos que marcam o primeiro e o terceiro quartis. -faça um ponto ou uma reta para representar a mediana (obedecendo a escala). É importante ressaltar algumas análises do blox pot: -quando menores os retângulos, mais concentrado são os valores. -um ponto para fora do gráfico, indica um valor discrepante -gráficos com os dois retângulo mais parecido ou idênticos são mais homogêneos Dados paramétricos Existem duas classificações dos dados, paramétricos/normais que seguem a curva de Gauss ou não paramétricos que não seguem a curva de Gauss. Curva de Gauss A distribuição normal fica definida quando são dados dois parâmetros: a média, que se representa pela letra grega µ (lê-se: mi) e o desvio padrão, que se representa pela letra grega sigma. Algumas características da distribuição normal são bem conhecidas: -a média, a mediana e a moda coincidem e estão no centro da distribuição; -o gráfico da distribuição normal tem aspecto típico: é uma curva em forma de sino, simétrica em tomo da média; -como a curva é simétrica em tomo da média, 50% dos valores são iguais ou maiores do que a média e 50% dos valores são iguais ou menores do que a média. Existem relações entre a área sob a curva e o desvio padrão da variável: -a variável tem distribuição normal, 34,13°/o da área sob a curva estão entre a média (µ) e um ponto de abscissa igual à média mais um desvio padrão (µ + cr). -a curva é simétrica em torno da média. Segue-se dai que 34,13% da área sob a curva está entre a média (µ) e um ponto de abscissa igual à média menos um desvio padrão (µ - cr). -se você somar as porcentagens, terá 68,26%. Então, entre (µ - cr) e (µ + cr) estão 68,26°/o da área da curva -conforme nos afastamos da média, a área do gráfico diminui, sendo que a cada desvio padrão que tirarmos chegamos em uma porcentagem menor: Página 2 de Bioestatística
Compartilhar