Prévia do material em texto
Medidas de Tendências Capítulo 6 – Epidemiologia e Bioestatística Professor Diego Sampaio Amariz MEDIDAS DESCRITIVAS • Uma outra maneira de se resumir os dados de uma variável quantitativa, além de tabelas e gráficos, é apresentá-los na forma de valores numéricos, denominados medidas descritivas. • Estas medidas, se calculadas a partir de dados populacionais, são denominadas parâmetros e se calculadas a partir de dados amostrais são denominadas estimadores ou estatísticas. • As medidas descritivas auxiliam a análise do comportamento dos dados. Tais dados são provenientes de uma população ou de uma amostra, o que exige uma notação específica para cada caso. Distribuição de frequências • Distribuição de Frequências é uma forma de apresentação resumida de dados em uma tabela. • É um método de se agrupar dados em classes possibilitando o fornecimento de quantidades ou percentuais de dados em cada classe. • Isso possibilita a análise dos dados e formulação de conclusões sem levar em conta os valores individuais. Distribuição de frequências • Quando temos dados contínuos, geralmente a quantidade de dados gerados nas medições são grandes. • Neste caso, utiliza o conceito de intervalos de classe. • O menor valor da classe é denominado limite inferior(li) e o maior valor da classe é denominado limite superior (Li). • A diferença entre esses limites é a amplitude. • Quanto menor a amplitude, mais homogêneo pode estar seus dados. Distribuição de frequências • Quando temos dados contínuos, geralmente a quantidade de dados gerados nas medições são grandes. • Neste caso, utiliza o conceito de intervalos de classe. • O menor valor da classe é denominado limite inferior(li) e o maior valor da classe é denominado limite superior (Li). Amplitude • A diferença entre esses limites é a amplitude. • Quanto menor a amplitude, mais homogêneo pode estar seus dados. MEDIDAS DE TENDÊNCIA CENTRAL • As medidas de tendência central são assim denominadas por indicarem um ponto em torno do qual se concentram os dados. • Este ponto tende a ser o centro da distribuição dos dados. • São definidas as principais medidas de tendência central: média, mediana e moda. Média aritmética simples • Pode ser entendida como a soma dos valores de todas as observações realizadas dividida pelo número de observações. • É utilizada no intuito de expressar, por meio de um único valor, a ideia principal de um grupo de valores. • A média aritmética é expressa pela seguinte equação: Média aritmética simples Média aritmética ponderada • Existe um grande perigo no cálculo da média aritmética simples. • Se um ou mais valores for muito diferente do conjunto, pode distorcer a tendência apresentada pela média. • Esta distorção pode ser amenizada aplicando-se pesos “as observações”, isto possibilita atribuir peso ou importância diferente a cada valor, quando isto ocorre, temos a média aritmética ponderada. Média aritmética ponderada Moda • Moda é o dado que ocorre com maior frequência em um conjunto de dados. • É o valor que mais aparece, e, ao contrário da média aritmética não é afetada por valores extremos. • É utilizada apenas para fins descritivos, uma vez que é, dentre as medidas de tendência, a mais variável de amostra para amostra. Moda • Observe a tabela a seguir. Ela demonstra a temperatura média, registrada de hora em hora, das 6h às 12h em uma cidade. • Podemos notar que a temperatura de 18º C se repetiu duas vezes. Dessa forma dizemos que a moda das temperaturas obtidas é 18º C. Moda • A moda não é necessariamente única, como ocorre na média ou na mediana. • Dependendo da quantidade será classificada em: • Amodal: não possui moda • Bimodal: possui dois valores modais • Multimodal: possui mais do que dois valores modais Mediana • Mediana é o valor central que divide uma série ordenada de dados em duas partes iguais. • Ocupa a posição central em uma série ordenada de dados (Rol). Caracteriza-se por ser uma medida de tendência central que não é afetada por valores extremos. • O cálculo da mediana é realizado pelas seguintes equações: • Em uma amostra de dados ordenados de tamanho n, se n for ímpar, a mediana será o elemento central Mediana Mediana • O cálculo da mediana é realizado pelas seguintes equações: • Se n for par, a mediana será o resultado da média simples entre os elementos Mediana Medidas de dispersão • As medidas de dispersão medem a variabilidade dos dados. • Complementam a informação fornecida pelas medidas de tendência central. • Um problema que ocorre com as medidas de tendência central é que estas descrevem somente a tendência central do conjunto de dados, não permitindo medir a variabilidade dos dados. • As medidas de dispersão servem para avaliar o quanto os dados são semelhantes. • Medem o grau de homogeneidade do conjunto. Variância • A variância é uma medida de dispersão que pode ser calculada pelas equações relacionadas a seguir. • As equações dizem que a variância representa a soma dos quadrados a distância média dividida pelo número de observações do conjunto. Variância Desvio padrão • Desvio padrão é a medida mais comum da dispersão estatística (representado pelo símbolo sigma, σ). • Ele mostra o quanto de variação ou “dispersão” existe em relação à média (ou valor esperado). • Um baixo desvio padrão indica que os dados tendem a estar próximos da média; um desvio padrão alto indica que os dados estão espalhados por uma gama de valores. Desvio padrão Coeficiente de Variação • Experimentos confiáveis requerem a avaliação dos resultados pela verificação da precisão deles próprios, que pode ser realizada pelos valores dos coeficientes de variação (CV) ou pela diferença mínima significativa (NESI et al., 2010; STORCK et al., 2011). • Conforme Steel et al. (1997), o CV permite a comparação de resultados de diferentes experimentos, envolvendo uma mesma variável ou espécie, permitindo, assim, quantificar a precisão de suas pesquisas. • O CV é uma medida importante sobre a variabilidade dos resultados experimentais, podendo ser útil na definição do número de repetições do ensaio, necessário para detectar uma diferença entre médias de tratamentos com uma dada probabilidade, visto que os CV estão estritamente relacionados ao erro residual nas análises de variância (PIMENTEL-GOMES, 2009; NESI et al., 2010). • De acordo com Storck et al. (2011), a distribuição de CV possibilita estabelecer faixas de valores que orientam os pesquisadores sobre a validade de seus experimentos. Coeficiente de Variação • De acordo com Storck et al. (2011), a distribuição de CV possibilita estabelecer faixas de valores que orientam os pesquisadores sobre a validade de seus experimentos. • Dessa forma, pode-se dizer que o coeficiente de variação é uma forma de expressar a variabilidade dos dados excluindo a influência da ordem de grandeza da variável. • O coeficiente de variação é igual ao desvio-padrão dividido pela média aritmética, multiplicado por 100% (LEVINE et al., 2014). Coeficiente de Variação • A Equação evidência como é realizado o cálculo para o CV. • Onde, S é o desvio padrão e X é a média dos dados obtidos Coeficiente de Variação • Como o coeficiente de variação analisa a dispersão em termos relativos, ele será dado em porcentagem. • Quanto menor for o valor do coeficiente de variação, mais homogêneos serão os dados, ou seja, menor será a dispersão em torno da média (LEVINE et al., 2014). • De uma forma geral, se o CV for menor ou igual a 15% o resultado apresenta uma baixa dispersão dos dados, dados homogêneos. • Se o cálculo dos dados ficarem entre 15 e 30% os mesmos apresentam uma média dispersão. • E se for maior que 30% apresentam uma alta dispersão, dados heterogêneos (LEVINE et al., 2014). O que é Incerteza na Medição • É a qualidade de um dado numérico. • É a dúvida que existe sobre o resultado de qualquer medição • Mesmo sabendo que o resultado da medição não é perfeito, é possívelobter informações confiáveis, desde que o resultado da medição venha acompanhado da respectiva incerteza. • Fundamental na avaliação e comparação de resultados. Fontes de Incerteza na Medição • Erros sistemáticos: Estão associados á exatidão. São aqueles que afetam todas as medidas de uma mesma forma. Exemplo: Calibração, interpretação e atribuição de valores a constantes. • Para lidar com estes erros, somente podemos revisar o experimento e a teoria. • Normalmente quando um erro sistemático é percebido uma mesma correção é suficiente para todos os dados, já que o erro afeta todos de uma mesma maneira. Fontes de Incerteza na Medição • Erros aleatório: São associados à precisão e ocorrem devido a flutuações das condições da medida. • Podemos controlar grandezas como: pressão e temperatura. Mas sempre haverá flutuações que farão com que uma medida não seja igual a outra. • Para lidar com estes erros utiliza-se técnicas de estatística. Distribuição Normal • Em um conjunto de dados muitas vezes os valores tendem a ficarem mais próximos da média do que afastado dela. • Esse comportamento é denominado distribuição normal ou Gaussiana. • É a distribuição de valores em uma forma característica de dispersão, curva Gaussiana) na qual os valores mais próximos estão mais perto da média do que longe dela. • A distribuição normal é simétrica em torno da média. Distribuição Normal – Curva Gaussiana • É um gráfico assintótico em relação ao eixo das abscissas (X), isto é, aproxima-se indefinidamente do eixo de x, sem contudo, tocá-lo. Cálculo da Incerteza. • Ao se obter uma amostra qualquer de tamanho, n, calcula-se a média aritmética da amostra. • Em seguida, calcula-se a variância e o desvio padrão dos dados. • Assim, a incerteza é obtida pela seguinte equação: Onde: I é a incerteza S é o desvio padrão n é o tamanho da amostra Incerteza na Medição • Exemplo 1: Em uma população obteve-se o desvio padrão de 2,64 com uma amostra aleatória de 60 elementos. Qual o erro padrão desses dados? Incerteza na Medição • Exemplo 2: Em uma população obteve-se o desvio padrão de 1,32 com uma amostra aleatória de 121 elementos. Sabendo que para essa mesma amostra obteve-se uma média de 6,25. Determine o valor mais provável para o erro padrão desses dados? Logo: O valor correto para esses dados é: Ou seja: A medida pode variar entre 6,13 e 6,37.