Baixe o app para aproveitar ainda mais
Prévia do material em texto
Métodos Estatísticos – Aula 3 Prof. Gustavo R. Borges gustavorborges01@gmail.com Medidas de Posição Central e Dispersão Na seção anterior, foi apresentada a forma de representar a informação contida em conjunto de dados populacionais ou amostrais mediante tabelas de distribuição de frequências. Essa informação constitui a informação básica do problema em estudo. Mas, é conveniente apresentar, além dos dados, medidas que mostrem a informação de maneira resumida. As medidas de posição ou tendência central, definidas nesta seção, são usadas para indicar um valor que tende a resumir ou representar melhor um conjunto de dados. As três medidas mais usadas são a média, a mediana e a moda. Média A média de um conjunto de observações é definida como a soma de todas as observações dividida pelo número de observações. Média Populacional Média Amostral Sendo: • Xi: Valor da i-ésima observação da variável em estudo. • N: Tamanho da população. • n: Tamanho da amostra. Média • Essa medida de posição apresenta a desvantagem de ser fortemente influenciada por valores discrepantes, isto é, valores muito diferentes do conjunto de dados em análise. Portanto, nesse caso essa medida já não será um valor representativo do conjunto de dados. • Exemplo Sejam as notas de quatro provas de um estudante: X1 = 8,3; X2 = 9,4; X3 = 9,5; X4 = 8,6. Determinar a nota média. • Quando tem-se dados quantitativos contínuos agrupados em uma tabela de distribuição de frequências (TDF), a média pode ser calculada da seguinte forma: Média Populacional Média Amostral Sendo: 𝑋𝑖 ′ : O i-ésima marca de classe (ponto médio da classe) da variável em estudo. fi: Frequência absoluta do intervalo i: fri:Frequência relativa do intervalo i. k: Número de intervalos de classe. N: Tamanho da população. n: Tamanho da amostra. • Para dados quantitativos discretos em uma TDF a média é: Média Populacional Média Amostral Sendo: Xi: Valor observado i da variável em estudo. fi: Frequência absoluta do valor observado i fri: Frequência relativa do valor observado i k: Número de valores da variável em estudo Exemplo: Tabela 1a - Notas dos alunos na prova de Termodinâmica. 7,2 4,9 9,8 6,4 4,8 4,6 6,8 5,9 8,5 8,7 1,2 2,5 4,3 6,7 9,5 5,4 1,3 7,6 5,9 6,7 8,6 9,5 9,3 7,4 8,6 8,1 5,9 1,8 7,8 7,2 8,4 6,8 8,2 6,9 7,4 6,3 4,6 4,9 8,7 9,3 8,8 5,8 = 7,2 + 5,9 + 9,5 + …+ 5,8 42 = 279 42 = 6,64 Exemplo: Tabela 1b - Notas dos alunos na prova de Termodinâmica. Notas (xi) 1,0 – 2,5 2,5 – 4,0 4,0 – 5,5 5,5 – 7,0 7,0 – 8,5 8,5 – 10 Total Frequência Simples (fi) 3 1 7 11 9 11 42 Frequência Simples Acumulada (Fi) 3 4 11 22 31 42 Frequência Relativa (fri) 7,14 % 2,38 % 16,67 % 26,19 % 21,43 % 26,19 % 100,00 % Frequência Relativa Acumulada (Fri) 7,14 % 9,52 % 26,19 % 52,38 % 73,81 % 100,00 % 𝑋𝑖 ′ 1,75 3,25 4,75 6,25 7,75 9,25 = 3 ∗ 1,75 + 1 ∗ 3,25 + 7 ∗ 4,75 + … + (11 ∗ 9,25) 42 = 282 42 = 6,71 Comentários sobre os resultados: • Os resultados anteriores (obtidos em (1a) e (1b)) não são iguais. Isto porque em (1b) foram usadas as marcas de classe como valores representativos das observações. • Quando tem-se dados agrupados em TDF, a média é obtida assumindo que a marca de classe é igual à média das observações classificadas em cada intervalo. • Obviamente, na prática, isto ocorre raras vezes e, portanto, o valor obtido é uma aproximação do valor da média obtida como a soma de cada uma das observações. Média Ponderada • A média ponderada de um conjunto de observações X1; ... ;Xn, com pesos ou ponderações W1; ... ;Wn, é definida como: • Exemplo: Suponha que os custos de produção e as quantidades produzidas por três filiais A, B e C de uma empresa são: • O custo médio de produção por unidade produzida para a empresa em seu conjunto é: Esse valor indica que o custo médio de produção por artigo para a empresa é de 1,1656 unidades monetárias por cada unidade produzida. Se, ao invés dessa média, fosse calculada a média aritmética, Esse valor indicaria que o custo de produção por artigo das filiais é de 1,2833 unidades monetárias, supondo que as três filiais produzissem a mesma quantidade de artigos. Para nosso exemplo essa suposição não é verdadeira. Mediana (Md) • É uma medida de posição que divide o conjunto de observações, previamente ordenadas de acordo a sua magnitude (crescente ou decrescente), em dois grupos de tal modo que 50% das observações são menores que a mediana e os outros 50% são maiores. • Suponha que Y1; Y2; ... ; Yn seja um conjunto de n observações ordenadas em forma crescente, isto é, Y1 ≤ Y2 ≤ ... ≤ Yn. A mediana é definida como: Mediana (Md) • Exemplo: • Qual será a mediana das idades de um grupo de alunos? Sejam as idades: Y = { 8, 9, 10, 11, 7, 6, 12 } • Inicialmente os dados devem ser ordenados, gerando um rol: Y = { 6, 7, 8, 9, 10, 11, 12 } • Verifica-se que o número de elementos é impar ( n = 7 ). • A posição do termo central é Y4 = 9 Mediana (Md) • Acrescentando-se uma idade ao rol utilizando anteriormente: Y = { 6, 7, 8, 9, 10, 11, 12, 13 } • Passa-se a ter um rol com 8 elementos (n = 8). • Calcula-se (n/2) = 4 e (n/2)+1 = 5. • O termo que ocupa a posição central (mediana) é definido como sendo aquele que for igual à média aritmética dos elementos que ocuparem as posições anteriormente definidas. • Mediana (md) = ( 9 + 10 ) /2 = 9,5 • Ora, não há na série apresentada idade igual à 9,5. Como interpretar o resultado? • Deve-se lembrar que a mediana é o termo que divide a série em duas partes iguais. Desta forma, a interpretação será de que 50 % (metade) dos valores do rol são valores menores ou iguais a 9,5 e 50 % (metade) dos valores do rol são valores maiores ou iguais a 9,5. Mediana (Md) • A mediana para dados quantitativos contínuos agrupados em TDF é obtida da seguinte forma: • Sendo: • i : a classe mediana (a classe mediana é o intervalo de classe onde na coluna das Fri superar o 50% dos dados). • LIi : limite inferior da classe mediana. • Fi-1 : frequência acumulada absoluta da classe anterior à classe mediana. • fi : frequência absoluta da classe mediana • h = amplitude do intervalo de classe Exemplo: Tabela ... - Notas dos alunos na prova de Termodinâmica. Notas (xi) 1,0 – 2,5 2,5 – 4,0 4,0 – 5,5 5,5 – 7,0 7,0 – 8,5 8,5 – 10 Total Frequência Simples ou absoluta (fi) 3 1 7 11 9 11 42 Frequência Simples Acumulada (Fi) 3 4 11 22 31 42 Frequência Relativa (fri) 7,14 % 2,38 % 16,67 % 26,19 % 21,43 % 26,19 % 100,00 % Frequência Relativa Acumulada (Fri) 7,14 % 9,52 % 26,19 % 52,38 % 73,81 % 100,00 % 𝑋𝑖 ′ 1,75 3,25 4,75 6,25 7,75 9,25 = 6,86 1,2 4,8 5,9 6,9 8,1 8,7 1,3 4,9 6,3 7,2 8,2 8,8 1,8 4,9 6,4 7,2 8,4 9,3 2,5 5,4 6,7 7,4 8,5 9,3 4,3 5,8 6,7 7,4 8,6 9,5 4,6 5,9 6,8 7,6 8,6 9,5 4,6 5,9 6,8 7,8 8,7 9,8 Tabela 1 - Notas dos alunos na prova de Termodinâmica. Moda • A moda de um conjunto de observações é definida como o valor, classe ou categoria que ocorre com maior frequência. A moda populacional é denotada por Mo e a moda amostral denotada por mo. • Aplica-se tanto para dados do tipo qualitativo quanto para do tipo quantitativo. • A moda é uma medida de tendência central instável e é difícil de estimar. Moda • As séries, quanto às moda, podem ser classificadas das seguintes formas: a) unimodais – possuem apenas uma moda, ou seja, somente um elemento se destaca na série; b) bimodais – possuem duas modas. Doiselementos destacam-se na série, possuem as mesmas frequências, que são as maiores; c) polimodais – possuem mais de duas modas. Podem ser trimodais (três modas), tetramodais (quatro modas), etc. d) amodais – todos os elementos da série possuem a mesma frequência. Não há um elemento que se destaque pela maior frequência. Moda • Cálculo da Moda para dados em ROL Se os dados estiverem em forma de ROL, a identificação da moda é feita verificando-se o elemento de maior frequência (se os dados estiverem sob a forma bruta, deve proceder a determinação do ROL). • Por exemplo: Considere um conjunto de notas: Y = { 2, 8, 7, 7, 9, 5, 7, 4, 2, 5, 6 } Dispondo em ROL, tem-se: Y = { 2, 2, 4, 5, 5, 6, 7, 7, 7, 8, 9 } O elemento de maior frequência é a nota 7. Portanto a moda (mo) = 7. Moda • A moda para dados quantitativos contínuos agrupados em TDF é obtida da seguinte forma: Sendo: • i : classe modal. A classe modal é identificada pela frequência absoluta (fi) com maior valor. • LIi : limite inferior da classe modal. • d1 : é a diferença entre a frequência absoluta da classe modal e frequência absoluta anterior, ou seja, d1 = (fi – fi-1): • d2 é a diferença a frequência absoluta da classe modal e frequência absoluta posterior à classe modal, ou seja, d2 = (fi - fi+1) Exemplo: Tabela ... - Notas dos alunos na prova de Termodinâmica. Notas (xi) 1,0 – 2,5 2,5 – 4,0 4,0 – 5,5 5,5 – 7,0 7,0 – 8,5 8,5 – 10 Total Frequência Simples (fi) 3 1 7 11 9 11 42 Classe 1 2 3 4 5 6 𝑚𝑜1 = 5,5 + 4 4 + 2 1,5 𝑚𝑜2 = 8,5 + 2 2 + 11 1,5 OBS.: No exemplo, a moda encontra-se na última classe da distribuição. Desta forma, para que se possa proceder o cálculo é necessário que seja interpretada a existência de uma classe posterior (7ª Classe), com frequência igual a zero. = 6,50 = 8,73 Medidas de Dispersão • As medidas de posição ou de tendência central não necessariamente proporcionam informação suficiente para descrever dados de maneira adequada. • Por exemplo, considere os dados de resistência à tensão (em psi) de três amostras de alheação de alumínio-lítio. Amostra 1: 130 150 145 158 165 140 Amostra 2: 148 148 148 148 148 Amostra 3: 90 120 205 140 165 160 • Vemos que a média das 3 amostras é, ത𝑋1 = ത𝑋2 = ത𝑋3 = 148 psi. Porém, em relação ao diagrama de pontos, observa-se que a dispersão ou variabilidade da amostra 3 é muito maior que da amostra 1 e que os dados da amostra 2 apresentam variabilidade nula. 100 150 200 Medidas de Dispersão • As medidas de dispersão ou variabilidade são medidas estatísticas que permitem conhecer o grau de homogeneidade ou heterogeneidade de um conjunto de dados. • As medidas mais utilizadas são: • Amplitude • Variância • Desvio padrão • Coeficiente de variabilidade. Medidas de Dispersão • Amplitude (A) É a diferença entre a observação de maior e menor valor, A = Xmax - Xmin Para as três amostras de resistência à tensão dadas anteriormente: A1 = 165 - 130 = 35 A2 = 0 A3 = 205 - 90 = 115 Desses resultados é claro que, quanto maior for a amplitude, maior será a variabilidade nos dados. Medidas de Dispersão • Variância É uma medida de dispersão absoluta das observações. É dada pela soma das diferenças quadráticas das observações em relação a sua média dividida pelo número total de observações. A variância populacional é denotada pela letra grega σ2 e variância amostral por S2. Populacional Amostral Medidas de Dispersão • Desvio padrão É a raiz quadrada positiva da variância. O desvio padrão populacional e amostral são denotados por σ e S, respectivamente. Populacional Amostral As unidades de medida da variância são iguais ao quadrado das unidades de medida da variável. Assim, se X é medido em libras por polegada quadrada (psi), a unidade da variância amostral são (psi)2. O desvio padrão tem a propriedade de medir a variabilidade nas mesmas unidades que a variável de interesse X. Medidas de Dispersão • Exemplo Calcule a variância e o desvio padrão para a Amostra 1 apresentada anteriormente. Variância: Desvio Padrão: = 158 (psi)2 = 12,57 (psi) Medidas de Dispersão • Exemplo Calcule a variância e o desvio padrão para as Amostras 2 e 3 apresentadas anteriormente. • Essas medidas confirmam a armação inicial de que a resistência à tensão da alheação de alumínio-lítio na amostra 3 apresenta uma maior dispersão que da amostra 1 e, que a resistência à tensão da alheação na amostra 2 não apresenta variabilidade. Esse último fato significa que as observações da resistência à tensão nessa amostra são todas iguais a sua média (148 psi). Medidas de Dispersão • Coeficiente de variabilidade É uma medida de variabilidade adimensional. Essa medida estatística é utilizada para comparar conjuntos de dados que têm diferentes unidades ou quando as médias são muito diferentes. Denota-se o coeficiente de variabilidade populacional e amostral por CV e cv, respectivamente. Populacional Amostral Desvio Padrão Populacional Média Populacional Desvio Padrão Amostral Média Amostral Observação: O coeficiente de variabilidade geralmente é expressado em percentuais, isto é, multiplica-se por 100 as expressões anteriores. Medidas de Dispersão • Exemplo Considere a altura (em metros) e peso (em kg) de uma amostra de alunos. Pode-se observar que as características (altura e peso) tem diferentes unidades e nada pode ser dito a respeito de sua variabilidade, mas: Os alunos são duas vezes mais dispersos quanto ao peso do que à altura. Medidas de Dispersão • Medidas de variabilidade para dados agrupados Suponha um conjunto de dados quantitativos contínuos agrupados em uma tabela de distribuição de frequência com k intervalos de classes. • Amplitude A = LSk - LI1 onde LSk é o limite superior da k-ésima classe e LI1 é o limite inferior da primeira classe. Medidas de Dispersão • Variância Populacional Amostral onde 𝑋𝑖 ′ é a i-ésima marca de classe (ou ponto médio do intervalo de classe), fi é a i-ésima frequência absoluta, n é o tamanho da amostra e N é o tamanho da população. Para dados quantitativos discretos organizados em TDF as expressões para a variância são similares mas considerando 𝑋𝑖 ′ = Xi Medidas de Dispersão • Desvio Padrão Populacional Amostral Exemplo: Considere a seguinte TDF, referente a quantidade de hemoglobina (g/dl) de animais expostos a um certo solvente para tintas, calcule: Amplitude Variância Desvio Padrão Coeficiente de Variabilidade • Amplitude A = 10,6 – 5,2 = 5,4 • Variância: 𝑺𝟐 = 𝟐𝟓𝟏𝟖,𝟓𝟒− 𝟑𝟏𝟑,𝟑 𝟐/𝟒𝟎 𝟑𝟗 • Desvio Padrão S = 1,2872 g/dl = 𝟏, 𝟔𝟓𝟔𝟗( 𝒈 𝒅𝒍 )𝟐 • Coeficiente de variabilidade 𝑐𝑣 = 𝑆 ത𝑋 = 1,2872 7,8325 = 0,1643
Compartilhar