Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIDADE 02 Medidas Estatísticas 1 - Introdução ............................................................................................................................... 3 2 - Medida de posição central .................................................................................................... 4 2.1 - Medida de posição central para dados individuais ........................................................... 4 2.1.1 - Moda .......................................................................................................................... 4 2.1.2 - Média aritmética simples ........................................................................................... 5 2.1.3 - Mediana ..................................................................................................................... 6 2.1.4 - Média ponderada....................................................................................................... 9 2.1.5 - Outras médias ......................................................................................................... 10 Média aparada ............................................................................................................. 10 Média geométrica ........................................................................................................ 11 Média harmônica ......................................................................................................... 12 2.2 - Medidas de posição central para dados agrupados ....................................................... 14 2.2.1 - Dados agrupados em tabelas de frequência sem classe ....................................... 14 2.2.2 - Dados agrupados em tabelas de frequência com classe ....................................... 17 3 - Medidas de Variabilidade .................................................................................................... 22 3.1 - Medida de variabilidade para dados individuais ............................................................. 23 3.2 - Medidas de variabilidade para dados agrupados ........................................................... 32 3.2.1 - Dados agrupados em tabelas de frequência sem classe ....................................... 32 3.2.2 - Dados agrupados em tabelas de frequência com classe ....................................... 33 3.3 - Algumas aplicações do desvio-padrão ........................................................................... 34 4 - Outras medidas estatísticas ............................................................................................... 36 4.1 - Medidas separatrizes para dados individuais ................................................................. 36 4.2 - Medidas separatrizes para dados agrupados ................................................................ 41 4.2.1 - Dados agrupados em tabelas de frequência sem classe ....................................... 41 4.2.2 - Dados agrupados em tabelas de frequência com classe ....................................... 42 4.3 - Diagrama de caixa (box plot) .......................................................................................... 44 4.3 - Medida de assimetria ...................................................................................................... 46 4.5 - Medida de Curtose ......................................................................................................... 49 Unidade 02 – Medidas Estatísticas 3 1 - Introdução As medidas estatísticas, assim como as tabelas e gráficos vistos na unidade anterior, são importantes formas de sintetizar um conjunto de dados. Uma medida de tendência central é usada para representar o valor típico do conjunto de dados, enquanto que uma medida de variabilidade consegue informar o quanto os dados de um conjunto estão afastados deste valor típico. Com a medida central e a variabilidade é possível comparar conjuntos diferentes de dados. Como exemplo, veja o caso de uma empresa que trabalha com quatro máquinas de encher pacotes de café de 500 gramas. Para cada máquina, foi selecionada uma amostra de pacotes de café e o conteúdo de cada um foi pesado. O gráfico de pontos abaixo mostra a distribuição dos valores, onde cada ponto no gráfico representa o peso de um pacote de café em gramas. Os pacotes de café enchidos pela máquina “A” apresentam um peso típico próximo de 490 gramas (10 gramas a menos do especificado), enquanto que, na máquina B, os pacotes apresentam um peso típico em torno de 510 gramas (10 gramas a mais). Quanto à dispersão dos pesos, parece que estão igualmente dispersos em torno dos valores típicos. Podemos ainda destacar a presença de um pacote com peso considerado atípico na máquina “A”. Na máquina “C”, os pesos dos pacotes giram em torno de 500 gramas (igual ao especificado), mas a dispersão dos pesos é muito grande, indicando alguma instabilidade na máquina. Na máquina “D”, encontramos uma situação ideal, os pesos giram em torno do valor especificado (de 500 gramas) e com uma pequena variabilidade. As medidas que ajudam a descrever uma distribuição são: Medidas de posição central; Medidas de variabilidade (ou dispersão); Medidas separatrizes (posição não central) Medidas de assimetria e de curtose. 525520515510505500495490485480 Máquina A Máquina B Máquina C Máquina D Peso dos pacotes (em gramas) atípico média média média média Unidade 02 – Medidas Estatísticas 4 2 - Medida de posição central É a medida numérica que representa o valor mais típico ou o mais representativo de uma série de valores. As medidas usuais de posição central são: média simples, média ponderada, mediana e a moda. 2.1 - Medida de posição central para dados individuais Iremos ver a seguir as medidas para dados individuais, ou seja, uma série de números que não agrupados em tabelas de frequência. 2.1.1 - Moda A moda, denotada por mo, é o resultado mais frequência em uma série de resultados. Quando dizemos que tal roupa está na moda, é porque a vemos com mais frequência. A moda era muito usada em uma época que não se dispunha de calculadoras. É a medida central mais simples e fácil de calcular e pode ser usada em dados qualitativos ou quantitativos. Exemplo 1. Abaixo temos as cores das blusas de oito crianças. Qual é a moda das cores? azul, vermelha, vermelha, branca, preta, amarela, azul, vermelha Há duas blusas nas cor azul e três na cor vermelha e um de cada nas demais cores (preta, amarela e branca) , portanto a moda seria a vermelha. Exemplo 2. Suponha que em uma sala foi selecionado uma amostra de cinco crianças e a idade em anos de cada uma foi registrada. Qual é a moda das idades? 12 9 12 11 10 A moda seria mo = 12 anos, dizemos que é unimodal, pelo fato de ser apenas uma moda. Porém, há casos de a série de valores apresentar mais de uma moda, podendo ser bimodal (duas modas), trimodal (três modas), multimodal (mais de três modas) ou mesmo não ter moda (amodal). 3, 4, 4, 4, 9, 10, 12, 12, 12 mo = 4 e 12 (bimodal) 3, 4, 4, 4, 9, 10, 12, 12, 12, 10, 10 mo = 4 e 12 (bimodal) 3, 4, 4, 4, 9, 10, 10, 10, 12, 12, 12 mo = 4, 10 e 12 (multimodal) 3, 4, 9, 10, 12 amodal, não tem moda Usando os comandos do programa R1. x = c(14,23,25,12,10,14,30,25,12,14,23,25) # valores de x table(x) # tabela para x 1 O R pode rodar on-line no site www.r-fiddle.org ou você pode baixar do site www.r-project.org e instalá-lo em seucomputador/notebook. Unidade 02 – Medidas Estatísticas 5 2.1.2 - Média aritmética simples É a média aritmética simples dos valores em uma série, ou seja, somatório dos valores dividido pela quantidade de valores. Quando trabalhamos com uma amostra de n valores, a média é denominada de média amostral e denotada pelo símbolo x (leia-se x barra). �̅� = 1 𝑛 ∑ 𝑥𝑖 𝑛 𝑖=1 onde xi = i-ésimo valor da variável n = tamanho da amostra (quantidade de valores na amostra) Supondo que para uma amostra de cinco funcionários, a distância percorrida em km por eles até à empresa seja 17, 9, 17, 14 e 8. Calcule a média da distância percorrida até a empresa por estes funcionários. A média aritmética simples é: �̅� = 1 𝑛 ∑ 𝑥𝑖 𝑛 𝑖=1 = 1 5 (17 + 9 + 17 + 14 + 8) = 65 5 = 13 𝑘𝑚 Veja esta média na representação do diagrama de pontos A média pode ser vista como o ponto de equilíbrio de uma distribuição de valões, como pode ser vista nas figuras abaixo. Média populacional Quando trabalhamos com toda a população de N valores, dizemos que é uma média populacional, sendo denotada pela letra grega 𝜇 (mi). 𝜇 = 1 𝑁 ∑ 𝑥𝑖 𝑁 𝑖=1 Usando o programa R. x = c(17,9,17,14,8) # valores de x mean(x) # média de x média média Unidade 02 – Medidas Estatísticas 6 2.1.3 - Mediana A mediana de uma série de valores é o valor que está exatamente no centro desta série ordenada. Abaixo e acima da mediana temos metade dos valores. A mediana é denotada por md ou �̃� (leia-se x til). Se a série tem uma quantidade ímpar de valores, ou seja, a mediana será o único valor central. Caso contrário, se for par, a mediana será a média dos dois valores centrais. Considerando n igual a quantidade de valores na série. Se n é ímpar, a mediana será ... igual ao único valor central. Se n é par, a mediana será ... igual à média dos dois valores centrais. x = {8, 10, 15} md = 10 x = {8, 10, 15, 30} md = (10+15)/2 = 12,5 Exemplo 3. Considerando as distâncias (em km) percorridas por cinco funcionários até a empresa onde trabalham, calcule a medidas das distâncias 17 ; 9 ; 17 ; 14 ; 8 Série ordenada: 8 9 14 17 17 Como n é ímpar, a série ordenada só tem um único valor central, que é o valor 14. Para uma série maior de valores, podemos formalizar um procedimento para obter a mediana. 1) Ordene a séria de valores em ordem crescente e calcule a posição pos = n/2 da mediana 2) Se pos não for inteiro, arredonde pos para o maior inteiro mais próximo. A mediana será o valor que estará na posição pos. 3) Se pos for inteiro, então a mediana será a média entre os dois valores centrais que estarão na posição pos e pos +1. No exemplo anterior, a posição da mediana é pos = 5/2 = 2,5. Como esse valor não é inteiro deverá ser arredondado para cima (pos = 3), portanto a mediana estará na 3ª posição na série ordenada, que é md = 14 km. Usando o programa R. x = c(17,9,17,14,8) # valores de x med(x) # mediana de x Comparação entre a média e a mediana Cerca da metade (50%) dos funcionários percorrem menos de 9 km para ir até a empresa. mediana Unidade 02 – Medidas Estatísticas 7 Por usar todos os valores do conjunto de dados, a média acaba sendo bastante influenciada pelos valores atípicos2, enquanto que a mediana é menos sensível a estes valores. Suponha que os valores abaixo correspondem aos salários em reais de seis funcionários de um setor de uma empresa. 800 20000 950 1050 800 1000 A média amostral destes dados seria �̅� = 1 𝑛 ∑ 𝑥𝑖 𝑛 𝑖=1 = 1 5 (800 + 20000 + 950 + 1050 + 800 + 1000) = 4100 𝑟𝑒𝑎𝑖𝑠 O valor de 4.100 reais esta correto do ponto de vista matemático, mas não é apropriado como medida para melhor representar os salários. Você acharia justo dizer que estes funcionários recebem em média 4.100 reais, portanto um ótimo salário? Com certeza, cinco funcionários desta empresa diriam que não. O valor atípico de 20.000 reais “puxou” esta média para cima. Uma forma de contornar esta situação seria retirar este valor e recalcular a média, o que às vezes não é recomendado, ou usar uma medida mais robusta, ou seja, uma medida que seja menos sensível a estes valores atípicos, que seria, neste caso, a mediana. Dados ordenados: 800 800 950 1000 1050 20000 Visto que temos seis valores (n par), a mediana será a média dos dois valores centrais, portanto a mediana é (950 + 1000)/2 = 975 reais. Mesmo com o valor alto de 20.000 reais, a mediana obtida de 975 reais é mais honesta para representar os salários destes funcionários. 2 Outlier em estatística. Unidade 02 – Medidas Estatísticas 8 Comparação entre média, mediana e moda. Média Mediana Moda Vantagem . É apenas um único valor . Fácil das pessoas entenderem . Utiliza todos os valores do conjunto de dados . Há uma fórmula matemática para ela o que facilita seu uso. . É apenas um único valor . Fácil das pessoas entenderem . Não é afetada por valores atípicos. . Pode ser determinada para variável qualitativa ordinal ou quantitativa. . Fácil das pessoas entenderem . Não é afetada por valores atípicos. . Pode ser aplicada para qualquer tipo de variáveis (qualitativa ou quantitativa) Desvantagem . Muito afetada por valores atípicos. . Precisa de todos os valores da série. . Pode ser usada apenas em variáveis quantitativas . Não há uma fórmula matemática para ela, o que dificulta seu uso. . Não usa todos os valores do conjunto de dados. . Não há uma fórmula matemática para ela, o que dificulta seu uso. . Não usa todos os valores do conjunto de dados. . É possível pode ter mais de uma moda ou mesmo não ter. Unidade 02 – Medidas Estatísticas 9 2.1.4 - Média ponderada É a média das observações x1, x2, ..., xn levando em consideração seus respectivos pesos w1, w2, ..., wn. A média ponderada, denotado por px , é dada por: �̅�𝑝 = ∑ 𝑤𝑖𝑥𝑖 𝑘 𝑖=1 ∑ 𝑤𝑖 𝑘 𝑖=1 = 𝑤1𝑥1 + 𝑤2𝑥2 + ⋯ + 𝑤𝑘𝑥𝑘 𝑤1 + 𝑤2 + ⋯ + 𝑤𝑘 Exemplo 4. Em uma escola, a nota no bimestre é uma média ponderada das quatro avaliações aplicadas aos alunos com os seguintes pesos para cada prova: 1, 2, 4 e 5, respectivamente. Determine a nota no bimestre para o Alan que obteve as seguintes notas nas quatro provas: 4, 7, 9 e 8. �̅�𝑝 = 1 ∙ 4 + 2 ∙ 7 + 4 ∙ 9 + 5 ∙ 8 1 + 2 + 4 + 5 = 94 12 = 7,83 Sem levar em consideração os pesos de cada prova, a nota seria 7 pontos, menor que os 7,83 pontos obtidos pela ponderação. Uma maneira mais prática de calcular a média ponderada é trabalhar com os dados dispostos em uma tabela. (1) x (2) w (3) wx 4 1 4 7 2 14 9 4 36 8 5 40 - w = 15 wx = 94 Comentário Se os pesos (w) forem todos iguais, então a média ponderada �̅�𝑝 será igual a média aritmética simples �̅�. Por exemplo, se w = a, então: �̅�𝑝 = ∑ 𝑎𝑥𝑖 𝑘 𝑖=1 ∑ 𝑎𝑘𝑖=1 = 𝑎𝑥1 + 𝑎𝑥2 + ⋯ + 𝑎𝑥𝑘 𝑎 + 𝑎 + ⋯ + 𝑎 = 𝑎(𝑥1 + 𝑥2 + ⋯ + 𝑥𝑘) 𝑘𝑎= 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑘 𝑘 = ∑ 𝑥𝑖 𝑘 𝑖=1 𝑘 = �̅� Usando o programa R. x = c(4,7,9,8) # notas w = c(1,2,4,5) # pesos sum(w*x) / sum(w) # média ponderada Unidade 02 – Medidas Estatísticas 10 2.1.5 - Outras médias Média aparada A média aparada (podada ou truncada) é a média aritmética simples dos valores que permanecem, quando os maiores e os menores valores são removidos da série de números. A média aparada é uma medida de posição central que procura ser, assim como a mediana, menos sensível aos valores atípicos. O procedimento formal para obter a média aparada de k% é: 1) Ordene o conjunto de dados em ordem crescente; 2) Calcule T = kn/100, quantidade de valores a serem retirados de cada extremidade; 3) Arredonde o valor de T para um número inteiro; 4) Retire os T menores valores e também os T maiores valores; 5) Calcule a média aritmética simples dos valores que permaneceram Exemplo 5. Os dados abaixo são as idades de vinte alunos de uma sala de aula. Vamos considerar que de fato há um aluno com 55 anos e que o valor 8 foi erro de digitação. Calcule a média aparada de 10%. 8, 55, 21, 19, 18, 21, 19, 20, 21, 19, 19, 20, 22, 21, 21, 20, 19, 19, 21, 19 Dados ordenados: 8, 18, 19, 19, 19, 19, 19, 19, 19, 20, 20, 20, 21, 21, 21, 21, 21, 21, 22, 55 Como queremos média aparada de 10%, a quantidade de valores que devem ser retiradas de cada extremidade é T = 1020/100 = 2 valores (= 10% de 20) Os 2 maiores e os 2 menores valores a serem retirados são: 8, 18, 22 e 55. Portanto, a média aparada será a média simples dos 16 que permaneceram. �̅�𝑎𝑝 = 19 + 19 + ⋯ + 21 16 = 19,9375 𝑎𝑛𝑜𝑠 Usando o programa R. x = c(8,55,21,19,18,21,19,20,21,19,19,20,22,21,21,20,19,19,21,19) # idades mean(x, trim = 0.10) # média aparada de 10% Unidade 02 – Medidas Estatísticas 11 Média geométrica A média geométrica dos n valores (positivos) x1, x2, ..., xn é a n-ésima raiz do produtos destes n valores. A média geométrica, denotada por gx , é calculada algebricamente por: �̅�𝑔 = √𝑥1 ∙ 𝑥2 ∙ … ∙ 𝑥𝑛 𝑛 Por exemplo, a média geométrica dos valores 8, 5, 3, 6 e 10 é: �̅�𝑔 = √8 ∙ 5 ∙ 3 ∙ 6 ∙ 10 5 = √7200 5 = 5,9084 Usando o programa R. x = c(8,5,3,6,10) # valores n = length(x) # tamanho de x prod(x)^(1/n) # média geométrica Aplicação: A média geométrica mede a taxa média de variação de uma variável ao longo do tempo, por exemplo, um crescimento médio de juros compostos com taxas variáveis ao longo de um período ou uma taxa média de retorno de um investimento ao longo do tempo. Como exemplo, suponha que o faturamento de uma empresa cresceu 30% em 2005, 26% em 2006, 48% em 2007 e 15% em 2008. Em média, quanto cresceu por ano? Se houve crescimento de 30%, 26%, 48% e 15% nos faturamentos, então os faturamentos de cada ano foram multiplicados por 1,30, 1,26, 1,48 e 1,15, respectivamente. Vamos calcular, então, a média geométrica dos valores 1,30, 1,26, 1,48 e 1,15. 4g 15,148,126,130,1x 2922,178788,24 A média geométrica da taxa de crescimento do faturamento no período estudado (2005 a 2008) é de 29,22%. A tabela a seguir mostra a evolução dos faturamentos ao longo do período para o este exemplo, partindo de um faturamento hipotético de R$ 100 antes de 2005, Evolução dos faturamentos partindo de um valor inicial de R$ 100 Ano Taxa Faturamento 100,0 reais 2005 30% 100,0 * 1,30 = 130,0 2006 26% 130,0 * 1,26 = 163,8 2007 48% 163,8 * 1,48 = 242,4 2008 15% 242,4 * 1,15 = 278,8 Se usássemos a média geométrica obtida (29,22%) para cada ano teríamos o mesmo faturamento em 2008 42008 )2922,1(*100)2922,1(*)2922,1(*)2922,1(*)2922,1(*100F 278,8 reais Unidade 02 – Medidas Estatísticas 12 Note que chegamos aos mesmos 278,8 em 2008 na tabela anterior. Esta é a finalidade das médias - obter o mesmo efeito produzido pelos valores individuais. Caso usássemos a média aritmética simples das taxas, a taxa média seria de 29,75% (ligeiramente maior que a média geométrica). %75,29 4 15482630 x Estes 29,75% produziriam um faturamento de 283,4 reais em 2008, diferente dos 278,8 reais esperados. 4,283)2975,1(*100 42008 F Média harmônica A média harmônica equivale ao inverso da média aritmética dos inversos de n valores. Se temos n valores x1, x2, ..., xn, a média harmônica, denotada por hx , é calculada algebricamente por: �̅�ℎ = 𝑛 1 𝑥1 + 1 𝑥2 + ⋯ + 1 𝑥𝑛 = 1 ∑ 1 𝑥𝑖 𝑛 𝑖=1 Por exemplo, a média harmônica dos valores 8, 5, 3, 6 e 10 é �̅�ℎ = 5 1 8 + 1 5 + 1 3 + 1 6 + 1 10 = 5 0,9250 = 5,4054 Usando o programa R. x = c(8,5,3,6,10) # valores n = length(x) #tamanho de x n / sum(1/x) # média harmônica Aplicação3: Problemas envolvendo média de velocidades, vazões, taxas e frequências são, em geral, resolvidos com a média harmônica. Por exemplo, ao percorrer um mesmo trajeto a 60 km/h na ida e a 40 km/h na volta, sua velocidade média no percurso não será a média aritmética entre as velocidades (50 km/h), mas sim a média harmônica, que é igual a 48 km/h. 3 José Luiz Pastore Mello, mestre em ensino de matemática pela USP e professor do Colégio Santa Cruz Unidade 02 – Medidas Estatísticas 13 Alguns comentários (1) Comparação entre as médias aritmética simples, geométrica e harmônica. É importante destacar que em todas as médias o resultado sempre estará entre o maior e o menor número dado no conjunto e que para os mesmos valores, a média aritmética terá o maior valor, seguida da média geométrica e depois a média harmônica. Resumidamente, se xmenor e xmaior são, respectivamente, o menor e maior valor do conjunto de dados, então temos que: 𝑥𝑚𝑒𝑛𝑜𝑟 ≤ �̅�ℎ ≤ �̅�𝑔 ≤ �̅� ≤ 𝑥𝑚𝑎𝑖𝑜𝑟 b) Propriedades da média aritmética simples Suponha que a série de números x = {x1, x2, ..., xn} têm uma média x : (1) Somando-se (ou subtraindo-se) uma constante a de todos os valores desta série, a média da “nova” série ficará aumentada (ou diminuída) dessa constante. Se axy ii axy (2) Multiplicando-se (ou dividindo-se) todos os valores da série por uma constante b, a média da “nova” série ficará multiplicada (ou dividida) dessa constante. Se ii bxy xby (3) A soma dos desvios de cada valor xi em torno da média é sempre zero, ou seja, 0 n 1i id , onde xxd ii . Por exemplo, a série x = {1, 2, 3, 3, 4, 5} tem uma média igual a x = 3. A soma dos desvios de cada valor x em relação à média x será zero (ver coluna 2) Se somar 6 à cada valor x, a nova média será 3 + 6 = 9 (ver coluna 3) Se 𝑦 = 𝑥 + 6, então �̅� = �̅� + 6 = 3 + 6 = 9 Se multiplicar cada valor de x por 6, a nova média será 3*4 = 12 (ver coluna 4) Se 𝑦 = 6𝑥, então �̅� = 6�̅� = 6 ∙ 3 = 18 (1) xi (2) 𝑥 − �̅� (3) 𝑦 = 𝑥 + 6 (4) 𝑦 = 6𝑥 1 -2 7 6 2 -1 8 12 3 0 9 18 3 0 9 18 4 1 10 24 5 2 11 30 média = 3 soma = 0 média = 9 média = 18 Unidade 02 – Medidas Estatísticas 14 2.2 - Medidas de posição central para dados agrupados 2.2.1 - Dados agrupados em tabelas de frequência sem classe MédiaEm tabelas de frequência sem intervalos de classe, as frequências (absoluta ou relativa) de cada valor x da variável funcionam como fatores de ponderação, já que elas podem ser vistas como indicadores da intensidade de cada valor da variável. Por esse motivo, o cálculo de uma média amostral é bem parecido com o cálculo da média ponderada, tendo as frequências como pesos dos valores. �̅� = ∑ 𝑥𝑖𝑓𝑖 𝑘 𝑖=1 ∑ 𝑓𝑖 𝑘 𝑖=1 onde 𝑥𝑖 = cada valor da série 𝑓𝑖= frequência de cada valor Exemplo 6. A tabela abaixo mostra a distribuição do número de filhos para uma amostra de 20 funcionários. Número de Filhos Quantidade de funcionários 0 5 1 7 2 5 3 2 4 1 Solução -------------------------------------------------------------------------------------------------------------- O número médio de filhos desses funcionários é obtido acrescentando coluna 𝑥 ∙ 𝑓 que é o produto de cada valor x pela sua respectiva frequência f, somando esta coluna e dividindo o resultado pela soma das frequências. x f xf 0 5 0 1 7 7 2 5 10 3 2 6 4 1 4 Total ∑ 𝑓𝑖 = 20 ∑ 𝑥𝑖𝑓𝑖 = 27 Portanto, �̅� = ∑ 𝑥𝑖𝑓𝑖 𝑘 𝑖=1 ∑ 𝑓𝑖 𝑘 𝑖=1 = 27 20 = 1,35 filho Comentário: Pode parecer estranho dizer 1,35 filho, mas esse valor é uma média. Seria estranho dizer que a família do Sr. João tem 1,35 filho. Unidade 02 – Medidas Estatísticas 15 Mediana O cálculo da mediana para dados agrupados é bem semelhante àquele utilizado em dados não agrupados. Só vamos acrescentar a coluna com a frequência acumulada (F) para agilizar a localização da mediana na tabela. Procedimento (1) Coloque a coluna com a frequência absoluta acumulada (F); (2) Calcule 2npos que é a posição da mediana (lembre-se: n = f) (3) Localize a mediana como sendo o valor, cuja com frequência acumulada (F) é imediatamente superior à posição pos da mediana; Exemplo 7. A tabela abaixo mostra a distribuição do número de filhos para uma amostra de 20 funcionários. Número de Filhos Quantidade de funcionários 0 5 1 7 2 5 3 2 4 1 Solução -------------------------------------------------------------------------------------------------------------- x f F 0 5 5 1 7 12 2 5 17 3 2 19 4 1 20 A posição da mediana é pos = n/2 = 20/2 = 10. Pela última coluna, a frequência acumulada 12 é imediatamente superior a pos = 10, portanto a mediana é o valor 1 filho. Comentário No caso de existir uma frequência acumulada F exatamente igual a pos = n/2, a mediana será igual a média entre dois valores da variável. Um destes valores corresponderá a frequência acumulada F e o outro valor corresponderá à frequência acumulada F seguinte. Com exemplo, a mediana da variável X abaixo é a média dos valores 1 e 2, ou seja, md = 1,5. X f F 0 4 5 1 6 10 2 7 17 3 2 19 4 1 20 A posição da mediana é pos = n/2 = 20/2 = 10. Como existe uma F = 10, então: md = (1+2)/2 = 1,5 filho Portanto, a mediana é md = 1,5 filho Unidade 02 – Medidas Estatísticas 16 Moda A moda é o valor da variável com maior frequência (absoluta ou relativa). Exemplo 8. A tabela abaixo mostra a distribuição do número de filhos para uma amostra de 20 funcionários. Calcule a moda do número de filhos. Número de Filhos Quantidade de funcionários 0 5 1 7 2 5 3 2 4 1 Solução -------------------------------------------------------------------------------------------------------------- Da tabela, vemos que a moda é o valor 1, visto que ele apresenta a maior frequência absoluta (f = 7). Portanto, a moda é Mo = 1 filho. Outra forma Uma forma fácil de calcular a média e mediana é expandir os valores da variável X e calcular a média e mediana da mesma forma como foi visto para dados individuais. A mediana abaixo será igual a média entre os dois valores centrais 1 e 2. 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 3, 3, 4 Unidade 02 – Medidas Estatísticas 17 2.2.2 - Dados agrupados em tabelas de frequência com classe Média Em tabelas de frequência com classe, as frequências (absoluta ou relativa) também funcionam como fatores de ponderação dos valores da variável. Mas é aí que está o problema, qual valor do intervalo deverá ser usado? Como estamos trabalhando com intervalos, temos de decidir qual valor usar para a variável em cada classe. Se optar por trabalhar com o limite inferior das classes, a média tende a ser subestimada (ser menor do que realmente é), por outro lado, se optar por trabalhar com o limite superior das classes, a média tende a ser superestimada (ser maior do que realmente é). Para evitar a subestimação e superestimação da média, assumimos que os valores estão distribuídos de forma uniforme dentro da classe e calculamos o ponto médio x de cada classe. O cálculo da média é: �̅� = ∑ 𝑥𝑖𝑓𝑖 𝑘 𝑖=1 ∑ 𝑓𝑖 𝑘 𝑖=1 onde: x e f são o ponto médio e a frequência absoluta de cada classe f = n é o tamanho da amostra Exemplo 9. A tabela abaixo mostra a distribuição dos salários (em salários-mínimos) para uma amostra de 20 funcionários. Cacule o salário médio desses funcionários. Salários (em SM) Quantidade de funcionários 2,0 | 3,5 6 3,5 | 5,0 7 5,0 | 6,5 4 6,5 | 8,0 2 8,0 | 9,5 1 Solução -------------------------------------------------------------------------------------------------------------- Acrescente uma coluna com o ponto médio de cada classe (x) e uma coluna com o produto x∙f. Salários Ponto médio x f xf 2,0 | 3,5 2,75 6 16,50 3,5 | 5,0 4,25 7 29,75 5,0 | 6,5 5,75 4 23,00 6,5 | 8,0 7,25 2 14,50 8,0 | 9,5 8,75 1 8,75 Total --- = 20 = 92,50 Unidade 02 – Medidas Estatísticas 18 Da tabela temos f = 20 e x∙f = 92,50. Portanto, a média é: �̅� = ∑ 𝑥𝑖𝑓𝑖 𝑘 𝑖=1 ∑ 𝑓𝑖 𝑘 𝑖=1 = 92,5 20 = 4,63 𝑆𝑀 Mediana Para obter a mediana em dados agrupados com classe, o procedimento é o seguinte: (1) Determine a frequência absoluta acumulada (F); (2) Calcule a posição da mediana 2npos (lembre-se: n = f) (3) Localize a classe mediana como sendo a classe com a frequência acumulada (F) imediatamente superior à posição pos da mediana; (4) Calcule a mediana usando: 𝑚𝑑 = ℓ + ( 𝑛 2 − 𝐹𝑎𝑛𝑡) 𝑓 (𝐿 − ℓ) onde, ℓ 𝑒 𝐿 L = limites inferior e superior da classe mediana, respectivamente. 𝑓 = frequência absoluta da classe mediana, antF = frequência absoluta acumulada anterior à classe mediana. Comentário: No caso de existir uma frequência acumulada F exatamente igual a 2npos , a mediana será o limite superior da classe correspondente. Classe f F ... ℓ | f F ... classe mediana Unidade 02 – Medidas Estatísticas 19 Exemplo 10. A tabela abaixo mostra a distribuição dos salários (em salários-mínimos) para uma amostra de 20 funcionários. Cacule a mediana dos salários desses funcionários. Salários (em SM) Quantidade de funcionários 2,0 | 3,5 6 3,5 | 5,0 7 5,0 | 6,5 4 6,5 | 8,0 2 8,0 | 9,5 1 Solução -------------------------------------------------------------------------------------------------------------- Para calcular amedida dos salários dos funcionários do exemplo anterior, vamos criar uma coluna com a frequência acumulada (F). Salários f F 2,0 | 3,5 6 6 3,5 | 5,0 7 13 5,0 | 6,5 4 17 6,5 | 8,0 2 19 8,0 | 9,5 1 20 A posição da mediana é pos = n/2 = 20/2 = 10. A classe mediana é a classe 3,5 | 5,0, pois a sua frequência acumulada é 13 (imediatamente superior a pos = 10). Então, da tabela temos: = 3,5 L = 5,0 if = 7 e antF = 6 𝑚𝑑 = ℓ + ( 𝑛 2 − 𝐹𝑎𝑛𝑡) 𝑓 (𝐿 − ℓ) = 3,5 + ( 20 2 − 6) 7 (5 − 3,5) = 4,36 𝑆𝑀 O ponto médio da classe mediana (5,0 + 3,5)/2 = 4,25 é denominada de mediana bruta. Unidade 02 – Medidas Estatísticas 20 Moda A moda em uma tabela de frequência com classe, provavelmente estará dentro da classe com a maior frequência. Essa classe é denominada de classe modal. Após identificar, a classe modal, calcule a moda usando um dos dois métodos abaixo: moda bruta: 𝑚𝑜 = ℓ + 𝐿 2 método de Czuber: 𝑚𝑜 = ℓ + 𝑓 − 𝑓𝑎𝑛𝑡 (𝑓 − 𝑓𝑎𝑛𝑡) + (𝑓 − 𝑓𝑝𝑜𝑠𝑡) (𝐿 − ℓ) método de King: 𝑚𝑜 = ℓ + 𝑓𝑝𝑜𝑠𝑡 𝑓𝑎𝑛𝑡 + 𝑓𝑝𝑜𝑠𝑡 (𝐿 − ℓ) método de Pearson4 𝑚𝑜 = 3𝑚𝑑 − �̅� onde, x e md = média e mediana amostral; e L = limite inferior e superior da classe modal; f = frequência absoluta da classe modal; 𝑓𝑎𝑛𝑡 = frequência absoluta da classe anterior à classe modal; 𝑓𝑝𝑜𝑠𝑡 = frequência absoluta da classe posterior à classe modal. 4 O método de Pearson fornece boa aproximação para o cálculo da moda quando a distribuição analisada apresenta uma razoável simetria em torno da média. Algumas outras relações também são interessantes, a partir desse método. Por exemplo, 3x2MoMd ou 2MoMd3x . Classe f F ... ℓ | f F ... classe modal Unidade 02 – Medidas Estatísticas 21 Exemplo 11. A tabela abaixo mostra a distribuição dos salários (em salários-mínimos) para uma amostra de 20 funcionários. Cacule a moda dos salários desses funcionários. Salários (em SM) Quantidade de funcionários 2,0 | 3,5 6 3,5 | 5,0 7 5,0 | 6,5 4 6,5 | 8,0 2 8,0 | 9,5 1 Solução -------------------------------------------------------------------------------------------------------------- A classe modal é segunda classe, 8 | 12, pois ela apresenta a maior frequência absoluta (f = 7). Salários f 2,0 | 3,5 6 3,5 | 5,0 7 5,0 | 6,5 4 6,5 | 8,0 2 8,0 | 9,5 1 Da tabela temos: = 3,5 ; L = 5,0 ; f = 7 ; 𝑓𝑎𝑛𝑡 = 6 ; 𝑓𝑝𝑜𝑠𝑡 = 4 Vamos usar todos os métodos para obter a moda. Moda bruta 𝑚𝑜 = ℓ + 𝐿 2 = 3,5 + 5 2 = 4,25 𝑆𝑀 Método de Czuber 𝑚𝑜 = ℓ + 𝑓 − 𝑓𝑎𝑛𝑡 (𝑓 − 𝑓𝑎𝑛𝑡) + (𝑓 − 𝑓𝑝𝑜𝑠𝑡) (𝐿 − ℓ) = 3,5 + 7 − 6 (7 − 6) + (7 − 4) (5 − 3,5) = 3,88 𝑆𝑀 Método de King 𝑚𝑜 = ℓ + 𝑓𝑝𝑜𝑠𝑡 𝑓𝑎𝑛𝑡 + 𝑓𝑝𝑜𝑠𝑡 (𝐿 − ℓ) = 3,5 + 4 6 + 4 (5,0 − 3,5) = 4,10 𝑆𝑀 Método de Pearson 𝑚𝑜 = 3𝑚𝑑 − �̅� = 3(4,36) − 4,63 = 3,82 𝑆𝑀 Lembre-se de que md = 4,36 e x = 4,63 foram obtidos nos exemplos anteriores. Unidade 02 – Medidas Estatísticas 22 3 - Medidas de Variabilidade As medidas de posição central (média, mediana, etc) vistas anteriormente, não conseguem sozinhas descrever bem a distribuição de uma série de valores. Por exemplo, considere a quantidade de gols feitos por dois times nos últimos sete campeonatos nacionais. Time A: 80, 78, 80, 85, 75, 85, 80 Time B: 50, 78, 67, 85, 88, 94, 98 Cada time fez, em média, 80 gols em cada ano, nos levando a crer que ambos os times tiveram desempenhos semelhante no que se refere ao número de gols nos últimos sete campeonatos. Analisando a quantidade de gols marcados pelos times, notaremos que essa quantidade varia de 75 a 85 gols no time ‘A’, enquanto que a do time ‘B’ varia de 50 a 98 gols, e com base nesta variação na quantidade de gols marcados podemos ver que o desempenho de ambos os times é bem distinto. A medida de dispersão ou de variabilidade informa o quanto os valores de uma série de valores estão afastados ou dispersos em relação a uma medida central, que normalmente é a média aritmética. As medidas de variabilidade permitem quantificar a variação presente em um conjunto de dados. As medidas usuais são: Medidas de dispersão absoluta Desvio-padrão Variância Amplitude Desvio médio absoluto Medidas de dispersão relativa Coeficiente de variação 12111098765432 Distância percorrida Dotplot of X 30 40 50 60 70 80 90 100 12111098765432 Distância percorrida Dotplot of X 30 40 50 60 70 80 90 100 Unidade 02 – Medidas Estatísticas 23 3.1 - Medida de variabilidade para dados individuais As medidas abaixo se referem aos dados brutos, ou seja, uma série de valores que não agrupados em tabelas de freqüência. Amplitude A amplitude é diferença entre o maior e o menor valor em uma série de números. MínimoMáximoAt Para o conjunto x = {9, 4, 5, 10, 7} a amplitude será: 6410 tA A amplitude será sempre maior ou igual a zero e nunca negativa. Uma maior amplitude indicaria que os valores estão mais afastados uns dos outros. É a medida mais simples de dispersão, mas ela deixa a desejar quando trabalhamos com grande conjunto de dados, pois desconsidera os valores entre o mínimo e o máximo. A duas séries abaixo têm a mesma amplitude, porém pelo gráfico de pontos vemos que a variabilidade é diferente em ambos. x = {7, 7, 4, 7, 10} y = {9, 4, 5, 10, 7} x = {7, 7, 4, 7, 10} At = 6 y = {9, 4, 5, 10, 7} At = 6 A amplitude consegue medir bem a variabilidade, quando se tem uma amostra pequena. Por isto, tem grande aplicação na área de controle de qualidade, onde se deseja uma rápida medida de variabilidade. Desvio médio absoluto O grande inconveniente da amplitude é que ela usa apenas os valores extremos dos dados, deixando de lado os demais valores. Uma medida que considera todos os valores do conjunto seria mais interessante e mais justa para representar a variabilidade dos dados. O desvio médio absoluto, representado por DMA, é uma das medidas de dispersão que leva em consideração todos os valores do conjunto. O DMA analisa a dispersão dos dados em torno de um valor central, representado pela média aritmética. O desvio médio absoluto é dado pela fórmula abaixo: 𝐷𝑀𝐴 = ∑ |𝑥𝑖 − �̅�| 𝑛 𝑖=1 𝑛 onde x = cada um dos valores da série n = número de valores (tamanho da amostra) |𝑥𝑖 − �̅�| = módulo do desvio do valor x em relação à média 12111098765432 Distância percorrida Dotplot of X 12111098765432 Distância percorrida Dotplot of X Unidade 02 – Medidas Estatísticas 24 Como se vê, o desvio médio absoluto pode ser visto como uma média do afastamento dos valores em relação à média do conjunto. Quanto maior o DMA, mais afastados os valores estarão da média, portanto maior será a variabilidade. O DMA é uma medida sempre maior ou igual à zero, NUNCA negativa. Exemplo 12. Considerando as duas séries de notas em dois testes (X e Y), calculeo desvio médio absoluto das notas. x = {7, 7, 4, 7, 10} y = {9, 4, 5, 10, 7} Solução ------------------------------------------------------------------------------------------------------------------ Um modo prático de se calcular o desvio médio absoluto é colocar os valores em forma de tabela e calcular o módulo dos desvios em torno da média. Veja abaixo como ficariam os cálculos. Teste X Teste Y x Desvio 𝑥𝑖 − �̅� |𝑥𝑖 − �̅�| y Desvio 𝑦𝑖 − �̅� |𝑦𝑖 − �̅�| 7 0 0 9 2 2 7 0 0 4 -3 3 4 -3 3 5 -2 2 7 0 0 10 3 3 10 3 3 7 0 0 - = 0 = 6 - = 0 = 10 𝐷𝑀𝐴𝑋 = ∑ |𝑥𝑖 − �̅�| 𝑛 𝑖=1 𝑛 = 6 5 = 1,2 𝐷𝑀𝐴𝑌 = ∑ |𝑦𝑖 − �̅�| 𝑛 𝑖=1 𝑛 = 10 5 = 2,0 Usando o programa R. x = c(7,7,4,7,10) # valores d = abs(x - mean(x)) # modulo dos desvios sum(d) / length(x) # DMA Como o 𝐷𝑀𝐴𝑌 = 2,0 foi maior que o 𝐷𝑀𝐴𝑋 = 1,2, conclui-se que as notas do teste Y apresenta maior variabilidade do que as notas do teste X. O DMA usa todos os valores da série e resolver o problema apresentado pela amplitude, mas apresenta alguns pontos fracos, dentre eles: O DMA é bastante influenciado pelos valores atípicos (outliers); Pelo fato de trabalhar com o módulo, certas propriedades estatísticas do DMA são difíceis de serem verificadas5. 5 Característica de um bom estimador: não ser viciado e ter menor variabilidade. Unidade 02 – Medidas Estatísticas 25 Variância amostral (s2) e desvio-padrão amostral (s) A variância amostral, representada por s2, é uma medida de variabilidade baseada nos desvios de cada valor em torno da média. Como esses desvios podem assumir valores positivos e negativos, a soma de todos eles serão sempre zero. Para evitar que a soma dê sempre zero, a variância trabalha com os desvios elevados ao quadrado6. A variância é dada pela fórmula abaixo: 𝑠2 = ∑ (𝑥𝑖 − �̅�) 2𝑛 𝑖=1 𝑛 − 1 = (𝑥1 − �̅�) 2 + (𝑥2 − �̅�) 2 + ⋯ +(𝑥𝑛 − �̅�) 2 𝑛 − 1 A variância é aproximadamente uma média dos desvios ao quadrado. Quanto maior a variância, mais afastados os valores estarão da média, portanto maior será a variabilidade destes valores. A variância é uma medida sempre maior ou igual a zero e NUNCA negativa. Exemplo 13. Como exemplo, vamos calcular o desvio médio absoluto das notas em dois testes (X e Y). x = {7, 7, 4, 7, 10} y = {9, 4, 5, 10, 7} Solução ------------------------------------------------------------------------------------------------------------------- Voltando ao exemplo dos dois testes, vamos calcular a variância das notas obtidas em ambos os testes. x = {7, 7, 4, 7, 10} y = {9, 4, 5, 10, 7} Teste X 𝑠2 = ∑ (𝑥𝑖 − �̅�) 2𝑛 𝑖=1 𝑛 − 1 = (7 − 7)2 + (7 − 7)2 + ⋯ + (10 − 7)2 5 − 1 = 18 4 = 4,5 𝑝𝑜𝑛𝑡𝑜𝑠2 Teste Y 𝑠2 = ∑ (𝑦𝑖 − �̅�) 2𝑛 𝑖=1 𝑛 − 1 = (9 − 7)2 + (4 − 7)2 + ⋯ + (7 − 7)2 5 − 1 = 26 4 = 6,5 𝑝𝑜𝑛𝑡𝑜𝑠2 Assim como foi feito para o DMA, o modo mais prático é formar uma tabela com os valores, Teste X Teste Y x Desvio 𝑥𝑖 − �̅� (𝑥𝑖 − �̅�) 2 y Desvio 𝑦𝑖 − �̅� (𝑦𝑖 − �̅�) 2 7 0 0 9 2 4 7 0 0 4 -3 9 4 -3 9 5 -2 4 7 0 0 10 3 9 10 3 9 7 0 0 - = 0 = 18 - = 0 = 26 𝑆𝑥 2 = ∑ (𝑥𝑖 − �̅�) 2𝑛 𝑖=1 𝑛 − 1 = 18 5 − 1 = 4,5 𝑆𝑦 2 = ∑ (𝑦𝑖 − �̅�) 2𝑛 𝑖=1 𝑛 − 1 = 26 5 − 1 = 6,5 6 O DMA calcula o módulo de cada desvio, em vez de elevar cada desvio ao quadrado. Unidade 02 – Medidas Estatísticas 26 Como a variância de Y (6,5) foi maior que a variância de X (4,5), conclui-se que os valores no teste Y estão mais afastados da média do que as valores do teste X, ou seja, os valores de x estão mais homogêneos em torno da média do que os valores de Y Pelo fato de trabalhar com os desvios elevados ao quadrado, a unidade de medida da variância é também elevada ao quadrado também. Por exemplo, se os valores de X se referir à idade (em anos) de cinco crianças, então a variância seria igual a 4,5 anos2. Se o conjunto se referir ao salário (em mil reais) de cinco funcionários, então a variância será igual a 4.500 reais2 e, por fim, se o conjunto se referir ao número de filhos de cinco famílias, então a variância será igual 4,5 filhos2. Fica difícil ter alguma interpretação prática para a variância, já que sua unidade de medida não é a mesma dos dados originais. Para resolver essa pequena inconveniência, a solução foi simplesmente tirar a raiz quadrada do valor da variância, surgindo assim, o desvio-padrão. O desvio-padrão amostral, representada por s ou dp, é apenas a raiz quadrada da variância. Portanto sua fórmula é dada por: 𝑠 = √𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 = √ ∑ (𝑥𝑖 − �̅�)2 𝑛 𝑖=1 𝑛 − 1 Continuando com o exemplo anterior, o desvio-padrão seria: Teste X: O desvio-padrão do conjunto x é 5,4s x 2,12 pontos Teste Y: O desvio-padrão do conjunto y é 5,6s y 2,55 pontos Quanto maior o valor do desvio-padrão, mais afastados os valores estarão da média, portanto maior será a variabilidade dos valores. A unidade de medida do desvio-padrão é a mesma unidade dos dados originais. Por exemplo, se conjunto x do exemplo anterior se referir à idade (em anos) de cinco crianças, então o desvio-padrão será igual a 2,12 anos e, por fim, se o conjunto se referir ao salário (em mil reais) de cinco funcionários, então o desvio-padrão será igual a 2.120 reais. Usando o programa R. x = c(7,7,4,7,10) # valores de x y = c(9,4,5,10,7) # valores de y var(x) ; var(y) # variância de x e y sd(x) ; sd(y) # desvio-padrão de x e y Unidade 02 – Medidas Estatísticas 27 O que de fato vem a ser o desvio-padrão? Essa é uma pergunta muito comum. O desvio-padrão é a medida de variabilidade mais comum na estatística. Sua aplicação se torna mais fácil de entender, quando ele é usado para comparar a variabilidade entre dois ou mais conjuntos de valores. Outra forma de explicar o desvio-padrão é dizer que ele pode ser usado como uma medida de distância de cada valor em relação à média. Um valor que está a apenas meio desvio-padrão da média significa que está bem perto da média (podendo estar acima ou abaixo), ao passo que um valor que está três desvios-padrão da média significa que está muito distante da média. Isto é possível, porque sabemos que em uma distribuição normal (distribuição simétrica e em forma de sino), 68,3% dos valores estarão distantes de um desvio-padrão abaixo e acima da média, 95,5% dos valores estarão distantes dois desvios-padrão e 99,7% dos valores estarão distantes três desvios-padrão. A média e o desvio-padrão do Enem (Exame Nacional do Ensino Médio) é 500 e 100, respectivamente. Então, podemos esperar que 95,4% das pessoas que fazem o Enem tenham uma nota de 500 2∙(100) = 500 200 = [300 ; 700] pontos. Variância e desvio-padrão de uma população Quando trabalhamos com os dados de uma população, a variância passa a ser denominada de variância populacional e é denotada pelo símbolo 2 (leia-se sigma ao quadrado). Na realidade, o cálculo é semelhante ao cálculo da variância amostral, com exceção de que no denominador não há a subtração do valor 1. A fórmula da variância populacional é: 𝜎2 = ∑ (𝑥𝑖 − 𝜇)2𝑁 𝑖=1 𝑁 onde 𝑥𝑖 = cada valor da série = média populacional N = tamanho da população O desvio-padrão populacional é denotado por é calculado por: 𝜎 = √ ∑ (𝑥𝑖 − 𝜇)2 𝑁 𝑖=1 𝑁 Unidade 02 – Medidas Estatísticas 28 Por que na variância amostral a divisão é por n - 1 e não por n? Quando temos os dados de toda a população, o cálculo da variância é feito dividindo a soma dos desvios ao quadrado pelo tamanho da população N, obtendo, então, uma média desses desvios. Entretanto, na estatística, frequentemente trabalhamos com apenas uma amostra e o desejo é usar essa amostra para obter estimativas de parâmetros da população, entre eles a variância populacional (2). Ao calcular a variância amostral (s2) usando n no denominador, o valor obtido de s2 estará subestimando a real variância (2). Então, para melhorar a estimativa da real variância (2), calculamos a variância usando o n – 1 no denominador, em vez de n. Fórmula alternativa de calcular a variância e/ou o desvio-padrão A fórmula alternativa abaixo permite calcular a variância amostral sem precisar calcular a média antes. 𝑠2 = 𝑛(∑ 𝑥𝑖 2) − (∑ 𝑥𝑖) 2 𝑛(𝑛 − 1) onde: n n i i xxxx 21 1 e 22 2 2 1 1 2 n n i i xxxx Por exemplo, considerando a série y = {9, 4, 5, 10, 7} usando a fórmula acima. ∑ 𝑦𝑖 = 9 + 4 + 5 + 100 + 7 = 35 ∑ 𝑦𝑖 2 = 92 + 42 + 52 + 102 + 72 = 271 𝑠2 = 𝑛(∑ 𝑦𝑖 2) − (∑ 𝑦𝑖) 2 𝑛(𝑛 − 1) = 5(271) − 352 5(5 − 1) = 6,5 Usando o programa R. y = c(9,4,5,10,7) # valores de y n = length(y) # tamanho de y a = sum(y^2) # soma dos quadrados b = sum(y)^2 # quadrado das somas (n*a - b) / (n*(n-1)) Unidade 02 – Medidas Estatísticas 29 Propriedades do desvio-padrão Suponha que os dados do conjunto x = {x1, x2, ... ,xn} têm um desvio-padrão sx. (1) Somando-se (ou subtraindo-se) uma constante a a todos os valores de uma variável, o desvio-padrão do conjunto não se altera. Se axy ii xy ss (2) Multiplicando-se (ou dividindo-se) todos os valores de uma variável por uma constante b, o desvio-padrão do conjunto fica multiplicado (ou dividido) dessa constante. Se ii bxy xy bss (3) Combinando as propriedades (1) e (2), temos: Se abxy ii xy bss Exemplo 14. Considere a série x = {1, 2, 3, 3, 4, 5}, cujo desvio-padrão sx = 1,4142 é conhecido. Calcule o desvio-padrão dos novos valores, se: (a) For adicionado o valor 6 a cada valor do x. (b) For multiplicado por 4 cada valor de x. Solução ------------------------------------------------------------------------------------------------------------------- (a) Será igual ao desvio-padrão anterior, 1,4142. Se yi = xi + 6, então xy ss = 1,4142 (veja a coluna 2 da tabela abaixo) (b) Será igual a 4 vezes o desvio-padrão anterior, ou seja, será 5,6568. Se yi = 4*xi, então xy s4s = 4*1,4142 = 5,6568 (veja a coluna 3 da tabela abaixo) (1) x (2) y = x + 6 (3) y = 4*x 1 7 4 2 8 8 3 9 12 3 9 12 4 10 16 5 11 20 sx = 1,4142 sy = 1,4142 sy = 5,6569 Unidade 02 – Medidas Estatísticas 30 Exemplo 15. Sabendo que X é uma variável com com média 50 e desvio-padrão sx = 15. Calcule a média, o desvio-padrão e a variância da nova variável 610 5 4 XY . Solução ------------------------------------------------------------------------------------------------------------------- Vamos primeiro desenvolver o Y. 2 5 4 68 5 4 610 5 4 5 4 610 5 4 XXXXY Portanto, 2 5 4 XY Aplicando a propriedade da média: 38250 5 4 2 5 4 xy . Aplicando a propriedade do desvio-padrão: 1215 5 4 5 4 xy ss . A variância de Y será (12)2 = 144 Coeficiente de variação (CV) O coeficiente de variação, representado por CV, é uma medida relativa de dispersão, pois leva em consideração a média do conjunto de dados. Ele é a razão entre o desvio-padrão s e a média x , isto é: x s CV Como se pode ver, o CV é adimensional (não tem unidade de medida) e multiplicando o valor obtido por 100, ele será expresso em percentual (%). O coeficiente de variação é indicado para comparar variabilidade de variáveis com unidades diferentes ou comparar variabilidade entre conjuntos com grandezas diferentes. Considere o quadro resumo a seguir com peso e altura da mãe o bebê, QUADRO RESUMO X = Peso de recém- nascidos (em kg) Y = Peso da mãe dos recém-nascidos (em kg) Z = Altura da mãe dos recém-nascidos (em cm) Q = Altura do pai dos recém-nascidos (em cm) média = 5 kg dp = 0,82 kg CV = 16,3% média = 67 kg dp = 6,78 kg CV = 9,4% média = 171 cm dp = 8,08 cm CV = 4,7% média = 175 cm dp = 10,8 cm CV = 6,2% dp = desvio-padrão Unidade 02 – Medidas Estatísticas 31 Comparando variabilidade entre as variáveis X e Y As unidades de medidas são as mesmas para ambas as variáveis, porém o peso médio da mãe (67 kg) é muito diferente do peso médio da criança (5 kg). Nesse caso, a melhor forma de comparar a variabilidade é usar o coeficiente de variação (CVX = 16,3% e CVY = 9,4%). Comparando os resultados, vê-se que a variação relativa dos pesos7 é maior para os recém- nascidos do que para as mães. Comparando variabilidade entre as variáveis Y e Z As unidades de medidas são bem diferentes (kg para peso e cm para altura). Nesse caso, a única forma de comparar a variabilidade é usando o coeficiente de variação (CVY = 9,4% e CVZ = 9,4%). Comparando os resultados, vê-se que a variação relativa é maior para os pesos das mães. Comparando variabilidade entre as variáveis Z e Q As unidades de medidas são as mesmas e as médias são bem parecidas (171 cm das mães e 175 cm dos pais). Nesse caso, podemos usar tanto o desvio-padrão quanto o coeficiente de variação. Comparando os resultados, vê-se que há uma maior variabilidade nas alturas dos pais (dp = 10,8 cm e CV = 6,2%) do que nas alturas das mães (dp = 8,08 cm e CV = 4,7%). 7Variação em torno da média. Unidade 02 – Medidas Estatísticas 32 3.2 - Medidas de variabilidade para dados agrupados 3.2.1 - Dados agrupados em tabelas de frequência sem classe Se os dados estão agrupados em tabela sem classe, a fórmula da variância será: 𝑠2 = 1 𝑛 − 1 ∑[(𝑥𝑖 − �̅�) 2𝑓𝑖] 𝑖 𝑜𝑢 𝑠2 = 𝑛(∑ 𝑥𝑖 2𝑓𝑖) − (∑ 𝑥𝑖𝑓𝑖) 2 𝑛(𝑛 − 1) Onde, xi será o valor da variável e fi será a frequência deste valor, como foi no cálculo da média. Exemplo 16. A tabela abaixo mostra a distribuição do o número de filhos para uma amostra de 20 funcionários. Calcule a variância e o desvio-padrão do número de filhos dos funcionários. Número de Filhos Quantidade de funcionários 0 5 1 7 2 5 3 2 4 1 Solução ------------------------------------------------------------------------------------------------------------------ Complete a tabela acrescentando uma coluna com o produto 𝑥𝑓 e outra com o produto 𝑥2𝑓 . x f 𝑥𝑓 𝑥2𝑓 0 5 0 0 1 7 7 7 2 5 10 20 3 2 6 18 4 1 4 16 Total 20 27 61 Databela ao lado temos: ∑ 𝑓 = 20, ∑ 𝑥𝑓 = 27, ∑ 𝑥2𝑓 = 61 Variância: 20 27 61 120 1 s 2 2 = 1,29 (filho)2 Desvio-padrão: 29,1s = 1,14 filho Unidade 02 – Medidas Estatísticas 33 3.2.2 - Dados agrupados em tabelas de frequência com classe Se os dados estão agrupados em tabela sem classe, a fórmula da variância será: 𝑠2 = 1 𝑛 − 1 ∑[(𝑥𝑖 − �̅�) 2𝑓𝑖] 𝑖 𝑜𝑢 𝑠2 = 𝑛(∑ 𝑥𝑖 2𝑓𝑖) − (∑ 𝑥𝑖𝑓𝑖) 2 𝑛(𝑛 − 1) Onde, x será o ponto médio de cada classe e f será a frequência da classe, como foi no cálculo da média. Exemplo 17. A tabela abaixo mostra a distribuição dos salários (em salários-mínimos) para uma amostra de 20 funcionários. Calcule o salário médio desses funcionários. Salários (em SM) Quantidade de funcionários 2,0 | 3,5 6 3,5 | 5,0 7 5,0 | 6,5 4 6,5 | 8,0 2 8,0 | 9,5 1 Solução ------------------------------------------------------------------------------------------------------------------ Complete a tabela acrescentando uma coluna com o ponto médio de cada classe (xi), uma coluna com o produto 𝑥𝑓 e outra com o produto 𝑥2𝑓 . Salários x f 𝑥𝑓 𝑥2𝑓 2,0 | 3,5 2,75 6 16,50 45,38 3,5 | 5,0 4,25 7 29,75 126,44 5,0 | 6,5 5,75 4 23,00 132,25 6,5 | 8,0 7,25 2 14,50 105,13 8,0 | 9,5 8,75 1 8,75 76,56 Total --- = 20 = 92,50 = 485,75 Variância amostral 𝑠2 = 𝑛(∑ 𝑥𝑖 2𝑓𝑖) − (∑ 𝑥𝑖𝑓𝑖) 2 𝑛(𝑛 − 1) = 20(485,75) − (92,50)2 20(19) = 3,05 Desvio-padrão amostral: 05,3s = 1,75 SM Unidade 02 – Medidas Estatísticas 34 3.3 - Algumas aplicações do desvio-padrão a) Regra empírica A regra abaixo é válida para dados com distribuição simétrica em formato de sino. Cerca de 68,3% dos valores estarão dentro de uma distância de 1 desvio-padrão em torno da média (ou seja, média 1*dp). Cerca de 95,4% dos valores estarão dentro de uma distância de 2 desvios-padrões em torno da média (ou seja, média 2*dp). Cerca de 99,7% dos valores estarão dentro de uma distância de 3 desvios-padrões em torno da média (ou seja, média 3*dp). Como exemplo, no Enem (Exame Nacional do Ensino Médio), as notas dos candidatos têm uma média de 500 pontos e um desvio-padrão de 100 pontos. Assumindo que estas notas se distribuem simetricamente em torno da média em forma de sino, podemos dizer que: Cerca de 95,4% dos candidatos têm notas dentro do intervalo 500 (2*100) = 500 200, ou seja, de 300 a 700 pontos (nove de cada dez têm notas de 300 a 700 pontos). A regra acima deve ser usada em conjunto de dados distribuídos simetricamente em torna da média em forma de sino. Veja as figuras abaixo que mostra uma distribuição simétrica e assimétrica. Simétricos em forma de sino Assimétricos (não simétricos em torno da média) Quando os dados não forem normalmente distribuídos, pode-se usar a desigualdade de Chebychev. b) Desigualdade de Chebychev Este teorema permite fazer afirmações acerca da proporção de valores que devem estar contidos em um número específico de desvios-padrão a partir da média. È um teorema que pode ser aplicado à qualquer conjunto de dados. “No mínimo 1 − (1/𝑘2) dos dados de uma amostra caem dentro de k desvios-padrão da média, onde k é um número real positivo maior que um. ” Por exemplo, considerando três desvios-padrão (k = 3), temos 1 – ( 1 / k2 ) = 1 – (1 / 32) = 8/9 = 88,8%. Ou seja, “no mínimo 89% dos valores de qualquer distribuição devem estar dentro de três desvios-padrão da média”. Unidade 02 – Medidas Estatísticas 35 c) Escore z (ou z-escore) O escore z de um valor x é o número de desvios-padrão que este valor x está acima ou abaixo da média. O escore z pode ser obtido pela fórmula abaixo: dp médiavalor z onde dp = desvio-padrão Usando o escore z para classificar um valor como não usual O escore z pode ser usado para classificar um valor como atípico (valor não usual ou outlier) ou típico (valor usua). Para conjunto de dados simétricos em torno da média podemos usar a regra abaixo: z < 2 valor atípico (considerado valor muito pequeno) z > +2 valor atípico (considerado como muito grande) 2 z +2 valor usual (considerado como valor comum) Exemplo 18. Os homens adultos, em geral, têm uma altura média de 175 cm com um desvio-padrão de 6 cm. Qual será o escore z do jogador de basquetebol norte-americano Michael Jordan tem uma altura de 1,98 metro? Esta altura é atípica na população em geral? Solução ------------------------------------------------------------------------------------------------------------------ 8,3 6 175198 Jordan Michael dp médiavalor z Como z = 3,8 é maior que 2, então podemos concluir que a altura de Michael Jordan não é comum em homens adultos em geral (esta altura seria um valor não usual). Usando o escore z para fazer comparações entre valores O escore z também pode ser usado comparar valores vindos de diferentes conjuntos de dados. Por exemplo, suponha que uma prova foi aplicada aos alunos de duas turmas (A e B). Na turma A, a nota média foi de 10 pontos com desvio-padrão de 5 pontos. Na turma B, a nota média foi de 15 pontos com desvio-padrão de 10 pontos. Vamos comparar as notas da aluna Carla, da turma A, com 18 pontos e da aluna Ana, da turma B, com 25 pontos. O escore z da Carla foi z = 1,6, significando que sua nota está 1,6 desvio-padrão acima da média da turma A. Enquanto que o escore z da Ana foi z = 1,0, significando que sua nota está 1 desvio-padrão acima da média da turma B. 6,1 5 1018 Carlaz 0,1 10 1525 Anaz Usando o escore z podemos concluir que a Carla teve um desempenho melhor dentro da sua turma do que a aluna Ana. Apesar de a Ana ter tirado 25 pontos. Unidade 02 – Medidas Estatísticas 36 4 - Outras medidas estatísticas As medidas de posição central (média, mediana, moda) e as medidas de dispersão (desvio- médio absoluto, variância, desvio-padrão) desempenham um papel importante na estatística, pois conseguem descrever as duas principiais características de uma distribuição de valores: o valor central e a variabilidade. A mediana, além de representar o valor central de uma distribuição, também apresenta uma característica interessante que é a de dividir a distribuição em duas partes iguais quanto ao número de elementos em cada parte. Usando essa última ideia da mediana podemos também dividir a distribuição em quatro, dez ou cem partes iguais quanto ao número de elemento. As medidas que dividem a distribuição em quatro, dez e cem partes iguais são denominados de quartil, decil e percentil, respectivamente. No geral, essas medidas são conhecidas como medidas separatrizes (ou medidas de posição não central). 4.1 - Medidas separatrizes para dados individuais As medidas separatrizes abaixo se referem aos dados brutos, ou seja, dados não agrupados em tabelas de frequência. Quartil Há três quartis (Q1, Q2, Q3), que juntos, dividem a distribuição em quatro partes iguais com cerca de um quarto (ou seja, 25%) dos elementos em cada parte. Primeiro Quartil O primeiro Quartil, simbolizado por Q1, é o valor que separa os 25% menores valores dos demais (75%) (ver figura a). Segundo QuartilO segundo Quartil, simbolizado por Q2, é o valor que separa o conjunto ordenado de valores em duas partes, 50% abaixo e 50% acima. Note que o segundo quartil é a própria mediana, ou seja, Q2 = md (ver figura b). Terceiro Quartil O terceiro Quartil, simbolizado por Q3, é o valor que separa os 25% maiores valores dos demais (75%) (ver figura c). 25% 75% 25% 75% 50% 50% Q1 Q2 = md Q3 ( a ) ( b ) ( c ) Unidade 02 – Medidas Estatísticas 37 Abaixo mostramos um desenho esquematizando a divisão de uma distribuição em quatro partes com 25% dos elementos em cada grupo. Note que de Q1 a Q3 temos metade (ou 50%) dos valores. Não há um consenso mundial sobre um procedimento único para obter os quartis. Abaixo, apresento dois seguintes procedimentos. Procedimento 1 Ordene o conjunto de dados em ordem crescente e calcule 𝑝𝑜𝑠 = 𝑘 ∙ 𝑛/4 que é a posição do Quartil k (k = 1, 2 ou 3); Se pos não for inteiro, arredonde pos para o maior inteiro mais próximo, e o Quartil Qk será o valor que está na posição pos. Se pos for inteiro, então o Quartil Qk será a média entre os valores que estão na posição pos e pos +1. Procedimento 2 Ordene o conjunto de dados em ordem crescente e encontre a mediana do conjunto. Considerando apenas os valores abaixo da mediana, encontre novamente a mediana. Este valore será o 1º quartil Q1. Considerando apenas os valores acima da mediana, encontre novamente a mediana. Este valore será o 3º quartil Q3. Unidade 02 – Medidas Estatísticas 38 Exemplo 19. Os dados abaixo se referem à distância percorrida até a empresa para uma amostra de 20 funcionários. Calcule o 1º e 3º quartis e interprete-os. 8, 7, 6, 2, 9, 8, 15, 15, 16, 3, 18, 8, 8, 3, 9, 18, 2, 6, 6, 2 Solução ------------------------------------------------------------------------------------------------------------------ Ordenando os dados: 2, 2, 2, 3, 3, 6, 6, 6, 7, 8, 8, 8, 8, 9, 9, 15, 15, 16, 18, 18 n = 20 Primeiro quartil k = 1 posição 54201 pos (o Q1 será a média entre 5º e 6º valores km5,4 2 63 Q1 Terceiro quartil (Q3) k = 3 posição 154203 pos (o Q3 será a média entre 15º e 16º valores km0,12 2 159 Q3 Usando o procedimento 2. Como temos um número par de valores, a mediana será a média dos dois valores centrais (8 e 8), então a mediana é 8. 2, 2, 2, 3, 3, 6, 6, 6, 7, 8, 8, 8, 8, 9, 9, 15, 15, 16, 18, 18 O primeiro quartil será a mediana da primeira metade, ou seja, a média dos dois valores centrais (3 e 6). Então, Q1 = (3 + 6)/2 = 4,5. O terceiro quartil será a mediana da segunda metade (azul), ou seja, a média dos dois valores centrais (9 e 15). Então, Q1 = (9 + 15)/2 = 12. Decil Há nove decis (D1, D2, ..., D9), que juntos dividem a distribuição em dez partes iguais com cerca de 10% dos elementos em cada parte. Lembre-se de que a divisão em partes iguais se refere ao número de elementos em cada parte. O Decil k, simbolizado por Dk, é o valor que divide o conjunto ordenado de valores em duas partes, tais que (10*k)% dos valores sejam menores do que ele e os restantes sejam maiores. Cerca de 25% dos funcionários percorrem menos de 4,5 km até a empresa e os restantes (75%) percorrem mais de 4,5 km. Cerca de 75% dos funcionários percorrem menos de 12 km até a empresa e os restantes (25%) percorrem mais de 12 km. Unidade 02 – Medidas Estatísticas 39 Por exemplo: Decil 7 (D7) - É o valor que divide em duas partes, tais que 70% dos valores sejam menores do que ele e os 30% restantes sejam maiores. Decil 5 (D5) - É o valor que divide em duas partes, tais que 50% dos valores sejam menores do que ele e os 50% restantes sejam maiores. O procedimento que vamos usar é o mesmo usado para o cálculo dos quartis. Ordene o conjunto de dados em ordem crescente e calcule 𝑝𝑜𝑠 = 𝑘 ∙ 𝑛/10 que é a posição do Decil k (k = 1, 2, ... , 9); Se pos não for inteiro, arredonde pos para o maior inteiro mais próximo, e o Decil Dk será o valor que está na posição pos. Se pos for inteiro, então o Decil Dk será a média entre os valores que estão na posição pos e pos +1. Exemplo 20. Os dados abaixo se referem a distância percorrida até a empresa para uma amostra de 20 funcionários. Calcule e interprete o Decil 9. 8, 7, 6, 2, 9, 8, 15, 15, 16, 3, 18, 8, 8, 3, 9, 18, 2, 6, 6, 2 Solução ------------------------------------------------------------------------------------------------------------------ Ordenando os dados: 2, 2, 2, 3, 3, 6, 6, 6, 7, 8, 8, 8, 8, 9, 9, 15, 15, 16, 18, 18 n = 20 Decil 9 (D9) k = 9 posição 1810209 pos (o D9 será a média dos valores que estão na 18ª e 19ª posição no conjunto ordenado) km17 2 1816 D9 Percentil Há 99 percentis (P1, P2, ..., P99), que juntos dividem a distribuição em cem partes iguais com cerca de 1% dos elementos em cada parte. O Percentil k, simbolizado por Pk, é o valor que divide o conjunto ordenado de valores em duas partes, tais que k% dos valores sejam menores do que ele e os restantes sejam maiores. Por exemplo: Percentil 70 (P70) É o valor que divide em duas partes, tais que 70% dos valores sejam menores do que ele e os 30% restantes sejam maiores. Percentil 50 (P50) É o valor que divide em duas partes, tais que 50% dos valores sejam menores do que ele e os 50% restantes sejam maiores. Note que o P50 é a mediana. Cerca de 90% dos funcionários percorrem menos de 17 km até a empresa e os 10% restantes percorrem mais de 17 km. Unidade 02 – Medidas Estatísticas 40 O procedimento que vamos usar é o mesmo usado para o cálculo dos quartis. Ordene o conjunto de dados em ordem crescente e calcule 𝑝𝑜𝑠 = 𝑘 ∙ 𝑛/10 que é a posição do Percentil k (k = 1, 2, ... , 09); Se pos não for inteiro, arredonde pos para o maior inteiro mais próximo, e o Percentil Pk será o valor que está na posição pos. Se pos for inteiro, então o Percentil Pk será a média entre os valores que estão na posição pos e pos +1. Exemplo 21. Os dados abaixo se referem a distância percorrida até a empresa para uma amostra de 20 funcionários. Calcule e interprete o Percentil 25 e o Percentil 72. 8, 7, 6, 2, 9, 8, 15, 15, 16, 3, 18, 8, 8, 3, 9, 18, 2, 6, 6, 2 Solução ------------------------------------------------------------------------------------------------------------------ Ordenando os dados: 2, 2, 2, 3, 3, 6, 6, 6, 7, 8, 8, 8, 8, 9, 9, 15, 15, 16, 18, 18 n = 20 Percentil 25 (P25) - k = 25 posição 51002025 pos Como 5 é um valor inteiro, então o percentil P25 será a média dos 5º e 6º valores no conjunto ordenado. Ou seja, km 3 P25 4,5 2 6 Percentil 72 (P72) - k = 72 posição 4,141002072 pos Como o 14,4 não é um valor inteiro, devemos arredondá-lo para cima. Neste caso, o percentil P74 será o valor que está na 15ª posição no conjunto ordenado, ou seja, km9P72 Relação entre Quartil, Decil e Percentil Relação entre Decile Percentil. D1 = P10 D2 = P20 ... D5 = P50 = mediana ... D9 = P90 Relação entre Quartil, Percentil e Mediana. Q1 = P25 Q2 = P50 = D5 = mediana Q3 = P75 Cerca de 25% dos funcionários percorrem até 4,5 km até a empresa e os 75% restantes percorrem mais de 4,5 km. Cerca de 72% dos funcionários percorrem até 9 km até a empresa e os 28% restantes percorrem mais de 9 km. Unidade 02 – Medidas Estatísticas 41 4.2 - Medidas separatrizes para dados agrupados O cálculo do quartil, decil e percentil para dados agrupados em tabelas de frequência (com ou sem intervalo de classe) segue o mesmo raciocínio empregado no cálculo da mediada. Como há uma relação entre o percentil e o quartil e decil, os cálculos que serão vistos a seguir serão feitos apenas para o percentil. 4.2.1 - Dados agrupados em tabelas de frequência sem classe Etapas a serem seguidas Determine a frequência absoluta acumulada (F); Calcule 100)nk( pos que é a posição do Percentil Pk (lembre-se: n = f) Localize o Percentil Pk como sendo o valor cuja frequência acumulada (F) é imediatamente superior à posição pos do Percentil. Observação: No caso de existir uma frequência acumulada Fi exatamente igual a pos = kn/100, o percentil será a média aritmética entre o valor da variável correspondente a essa frequência acumulada é a seguinte. Exemplo 22. A tabela abaixo mostra a distribuição do o número de filhos para uma amostra de 20 funcionários. Calcule o percentil 75. Número de filhos Quantidade de funcionários 0 5 1 7 2 5 3 2 4 1 Solução ------------------------------------------------------------------------------------------------------------------ Para facilitar os cálculos vamos acrescentar a frequência acumulada F. Número de filhos x f F 0 5 5 1 7 12 2 5 17 3 2 19 4 1 20 Percentil 75 (P75) 151002075 pos (terceira linha da tabela, pois é F = 17 é imediatamente superior a 15) Então, o valor do Percentil 75 é P75 = 2 filhos Unidade 02 – Medidas Estatísticas 42 4.2.2 - Dados agrupados em tabelas de frequência com classe Para obter o percentil em dados agrupados com classe, o procedimento é o seguinte: Determine a frequência absoluta acumulada (F; Calcule 100)nk( pos que é a posição da percentil (lembre-se: n = f) Localize a classe do percentil como sendo a classe com a frequência acumulada (F) imediatamente superior à posição pos da percentil; Calcule a percentil usando o método da interpolação linear abaixo: 𝑃𝑘 = ℓ + ( 𝑘𝑛 100 − 𝐹𝑎𝑛𝑡) 𝑓 (𝐿 − ℓ) onde, e L = limite inferior e superior da classe percentil, respectivamente. f = frequência absoluta da classe percentil. Fant = frequência absoluta acumulada anterior à classe percentil. Comentário No caso de existir uma frequência acumulada F exatamente igual a 100)nk( pos , o percentil será o limite superior da classe correspondente. Exemplo 23. A tabela abaixo mostra a distribuição dos salários (em salários-mínimos) para uma amostra de 20 funcionários. Calcule o 3º Decil. Salários (em SM) Quantidade de funcionários 2,0 | 3,5 6 3,5 | 5,0 7 5,0 | 6,5 4 6,5 | 8,0 2 8,0 | 9,5 1 Solução ------------------------------------------------------------------------------------------------------------------ Vamos acrescentar a frequência acumulada F à tabela. Salários f F 2,0 | 3,5 6 6 3,5 | 5,0 7 13 5,0 | 6,5 4 17 6,5 | 8,0 2 19 8,0 | 9,5 1 20 Total 20 -- Classe f F ... ℓ | f F ... classe percentil Unidade 02 – Medidas Estatísticas 43 Calcular D4 Basta lembrar que D4 = P40 81002040pos (P40 está na quarta classe, pois F = 13 é imediatamente superior a 8) Da tabela temos: 5,3 , 0,5L , 7f e 6antF . 𝑃40 = 3,5 + ( 40 ∙ 20 100 − 6) 7 (5,0 − 3,5) = 3,93 𝑆𝑀 Então, o salário que corresponde ao 4º quartil é D4 = 3,93 SM. Unidade 02 – Medidas Estatísticas 44 4.3 - Diagrama de caixa (box plot) O diagrama de caixa é uma representação gráfica que descreve as principais características de uma distribuição de dados: medida de posição central, medida de dispersão, desvio da simetria e identificação de valores atípicos ou extremos. NA construção do diagrama de caixa, todo valor que não pertence ao intervalo [𝑄1 − 1,5𝐷 ; 𝑄3 + 1,5𝐷], onde 𝐷 = 𝑄3 − 𝑄1 é considerado um valor atípico e é identificado no gráfico com um símbolo, por exemplo, um asterisco (*). As linhas verticais em Q1 - 1,5D e Q3 + 1,5D não precisam estar no gráfico, elas só foram colocadas para ajudar a visualizar os limites máximo e mínimo dos valores considerados “comuns” (que não são valores extremos). Quanto maior o comprimento da caixa maior será a variabilidade dos dados, portanto a amplitude interquartil (D) pode ser vista também como uma medida de dispersão, tal como são a variância e o desvio-padrão. Abaixo temos um exemplo de um diagrama de caixa para a pressão sistólica de um grupo de pacientes. A linha se estende até o menor valor, desde que ele seja maior que Q1 1,5D Q1 1,5D Q1 Q2 Q3 Q3 + 1,5D D = Q3 – Q1 A linha se estende até o maior valor, desde que ele seja menor que Q3 +1,5D * Valor atípico Valores atípicos * * 1º quartil = 114 2º quartil = 128 3º quartil = 142 outlier maior valor (dentre os valores típicos) menor valor (dentre os valores típicos) Unidade 02 – Medidas Estatísticas 45 Usando vários gráficos de caixas para comparação A figura abaixo usa o diagrama de caixa para comparar as notas finais em três turmas. A inspeção dos gráficos revela que existe uma grande variação nas notas dos alunos na turma B e uma pequena variação nas notas na turma A. Para comparar o desempenho geral da turma, devemos olhar a linha do 2º quartil, assim sendo o desempenho foi melhor na turma A. Existe um valor extremo (um aluno com uma nota muito grande) na turma A e um aluno com nota muito pequena na turma C. Não existe nenhum valor extremo em B. Os gráficos abaixo comparam as notas finais de uma disciplina em três turmas. A inspeção dos gráficos revela que existe uma grande variabilidade nas notas dos alunos na turma B e uma pequena variabilidade nas notas na turma A8. O desempenho foi melhor na turma A e pior na turma C9. Existe um valor extremo (um aluno com uma nota muito grande) na turma A e um aluno com nota muito pequena na turma C. Não existe nenhum valor extremo em B. 8 Observe que a caixa, na turma B, é mais comprida (maior D =amplitude interquartil), enquanto que, na turma A, a caixa é menor em comprimento. 9 Observe a linha do meio (a linha da mediana), ela está em torno de 80 pts, na turma A, e em torno de 60 pts na turma C. Turma CTurma BTurma A 100 90 80 70 60 50 40 30 No ta s fin ai s Unidade 02 – Medidas Estatísticas 46 4.3 - Medida de assimetria Em algumas situações é
Compartilhar