Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística Básica CRC 7314 Prof. Nei e João nei.leite@ufsc.br 10-10-2013 Diagrama de ramos e folhas NÚMERO DE RAMOS: Utilize a fórmula de Dixon e Kronmal quando n ≥ 100, onde o número de ramos é dado por k = [10×log(n)] Para n < 100 utilizar a fórmula de Velleman, dada por k=⌊2×n⌋ NÚMERO DE FOLHAS: Utilizando k como um limite superior para o número de ramos, pode-se, agora, obter o intervalo entre os ramos. O mais fácil neste caso é arredondar esse valor para a potência de 10 mais próxima. Isto faz com que exista uma linha para cada ramo. Em algumas circunstâncias, entretanto, poderá haver um acúmulo muito grande de folhas em alguns poucos ramos, prejudicando a compreensão. Uma subdivisão do ramo em mais linhas poderá melhorar sensivelmente a apresentação. Com as linhas identificadas pelos dígitos que correspondem ao ramo, os formatos, então, são: 1×10: 1 linha por ramo, incluindo as folhas de 0 a 9. 2×5: 2 linhas por ramo, incluindo as folhas de 0 a 4 numa linha e de 5 a 9 em outra. A primeira linha do ramo é identificada acrescentando-se o asterisco à primeira (*) e à segunda o ponto (.). 5×2: 5 linhas por ramo, incluindo as folhas de 0 a 2 na primeira linha, de 3 a 4 na segunda, de 4 a 5 na terceira, de 6 a 7 na quarta e de 8 a 9 na quinta. A identificação é (*) (asterisco) para o primeira linha, T, de two (2) ou three (3) para a segunda, F, de four (4) ou five (5) para a terceira, S, de six (6) ou seven (7) para a quarta e . (ponto) para a quinta. Quartis Empíricos - Às vezes a média e o desvio padrão podem não ser medidas adequadas para representar um determinado conjunto de dados, pois: - são afetados, de forma exagerada, por valores extremos; - apenas com estes dois valores não temos idéia da simetria ou assimetria da distribuição de dados Para contornar este problema, outras medidas têm de ser considerada: - Os quartis dividem a distribuição em 4 grupos separados por Q1, Q2 e Q3. 25° percentil 50° percentil 75° percentil Menor valor Maior valor Mediana Encontrando os valores correspondentes a Q1, Q2 e Q3 Passo 1: Organize os dados em ordem crescente; Passo 2: Encontre a mediana. Este é o valor do Q2; Passo 3: Encontre a mediana dos valores abaixo de Q2. Este corresponde a Q1; Passo 4: Encontre a mediana para os valores acima de Q2. Este corresponde a Q3. Exemplo Encontre Q1, Q2 e Q3 para a seguinte série de dados: 15, 13, 6, 5, 12, 50, 22, 18. Passo 1: 5, 6, 12, 13, 15, 18, 22, 50 Passo 2: Encontre a mediana (Q2): 5, 6, 12, 13, 15, 18, 22, 50 Passo 3: Encontre a mediana dos valores < 14: 5, 6, 12, 13 Passo 4: Encontre a mediana para os valores > 14: 15, 18, 22, 50 Md = 14 Q1 = 9 Q3 = 20 A amplitude interquartis (AIQ) de uma série de dados é uma medida de variação que dá a amplitude dos 50% valores centrais da série. É a diferença entre o terceiro e o primeiro quartil. Amplitude interquartis (AIQ) = Q3 - Q1 Aplicações Importante utilização na avaliação de outliers!!! Valor Mínimo Valor MáximoMediana ESTATÍSTICA DESCRITIVA Aula Anterior � Medidas de Tendência Central � Medidas de Dispersão ou Variabilidade � Dados não-agrupados Aula de hoje: � DADOS AGRUPADOS � Sem intervalo de classe � Com intervalo de classe Seja a distribuição associada a 34 famílias de quatro filhos, tomando para a variável o número de filhos do sexo masculino: n°°°° de filhos f i x i f i 0 2 0 1 6 6 2 10 20 3 12 36 4 4 16 Σ = 34 Σ = 78 1 1 78 2,29 34 n i i i n i i x f X X f = = = ⇒ = = ∑ ∑ 1 1 2 2 1 1 2 1 ... ... n i i n n i n n i i x f x f x f x fX f f f f = = + + + = = + + + ∑ ∑ Média sem intervalo de classes i x i f i x i f i x i 1 150 ǀ– 153,9 4 152 608 2 154 ǀ– 157,9 9 156 1404 3 158 ǀ– 161,9 11 160 1760 4 162 ǀ– 165,9 8 164 1312 5 166 ǀ– 169,9 5 168 840 6 170 ǀ– 174 3 172 516 Σ = 40 Σ = 6440 4 152 9 156 ... 3 172 40 X ∗ + ∗ + + ∗= 1 1 n i i i n i i f x X f = = = ∑ ∑ Média com intervalo de classes Aqui, convencionamos que todos os valores incluídos em um determinado intervalo de classe coincidem com o seu ponto médio, e determinamos a média aritmética utilizando a fórmula: onde xi é o ponto médio da classeConsideremos a distribuição: 6440 161 40 X⇒ = = A tabela a seguir apresenta a distribuição de freqüências dos salários de um grupo de 50 empregados de uma empresa, num certo mês: i x i f i x i f i x i 1 1000 ǀ– 1999 20 1500 30000 2 2000 ǀ– 2999 18 2500 45000 3 3000 ǀ– 3999 9 3500 31500 4 4000 ǀ– 5000 3 4500 13500 Σ = 50 Σ = 120000 1 1 120000 2400 50 n i i i n i i f X X X f = = = ⇒ = = ∑ ∑ Qual o salário médio dos empregados durante este mês? Exercício 1 R$ 2400,00 - Cálculo semelhante aos de dados não-agrupados - Necessita cálculo prévio das frequências acumuladas (Fi) - Deve-se determinar um valor tal que divida a distribuição em dois grupos com o mesmo número de elementos, empregando a fórmula: Mediana sem intervalo de classes 2 fi∑ Neste caso, é preciso identificar a frequência acumulada imediatamente superior à metade da soma das frequências. A mediana será aquele valor da variável que corresponde a tal frequência acumulada Mediana dados agrupados n°°°° de filhos fi Fi 0 2 2 1 6 8 2 10 18 3 12 30 4 4 34 Σ = 34 34 17 2 2 fi = = ∑ A menor frequência acumulada que supera esse valor é 18, que corresponde ao valor 2 da variável n° de filhos ∴ Md = 2 Mediana com intervalo de classes É necessário determinar o ponto do intervalo em que está compreendida a mediana. Para tanto, temos inicialmente que determinar a classe na qual se acha a mediana (classe mediana). Tal classe será, evidentemente, aquela correspondente à frequência acumulada imediatamente superior a 2 fi∑ i x i f i F i 1 150 ǀ– 153,9 4 4 2 154 ǀ– 157,9 9 13 3 158 ǀ– 161,9 11 24 4 162 ǀ– 165,9 8 32 5 166 ǀ– 169,9 5 37 6 170 ǀ– 174,0 3 40 Σ = 40 40 20 2 2 fi = = ∑ classe mediana * * ( ) 2 anterior i fi Fi h Md l f − = + ∑ onde: li* = limite inferior da classe mediana Fianterior = frequência acumulada da classe anterior à classe mediana f* = frequência absoluta da classe mediana h = amplitude do intervalo da classe mediana (20 13)4158 158 2,54 160,54 11 Md −= + = + = Calcule a mediana da seguinte distribuição de frequências: Exercício 2 Custos (R$) 450 ǀ– 550 550 ǀ– 650 650 ǀ– 750 750 ǀ– 850 850 ǀ– 950 950 ǀ– 1050 1050 ǀ– 1150 fi 8 10 11 16 13 5 1 i x i f i F i 1 450 ǀ– 549,9 8 8 2 550 ǀ– 649,9 10 18 3 650 ǀ– 749,9 11 29 4 750 ǀ– 849,9 16 45 5 850 ǀ– 949,9 13 58 6 950 ǀ– 1049,9 5 63 7 1050 ǀ– 1150 1 64 Σ = 64 (32 29)100750 16 Md −= + 750 18,75= + = R$ 768,75 64 32 2 2 fi = = ∑ (h) Moda sem intervalo de classes Uma vez agrupados os dados, é possível determinar imediatamente a moda: esta corresponde ao valor da variável que apresenta maior frequência Na distribuição do exemplo anterior ∴∴∴∴ Mo = 3 n°°°° de filhos f i Fi 0 2 2 1 6 8 2 10 18 3 12 30 4 4 34 Σ = 34 , a frequência máxima (12), representa a moda: Moda com intervalo de classes A classe que apresenta a maior frequência é denominada classe modal. Pela definição, podemos afirmar que a moda, neste caso, é o valor dominante que está compreendido entre os limites da classe modal O método mais simples para o cálculo da moda consiste em tomar o ponto médio da classe modal. Damosa esse valor a denominação de moda bruta. Temos, então: Mo = (l* + L*) / 2 Onde: l* é o limite inferior da classe modal. L* é o limite superior da classe modal. Moda com intervalo de classes Custos (R$) 450 ǀ– 550 550 ǀ– 650 650 ǀ– 750 750 ǀ– 850 850 ǀ– 950 950 ǀ– 1050 1050 ǀ– 1150 fi 8 10 11 16 13 5 1 Assim, para a distribuição: Temos que a classe modal é i = 4, l* = 750 e L* =850 Como: Mo = (l* + L*) / 2 ⇒ Mo = (750 + 850) / 2 = R$ 800 x f i xf x2 x2f 0 15 0 0 0 1 10 10 1 10 2 5 10 4 20 3 5 15 9 45 4 1 4 16 16 5 1 5 25 25 6 0 0 36 0 7 3 21 49 147 40 65 263 65 1,625 40 X = = 2 2 (65)263 157,37540 4,035 39 39 s − = = = n°°°° de faltas n°°°° de alunos 0 15 1 10 2 5 3 5 4 1 5 1 6 0 7 3 2 2 ( ) 1 i i i i x f x f n n − − ∑ ∑ Variância sem intervalo de classes Variância com intervalo de classes 1° Faça uma tabela com a classe (coluna A), frequência observada (b) e encontre o ponto médio de cada classe (C) 2° Multiplique a frequência pelo ponto médio de cada classe, colocando o resultado na coluna D 3° Multiplique a frequência pelo quadrado do ponto médio, colocando o resultado na coluna E 4° Calcule o somatório das colunas B (= n), D (Σf.Xm) e E (Σf.Xm2) 5° Substitua na fórmula: 6° Tire a raiz quadrada para obter o desvio padrão 2 2 2 ( ) ( ) ( 1) m mn f X f X s n n ⋅ − ⋅ = − ∑ ∑ A Classe B Frequência C Ponto Médio D f . X m E f . X m 2 5,5 – 10,4 1 10,5 – 15,4 2 15,5 – 20,4 3 20,5 – 25,4 5 25,5 – 30,4 4 30,5 – 35,4 3 35,5 – 40,5 2 n = Σf . X m = Σf . X m 2 = Encontre a variância e o desvio padrão para a distribuição de frequência dos dados abaixo que representa o número de km que 20 corredores correram durante uma semana A Classe B Frequência C Ponto Médio D f . X m E f . X m 2 5,5 – 10,4 1 8 8 64 10,5 – 15,4 2 13 26 338 15,5 – 20,4 3 18 54 972 20,5 – 25,4 5 23 115 2645 25,5 – 30,4 4 28 112 3136 30,5 – 35,4 3 33 99 3267 35,5 – 40,5 2 38 76 2888 n = 20 Σf . X m = 490 Σf . X m 2 = 13310 2 2 20(13310) 490 20(20 1)s − = − 2 266200 240100 68,7 380 s − = = 68,7 8,3s = =
Compartilhar