Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 ESTATÍSTICA DESCRITIVA 1. TABELAS DE FREQUÊNCIAS Problema 1: Em uma classe obteve-se os seguintes valores de idade para 20 alunos: 23 20 21 24 20 20 21 22 21 20 22 21 22 23 20 23 23 24 26 20 Como podemos explorar este conjunto de dados a fim de extrair informações sobre a ocorrência dos diferentes valores da variável idade? Uma das maneiras de responder a questão acima é fazendo uso das chamadas tabelas de distribuição de frequências. Considere um conjunto de dados de tamanho n formado por k diferentes valores de uma variável qualitativa ou quantitativa. Para cada diferente valor, podemos calcular: a) Frequência absoluta: número de vezes que o valor ocorre dentro do conjunto de dados. Notação: ni. Obs.: a soma de todas as frequências absolutas deve ser igual a n. b) Frequência relativa (ou proporção): é a proporção de vezes que cada valor é observado em relação a n. Notação: fi , sendo fi = ni / n . Obs.: a soma de todas as frequências relativas deve ser igual a 1. c) Frequência percentual: é a frequência relativa expressa em porcentagem. Notação: 100fi. Obs.: a soma de todas as frequências percentuais deve ser igual a 100. d) Frequência absoluta acumulada até um dado valor: é a soma das frequências absolutas de todos os valores menores ou iguais ao valor considerado. Notação: Ni. e) Frequência relativa acumulada até um dado valor: é a soma das frequências relativas de todos os valores menores ou iguais ao valor considerado. Notação: Fi. Obs.: As frequências acumuladas não são calculadas para variáveis qualitativas nominais. 2 2. TABELAS DE FREQUÊNCIAS EM CLASSES Considere o seguinte problema: Problema 1: Construa uma tabela de distribuição de frequências para o conjunto de dados abaixo. Dados: número de minutos gastos por uma amostra de 50 assinantes da internet durante sua conexão mais recente (dados já ordenados). 7 7 11 17 17 18 19 20 21 22 23 28 29 29 30 30 31 31 33 34 36 37 39 39 39 40 41 41 42 44 44 46 50 51 53 54 54 56 56 56 59 62 67 69 72 73 77 78 80 88 Observe que neste caso, se construirmos a tabela como anteriormente, esta não seria eficiente para resumir os dados. Veremos a seguir, como agrupar os dados em classes (intervalos de valores da variável) e definir frequências para cada uma das classes. As tabelas de frequências em classes são apropriadas para variáveis quantitativas discretas ou contínuas que apresentem um grande número de observações (em geral para n 30 ), principalmente quando há um número elevado de observações distintas. Nestas tabelas, as frequências são obtidas de forma análoga à anterior, com a diferença que agora o interesse é no número de ocorrências dentro de cada classe definida. Passos para construção das classes: 1) Ordenar os dados em ordem crescente 2) Escolher a quantidade de classes (k). Não há uma regra fixa para a determinação de k; em geral, depende dos objetivos do pesquisador; normalmente, toma-se de 5 a 15 classes, todas com a mesma amplitude. Quando não há uma predeterminação de k, alguns métodos usados para obtê-lo são: 101 3 322 ( )k , log n k n (obs.: arredondar o resultado para inteiro) 3) Escolher a amplitude de cada classe (h). No caso de escolher amplitudes iguais para todas as classes, tomar: A h k , sendo A a amplitude total dada por: máx. min.A x x 4) Definir cada classe na forma LI |—— LS: conjunto de todos os valores maiores ou iguais a LI e menores do que LS. (LI: limite inferior, LS: limite superior). Os limites são definidos de acordo com a amplitude escolhida no passo anterior sendo que, toma-se o primeiro limite inferior como min.x ou um valor menor que seja conveniente. Cada observação deve pertencer a somente uma classe. Exemplo 1: Construa uma tabela de distribuição de frequências para o conjunto de dados abaixo. Dados: peso de 50 elementos (dados já ordenados). 44,0 47,0 47,0 47,4 48,0 49,0 49,0 49,2 50,0 50,0 51,6 52,0 52,0 52,5 54,0 54,5 54,5 55,0 55,0 55,0 55,0 56,0 57,0 57,8 58,0 58,0 58,0 58,0 58,5 59,0 60,0 60,0 60,0 60,5 63,0 63,5 66,0 68,5 70,0 71,0 72,8 73,0 73,0 75,0 80,9 84,0 85,2 86,0 87,0 95,0 3 3. GRÁFICOS 3.1 Histograma: gráfico usado para variáveis quantitativas, com valores agrupados em classes. É formado por retângulos contíguos, sendo cada retângulo com base na faixa de variação da classe e altura proporcional à frequência da classe. Pode-se usar como altura as frequências ni, fi ou 100 fi , ou ainda, o quociente de fi pela amplitude da classe (chamado densidade de frequência). Neste último caso, a área total dos retângulos é igual a 1. 3.2 Polígono de Frequência: - gráfico também usado para variáveis com valores agrupados em classes. É formado por segmentos de reta que unem sequencialmente os pontos dados pelos valores médios de cada classe e a respectiva frequência. Estende-se o gráfico à esquerda e à direita considerando-se os pontos médios de uma classe imediatamente anterior à primeira classe e imediatamente posterior à última classe. 3.3 Gráfico de Barras: Construído colocando os valores da variável no eixo das abscissas e as frequências absolutas (ou relativas ou percentuais) no eixo das ordenadas e desenhando barras de largura fixa acima de cada valor da variável, com altura igual à correspondente frequência. Gráfico ideal para variáveis qualitativas ou quantitativas discretas. Obs.: há autores que chamam este gráfico como Gráfico de Colunas e o gráfico em que se colocam as barras no sentido horizontal (no eixo das abscissas) de Gráfico de Barras. 3.4 Gráfico de Setores (ou de Pizza): Construído dividindo-se um círculo em setores circulares correspondentes às frequências relativas ou percentuais de cada valor. O ângulo de cada setor é obtido multiplicando-se a frequência relativa por 360º. Gráfico ideal para variáveis qualitativas. 3.5 Diagrama de dispersão para duas variáveis: Considere um conjunto de dados formado por n pares de observações, onde cada elemento do par se refere a uma variável. Um diagrama de dispersão é construído representando os pares de observações no plano cartesiano. É ideal para auxiliar a verificar possíveis tendências de associação entre as variáveis. 3.6 Gráfico de série temporal: Considere uma série temporal, ou seja, um conjunto de observações ordenadas no tempo. Um gráfico da série temporal é construído da seguinte forma: colocar no eixo das abscissas o tempo e no eixo das ordenadas os valores observados, marcando-se os pares com pontos; unir os pontos sequencialmente através de linhas retas. Exemplo: Gráfico de série temporal - Dados: número de assinantes de telefones celulares, em milhões, e o valor médio da conta mensal local dos assinantes do serviço, em dólares, de 1987 até 1999. Ano Assinantes Conta média 1987 1,2 96,83 1988 2,1 98,02 1989 3,5 89,30 1990 5,3 80,90 1991 7,6 72,74 1992 11,0 68,68 1993 16,0 61,48 1994 24,1 56,21 1995 33,8 51,00 1996 44,0 47,70 1997 55,3 42,78 1998 69,2 39,43 1999 86,0 41,24 99989796959493929190898887 100 90 80 70 60 50 40 Ano Co nt am éd ia Exemplo : Gráfico de série temporal Dados: umidade relativa do ar ao meio-dia (%) em São Paulo, de 1º de janeiro a 30 de abril de 1991 (120 dados). 12010080604020 100 90 80 70 60 50 dias um ida de 4 4. MEDIDAS DESCRITIVAS DOS DADOS 4.1. Introdução: Apresentamos aqui algumas medidas usadas para resumir informações contidas em um conjunto de dados. As chamadas medidas de posição fornecem valores a respeito da centralidade dos dados. Já as medidas de dispersão representam a variabilidade dos dados. As medidas que veremos aqui, são em geral apropriadas para dados representando observações de variáveis quantitativas. Denotaremos a variável em estudo por X e os valores observados da variável por x1, x2, ..., xn, sendo n o número de observações. 4.2. Medidas de Posição Média: é a soma de todos os valores observados dividida pelo número total de observações. Notação: x (leia-se x barra). n i n1 2 i 1 x x +x + ... + x n n x Mediana: é o valor que ocupa a posição central dos dados ordenados. Notação: Md. Denotando os valores de X em ordem crescente por: (1) (2) (n)x , x , ... , x , temos que: Se n é impar, então n 12 Md x Se n é par, então n n 12 2 x + x Md 2 Obs.: A média x pode ser muito influenciada por valores discrepantes, o que não ocorre com a mediana. Dados: 1; 2; 5; 6; 7 x = 4,2 e Md = 5 Dados: 1; 2; 5; 6; 15 x = 5,8 e Md = 5 Moda: é o valor (ou atributo) mais frequente no conjunto de dados. Notação: Mo. (Obs.: Em um conjunto de dados pode haver mais de uma moda.) 4.3. Medidas de Dispersão Considere os três conjuntos de dados abaixo: Dados A: 3; 4; 5; 6; 7 x = 5 , Md = 5 Dados B: 1; 3; 5; 7; 9 x = 5 , Md = 5 Dados C: 5; 5; 5; 5; 5 x = 5 , Md = 5 Observamos que além de uma medida de posição, é importante obtermos uma medida para representar a variabilidade dos dados dentro de cada conjunto. Veremos a seguir, algumas medidas que medem a dispersão dos dados em torno de sua média. Variância: é a soma dos quadrados dos desvios de cada observação em relação à média dividida por n-1. Notação: s 2 . n 2 2 2 2 i 1 2 n2 i 1 x x x x x x ... x x s n 1 n 1 5 Fórmula alternativa: n 22 i 2 i 1 x n x s n 1 Desvio-padrão: é a raiz quadrada positiva da variância. Notação: s. n 22 i 2 i 1 x n x s s n 1 (Obs.: o desvio-padrão fornece uma medida na mesma unidade dos dados originais) Coeficiente de Variação: é o quociente entre o desvio-padrão e a média. É geralmente apresentada em forma de porcentagem. Notação: CV. s CV 100% x Obs.: o CV é uma medida de variabilidade relativa à média; ela elimina o efeito da magnitude dos dados, sendo útil na comparação de dois ou mais conjuntos de dados. Exemplo: A partir dos dados da avaliação física de uma amostra de n = 35 jovens, obteve-se as seguintes medidas: Média x Desvio-padrão s Coef. de var. CV Altura 1,77 m 0,09 m 5,08% Peso 68,82 kg 10,26 kg 14,91% Neste caso, a medida adequada para comparar qual das duas variáveis (diâmetro e altura) apresenta a menor e qual apresenta a maior variabilidade é o coeficiente de variação. Exercício: Um pesquisador social fez entrevistas pessoais com 20 indivíduos de baixa renda, a fim de determinar suas concepções de tamanho ideal de família. Perguntou-se a cada um: “Suponha que você tenha decidido o tamanho exato que sua família deveria ter. Incluindo todas as crianças e adultos, quantas pessoas gostaria de ter em sua família ideal?” As respostas obtidas foram as seguintes (valores já ordenados): 1 2 2 2 3 3 3 3 4 4 5 6 6 7 7 7 7 8 8 9 (a) Para este conjunto de dados, calcule as medidas de tendência central: média, mediana e moda. (b) Para este conjunto de dados, calcule as medidas de dispersão: variância, desvio padrão e coeficiente de variação. 6 4.4. Medidas para Dados Agrupados A obtenção de algumas medidas podem ser realizadas também a partir das frequências das observações. Média de dados agrupados: Para um conjunto de dados com n observações, composto por m elementos distintos 1 2 mx , x , ..., x , com respectivas frequências 1 2 mn , n , ..., n , a média pode ser obtida de forma alternativa fazendo m k k k 1 n . x n x Mediana de dados agrupados: Uma forma alternativa de obter a mediana no caso em que temos um conjunto de dados formado por m elementos distintos 1 2 mx , x , ..., x , com respectivas frequências 1 2 mn , n , ..., n , é observar para qual valor a frequência relativa acumulada é igual a 0,5. Variância e Desvio-padrão de dados agrupados: Se temos um conjunto de dados com n observações, composto por m elementos distintos 1 2 mx , x , ..., x , com respectivas frequências 1 2 mn , n , ..., n , podemos obter a variância fazendo m 2 2 k k 2 k 1 n x n x n 1 s e, consequentemente, o desvio-padrão é dado por 2s s . Coeficiente de variação de dados agrupados: Obtidos o desvio-padrão s e a média x dos dados agrupados, calculamos o coeficiente de variação por: s CV 100% x Exemplo: Os dados abaixo se referem a 30 valores observados da variável tempo (em dias), em um certo experimento: 15 17 16 15 17 14 17 16 16 17 15 18 14 17 15 14 15 16 17 18 18 17 15 16 14 18 18 16 15 14 Tabela de frequências: Tempo ni fi Fi 14 5 0,1667 0,1667 15 7 0,2333 0,4000 16 6 0,2000 0,6000 17 7 0,2333 0,8333 18 5 0,1667 1 Total 30 1 Obtenha a média, a mediana, a variância, o desvio-padrão e o coeficiente de variação. obs.: A partir da tabela de frequências de classes, é possível obter resultados aproximados de medidas como a média e a variância de um conjunto de dados, usando como representante de cada classe o seu ponto médio. Assim, se temos K classes e se ix e in , i=1,...,K, são, respectivamente, os pontos médios e as frequências de cada classe, calculamos a média e a variância por: 2 2 2 i 1 1 1 1 . ; S . x - n . 1 K K i i i i i x n x n x n n
Compartilhar