Baixe o app para aproveitar ainda mais
Prévia do material em texto
Os dados obtidos por meio de amostragem, censo ou registros são armazenados em tabelas que chamamos de banco de dados (ou dados brutos). No banco de dados, as linhas correspondem as unidades amostrais, sendo uma linha para cada unidade amostral, e cada coluna contém a informação de uma variável coletada. Em um exemplo de tabela sobre a carga horaria semanal de oito discentes da UFPB contendo os dados: Discente, curso, nível, sexo, idade, número de disciplinas, carga horária semanal, e-mail. A classificação é: Discente: qualitativa nominal; Curso: qualitativa nominal; Nível: qualitativa ordinal; Sexo: qualitativa nominal; X: idade; 1. quantitativa discreta (quando definida como anos completos). 2. quantitativa contínua (quando definida como tempo de vida). Número de disciplinas matriculadas: quantitativa discreta; Carga horária semanal em minutos: quantitativa contínua; E-mail: qualitativa nominal. Após definir e classificar as variáveis, as vezes precisamos fazer um pré-processamento nos dados para: eliminar erros de digitação, verificar inconsistências, padronizar nomenclatura de categorias de variáveis qualitativas para que fiquem todas iguais, etc. Por exemplo, o servidor de e-mail do discente pode-se ser uma informação relevante para algum tipo específico de estudo, e se for o caso, pode- se criar uma nova variável com o servidor de e-mail do discente. – Nas tabelas de frequência, os dados brutos de uma variável são agrupados de acordo com a frequência de sua ocorrência (contagem), denotada por f. Quando a variável é qualitativa ordinal, suas categorias devem ser apresentadas de forma ordenada (crescente ou decrescente) na tabela. As tabelas de dupla entrada possuem as frequências de duas variáveis. A coluna de total é a distribuição de frequência marginal da variável inicial. Já a linha de total é a distribuição de frequência marginal da variável que foi subdividida. Da mesma forma que fizemos o cruzamento de duas variáveis, podemos fazer com três ou mais. No entanto, quanto mais variável agrega, mais confuso fica. Um dos principais objetivos da estatística descritiva é reduzir informações e uma das formas de fazer isso é criando tabelas menores e mais informativas. Mas quando temos uma variável quantitativa, principalmente as contínuas, nem sempre há uma redução significativa no número de linhas da tabela ao criar uma tabela de frequência simples. {Por esta razão, agrupamos as variáveis quantitativas em classes.} Um exemplo disso são as faixas etárias estabelecidas pelo IBGE, cuja as classe de idades tem intervalos de 5 anos, porém, ainda assim, são significativamente grandes. →Rol: é uma lista em que os valores de uma variável estão dispostos em uma determinada ordem, crescente ou decrescente. O rol pode ser aplicado a variáveis ordinais, quantitativas discretas e contínuas. Exemplos: Nível: Graduação, Graduação, Graduação, Graduação, Graduação, Pós-graduação, Pós- graduação, Pós-graduação; Rol de idade (X): 18, 18, 19, 20, 20, 24, 25, 26; Rol de Nº disciplina (Y): 4, 4, 5, 6, 6, 7, 7, 7; Rol de CHS (Z): 20, 20, 20, 24, 26, 26, 28, 28; →Amplitude Total (At): é a diferença entre os valores máximo e o mínimo observados de uma variável quantitativa. Exemplos: • Rol de idade (X): 18, 18, 19, 20, 20, 24, 25, 26; At(x) = máx(x) - min(x) = 26-18 = 8 • Rol de Nº disciplina (Y): 4, 4, 5, 6, 6, 7, 7, 7; At(y) = máx(y) - min(y) = 7-4 = 3 • Rol de CHS (Z): 20, 20, 20, 24, 26, 26, 28, 28; At(z) = máx(z) - min(z) = 28-20 = 8 →N: número de unidades amostrais. →Número de Classes (k): pode ser utilizado um número de referência, ou determinado segundo algum critério como a regra de Sturges. Sturges (1926) realizou um estudo das distribuições de frequência e propôs escolher k como sendo o inteiro mais próximo de 1 + 3,3log(n). k = 1 + 3,3 log(n) = 1 + 3,3 log(8) = 3,98 =̃ 4 A amplitude das classes é o comprimento destas, podem ser o mesmo para todas as classes ou ter classes com comprimentos diferentes. As tabelas de classes iguais são as mais utilizadas e a amplitude das classes é determinada por: ℎ = 𝐴𝑡 𝑘 = 𝑚𝑎𝑥(𝑥) − 𝑚𝑖𝑛(𝑥) 𝑘 em que X é a variável a ser agrupada. Este exemplo, adotamos k = 4. Rol de idade (X): 18, 18, 19, 20, 20, 24, 25, 26; At(x) = 8 e h = At k = 8 4 = 2 Rol de número de disciplinas (y): 4, 4, 5, 6, 6, 7, 7, 7; At(y) = 3 e h = At k = 3 4 = 0,75 Rol de CHS (z): 20, 20, 20, 24, 26, 26, 28, 28; At(z) = 8 e h = At k = 8 4 = 2 Se houver a necessidade de arredondar o valor de h, deve-se sempre arredondar para mais. Mesmo que h=0,71 deve-se arredondar para h=0,8. Pesquisa de idade: 17, 18, 16, 24, 23, 42, 40, 36, 15, 18, 26, 23, 23, 24, 28, 41, 16, 18, 20, 27. Idade fj 15⊢21 8 21⊢27 6 27⊢33 2 33⊢39 1 39⊢⊣45 3 Número de classes: k = 1 + 3,3 log(n) →Número de intervalos: k = 1 + 3,3 log(20) → k =̃ 5,29 = 5 {Pode arredondar para o mais próximo} →Amplitude total: At = 42 - 15 = 27 Aintervalo = At k = 27 5 = 5,4 = 6 {Obrigatoriamente arredondar para mais} →Frequência simples absoluta (fj): é a contagem da frequência da classe ou atributo j. Informa quantas vezes o elemento aparece. →Frequência simples relativa (frj): pode ser em termos percentuais multiplicando por 100: frj = fj n . 100 → taxa percentual. (A soma das frequências relativas tem que ser igual a 100%) →Frequência acumulada absoluta (Fj): contagem dos f até o fj. Ou seja, conta a frequência dos anteriores. Fj = f1 + f2 + f3+. . . +fj com j ≤ k. →Frequência acumulada relativa (Frj): pode ser em termos percentuais multiplicando por 100. Acumula as frequências em percentual. Frj = F1 + F2 + F3+. . . +Fj ou Frj = Fj n j = 1, 2, . . . k Rol: 50, 50, 50, 65, 65, 65, 65, 70, 70, 70, 70, 70, 70, 72, 72, 72, 72, 72, 80, 80. (ao todo 20 amostras) Massa fj Fj frj Frj 50 3 3 15% 15% 65 4 7 20% 35% 70 6 13 30% 65% 72 5 18 25% 90% 80 2 20 10% 100% Total 20 100%
Compartilhar