Buscar

Variáveis e Tabelas de Frequência

Prévia do material em texto

Os dados obtidos por meio de amostragem, censo ou 
registros são armazenados em tabelas que chamamos 
de banco de dados (ou dados brutos). 
No banco de dados, as linhas correspondem as 
unidades amostrais, sendo uma linha para cada 
unidade amostral, e cada coluna contém a informação 
de uma variável coletada. 
 
Em um exemplo de tabela sobre a carga horaria 
semanal de oito discentes da UFPB contendo os 
dados: Discente, curso, nível, sexo, idade, número de 
disciplinas, carga horária semanal, e-mail. A 
classificação é: 
Discente: qualitativa nominal; 
Curso: qualitativa nominal; 
Nível: qualitativa ordinal; 
Sexo: qualitativa nominal; 
X: idade; 
1. quantitativa discreta (quando definida como 
anos completos). 
2. quantitativa contínua (quando definida como 
tempo de vida). 
Número de disciplinas matriculadas: quantitativa 
discreta; 
Carga horária semanal em minutos: quantitativa 
contínua; 
E-mail: qualitativa nominal. 
 
 
Após definir e classificar as variáveis, as vezes 
precisamos fazer um pré-processamento nos dados 
para: eliminar erros de digitação, verificar 
inconsistências, padronizar nomenclatura de 
categorias de variáveis qualitativas para que fiquem 
todas iguais, etc. Por exemplo, o servidor de e-mail do 
discente pode-se ser uma informação relevante para 
algum tipo específico de estudo, e se for o caso, pode-
se criar uma nova variável com o servidor de e-mail do 
discente. 
–
Nas tabelas de frequência, os dados brutos de uma 
variável são agrupados de acordo com a frequência de 
sua ocorrência (contagem), denotada por f. 
Quando a variável é qualitativa ordinal, suas categorias 
devem ser apresentadas de forma ordenada 
(crescente ou decrescente) na tabela. 
 
As tabelas de dupla entrada possuem as frequências 
de duas variáveis. 
A coluna de total é a distribuição de frequência 
marginal da variável inicial. 
Já a linha de total é a distribuição de frequência 
marginal da variável que foi subdividida. 
 
 
Da mesma forma que fizemos o cruzamento de duas 
variáveis, podemos fazer com três ou mais. No 
entanto, quanto mais variável agrega, mais confuso 
fica. 
 
Um dos principais objetivos da estatística descritiva é 
reduzir informações e uma das formas de fazer isso é 
criando tabelas menores e mais informativas. Mas 
quando temos uma variável quantitativa, 
principalmente as contínuas, nem sempre há uma 
redução significativa no número de linhas da tabela ao 
criar uma tabela de frequência simples. 
{Por esta razão, agrupamos as variáveis quantitativas 
em classes.} 
 
Um exemplo disso são as faixas etárias estabelecidas 
pelo IBGE, cuja as classe de idades tem intervalos de 
5 anos, porém, ainda assim, são significativamente 
grandes. 
→Rol: é uma lista em que os valores de uma variável 
estão dispostos em uma determinada ordem, 
crescente ou decrescente. O rol pode ser aplicado a 
variáveis ordinais, quantitativas discretas e contínuas. 
Exemplos: Nível: Graduação, Graduação, Graduação, 
Graduação, Graduação, Pós-graduação, Pós-
graduação, Pós-graduação; 
Rol de idade (X): 18, 18, 19, 20, 20, 24, 25, 26; 
Rol de Nº disciplina (Y): 4, 4, 5, 6, 6, 7, 7, 7; 
Rol de CHS (Z): 20, 20, 20, 24, 26, 26, 28, 28; 
→Amplitude Total (At): é a diferença entre os 
valores máximo e o mínimo observados de uma 
variável quantitativa. 
Exemplos: 
• Rol de idade (X): 18, 18, 19, 20, 20, 24, 25, 26; 
At(x) = máx(x) - min(x) = 26-18 = 8 
• Rol de Nº disciplina (Y): 4, 4, 5, 6, 6, 7, 7, 7; 
At(y) = máx(y) - min(y) = 7-4 = 3 
• Rol de CHS (Z): 20, 20, 20, 24, 26, 26, 28, 28; 
At(z) = máx(z) - min(z) = 28-20 = 8 
→N: número de unidades amostrais. 
→Número de Classes (k): pode ser utilizado um 
número de referência, ou determinado segundo algum 
critério como a regra de Sturges. 
 
Sturges (1926) realizou um estudo das 
distribuições de frequência e propôs escolher k 
como sendo o inteiro mais próximo de 1 + 
3,3log(n). 
k = 1 + 3,3 log(n) = 1 + 3,3 log(8) = 3,98 =̃ 4 
 
A amplitude das classes é o comprimento destas, 
podem ser o mesmo para todas as classes ou ter 
classes com comprimentos diferentes. As tabelas de 
classes iguais são as mais utilizadas e a amplitude das 
classes é determinada por: 
ℎ =
𝐴𝑡
𝑘
=
𝑚𝑎𝑥(𝑥) − 𝑚𝑖𝑛(𝑥)
𝑘
 
em que X é a variável a ser agrupada. 
 
Este exemplo, adotamos k = 4. 
Rol de idade (X): 18, 18, 19, 20, 20, 24, 25, 26; 
At(x) = 8 e h =
At
k
=
8
4
= 2 
Rol de número de disciplinas (y): 4, 4, 5, 6, 6, 7, 7, 7; 
At(y) = 3 e h =
At
k
=
3
4
= 0,75 
Rol de CHS (z): 20, 20, 20, 24, 26, 26, 28, 28; 
At(z) = 8 e h =
At
k
=
8
4
= 2 
Se houver a necessidade de arredondar o valor de 
h, deve-se sempre arredondar para mais. Mesmo 
que h=0,71 deve-se arredondar para h=0,8. 
 
Pesquisa de idade: 17, 18, 16, 24, 23, 42, 40, 36, 15, 
18, 26, 23, 23, 24, 28, 41, 16, 18, 20, 27. 
Idade fj 
15⊢21 8 
21⊢27 6 
27⊢33 2 
33⊢39 1 
39⊢⊣45 3 
 
Número de classes: k = 1 + 3,3 log(n) 
→Número de intervalos: 
 k = 1 + 3,3 log(20) → k =̃ 5,29 = 5 
{Pode arredondar para o mais próximo} 
 
 
→Amplitude total: 
At = 42 - 15 = 27 
Aintervalo =
At
k
 =
27
5
= 5,4 = 6 
{Obrigatoriamente arredondar para mais} 
→Frequência simples absoluta (fj): é a contagem da 
frequência da classe ou atributo j. Informa quantas 
vezes o elemento aparece. 
→Frequência simples relativa (frj): pode ser em 
termos percentuais multiplicando por 100: 
frj =
fj
n
 . 100 → taxa percentual. (A soma das 
frequências relativas tem que ser igual a 100%) 
→Frequência acumulada absoluta (Fj): contagem 
dos f até o fj. Ou seja, conta a frequência dos 
anteriores. 
Fj = f1 + f2 + f3+. . . +fj com j ≤ k. 
→Frequência acumulada relativa (Frj): pode ser em 
termos percentuais multiplicando por 100. Acumula as 
frequências em percentual. 
Frj = F1 + F2 + F3+. . . +Fj 
ou 
Frj =
Fj
n
 j = 1, 2, . . . k 
Rol: 50, 50, 50, 65, 65, 65, 65, 70, 70, 70, 70, 70, 70, 
72, 72, 72, 72, 72, 80, 80. (ao todo 20 amostras) 
Massa fj Fj frj Frj 
50 3 3 15% 15% 
65 4 7 20% 35% 
70 6 13 30% 65% 
72 5 18 25% 90% 
80 2 20 10% 100% 
Total 20 100%

Continue navegando