Buscar

Introdução à Estatística

Prévia do material em texto

1 1 
1 
 
 
 
 
 
 Introdução à Estatística 
 
 
Prof. Elmar Alves Peixoto 
 
 Conceitos Básicos 
 Dados 
 Planejamentos de Experimentos 
 Métodos de Amostragem 
 Estatísticas 
 Medidas de Tendência Central 
 Análise Exploratória de Dados 
 Medidas de Variação 
 Medidas de Posição 
 
 
 
Fevereiro/2012 
 
 2 2 
Conceitos Básicos 
 
Estatística: É um conjunto de métodos para planejar experimentos, obter dados e 
organizá-los, resumi-los, analisá-los, interpretá-los e deles extrair conclusões,(TRÌOLA, 
Mário F.) 
 
É um conjunto de métodos adequados para coleta, a exploração e descrição e para a 
interpretação de conjuntos de dados numéricos. 
 
População: É um conjunto de todos os elementos que estamos dispostos a estudá-los 
e que possuem pelo menos uma característica em comum. 
 
Ex.: População brasileira. 
 Todos eleitores de um país. 
 
Censo: É um conjunto de dados relativos a todos elementos de uma população. 
 
Ex.: Censo do IBGE sobre a população brasileira. 
Censo sobre o nível reprovação em escolas de públicas de uma determinada 
região, município, estado ou país. 
 
Parâmetro: È um valor que representa uma característica de uma população. 
 
 Ex.: 35% da população brasileira tem menos de 30 anos. 
 
Amostra: É um subconjunto de elementos de uma população. 
 
Ex.1 : Toma-se um conjunto(amostra) de 2000 eleitores para verificar tendência de voto 
numa eleição, dentro de uma população de 2.000.000 eleitores. 
 
Ex.2 : Amostra de variação de preços em determinadas supermercados para apurar a 
média da variação de preços em uma determinadas região como um todo. 
 3 3 
Estatística: É um valor que representa uma característica de uma amostra. 
 
Ex.: 53% dos eleitores pesquisados têm preferência por um candidato TAL. 
 
 Dados 
 
Quantitativos: São dados numéricos que representam medidas ou contagens. 
 
Qualitativos: Representam categorias, marcas, atributos. 
 
Ex.1.: A quantidade de um produto é um dado quantitativo, mas sua marca representa 
um dado qualitativo. 
 
Ex.2 : A quantidade de nicotina em uma determinada marca de cigarro é um dado 
quantitativo mais a marca Camel é um dado qualitativo. 
 
Ex.3 : O número de crianças na faixa etária entre 14 e 15 anos que concluíram o 1º 
grau é um dado quantitativo. Já o nível de qualidade do ensino público de um país ser 
ótimo, bom, regular ou ruim é um dado qualitativo. 
 
Discretos: Representam um número finito de valores possíveis. Podem ser 
enumeráveis. 
 
Contínuos: são dados que resultam de um número infinito de valores. Geralmente 
representam medidas, pesos. 
 
Ex1.: O número de alunos de uma sala é um dado discreto. já a quantidade de mel 
produzido por uma comédia é um dado continuo. 
 
Ex2. Quantidade litros de leite diários de uma vaca é um dado contínuo. Mas a 
quantidade de vacas de um curral é um dado discreto. 
 
Ex3. A idade de uma pessoa é um dado discreto, já sua altura é um dado contínuo. 
 4 4 
Dados de Seção Transversal: são dados que foram coletados simultaneamente ou 
dentro de um mesmo período do tempo. 
 
Ex. Se formos comparar o IDH (o índice de desenvolvimento humano) de determinadas 
regiões, é bom que as pesquisas sejam feitas no mesmo período de tempo em todas 
regiões que queremos comparar. Não devemos comparar índices de uma região 
tomadas há 10 anos atrás com dados coletados atualmente em outras regiões. 
 
Dados de série histórica: São dados coletados através de um período de tempo 
considerável para aquela pesquisa. 
 
Ex.1 : Podemos acompanhar o IDH de uma determinada região através de um período 
do tempo, para estudarmos se os efeitos de uma política social de um determinado 
governo vem fazendo efeito sobre a qualidade de vida de um povo. 
 
Ex.2 : Estudo de evolução de uma carteira de fundo de investimento ou uma empresa 
específica, para podermos avaliar o risco ou sua variação em torno de uma média 
através do tempo. 
 
É preciso ficar claro que os dados estatísticos são muitas vezes indicadores e não 
determinantes de um estudo que deve ser acompanhado de outras variáveis, dentro de 
um sistema como um todo. 
 
 
 
 
 
 
 
 
 
 
 
 5 5 
 Nível de Mensuração 
 
Uma outra maneira de classificar os dados que podemos utilizar é considerá-los quanto 
ao se nível de mensuração. 
 
Nominal: São dados que representam marcas, categorias, sexo... 
 
Ordinal: São dados que podem dispostos em uma ordem, porém não podemos 
quantificar a diferença entre duas ordens quaisquer. 
 
Exemplo1: Ótimo, bom, regular, ruim e péssimo. 
 
Exemplo2: 1º e 3º lugares 
 
Intervalar: Podemos até quantificar uma diferença numérica entre eles, mas não há 
um ponto de partida que possamos considerar como zero, e também não há uma razão 
entre duas medidas. 
 
O exemplo clássico é a escala Fahrenheit, pois o ºF não implica e ausência de calor e 
30º F não é o dobro de 60º F. 
 
°F = °C × 1.8 + 32 
 
Ex.2: Número de inscrição de seu CPF. 
 
Razão: É um nível intervalar que considera ausência de quantidade como zero e há 
significado entre diferença e razão entre medidas. 
 
Exemplos: Medidas e Pesos. 
 
 
 
 6 6 
 Planejamento de Experimentos 
 
 O planejamento de estudos que envolvem métodos estatísticos devem ser bem 
elaborados afim de evitarem erros e custos desnecessários, perdas de tempo e/ou 
conclusões errôneas. Para isto devemos seguir princípios básicos conforme abaixo: 
 
1. Saber a questão a ser respondida e a população de interesse; 
2. Pesquisa de dados bem definida inclusive a população; 
3. Cuidados na coleta de dados; 
4. Análise correta dos dados para uma conclusão dentro do objetivo da pesquisa. 
 
 Métodos de Amostragem 
 
Amostra Aleatória : É uma amostra onde cada elemento de uma população concorre 
com a mesma chance de ser escolhido ou figurar na amostra. 
 
Há vários métodos para amostra aleatória. Uma delas seria a geração através de 
computadores. 
 
Amostra Aleatória Simples: Ocorre quando toda amostra de n elementos possui a 
mesma chance de ser escolhida. 
 
Amostra Estratificada: Divide-se uma população em duas ou mais sub-populações, 
que possuem características diferentes (como sexo) e em seguida retiramos uma 
amostra de cada sub-população ou estrato. 
 
Dentro de cada sub-população podemos utilizar um método para extração de uma 
amostra aleatória. 
 
Amostra Sistemática: É extraído de uma população, a partir de uma seqüência, um 
elemento a cada intervalo preestabelecido. Exemplo: o 10o elemento de cada lista de 
chamada de uma escola. 
 7 7 
Amostra por Conglomerado: Dividi-se uma área populacional em 
conglomerados/seções. Escolhe–se aleatoriamente algumas dessas seções, e utiliza 
todos os seus elementos das seções escolhidas. 
 
 Estatísticas 
 
Estatística Descritiva: Usamos para descrever ou resumir características importantes 
de um conjunto de dados amostral ou populacional. 
 
Inferência Estatística: Quando utilizamos de dados amostrais para fazer inferência ou 
generalizações sobre uma população. 
 
Exemplo 1: Quando calculamos a nota média de uma turma, estamos usando a 
estatística descritiva se considerarmos a turma como uma população, mas será uma 
inferência se usada a média para inferir sobra os alunos do UNI-BH como um todo. 
 
Estudo Observacional: Não há interferência ou manipulação dos dados ou elementos 
a serem estudados. 
 
Experimento:Quando adotamos um tratamento ou manipulamos os dados para 
estudar os efeitos sobre uma amostra. 
 
Confundimento: Ocorre o confundimento quando os efeitos de duas ou mais variáveis 
não podem distinguir-se uns dos outros. 
 
 
 
 
 
 
 
 
 8 8 
 Medidas de Tendência Central 
 
Uma medida de tendência central representa o valor do centro ou do meio de um 
conjunto de dados. 
Antes de defini-las, serão introduzidos os símbolos utilizados para melhor estudo e 
compreensão. 
 
 = sigma = denota somatório de um conjunto. 
 
x = variável utilizada para representa um elemento/valor de uma amostra ou conjunto. 
 
xi = o índice i indica a posição do elemento num conjunto de dados ordenado. 
 
n = número de elementos de uma amostra 
 
N = número de elementos de uma população. 
 
 = 
N
x
n
i
1
 = média de todos os valores de uma população. x
 = 
n
x
n
i
1
 = média de um conjunto de valores amostrais. 
 
Média Simples ou média aritmética – 
x
 ou 

 = consiste do somatório dos valores 
dos elementos de um conjunto de dados dividido pela número de elementos deste 
conjunto. É a medida de tendência central mais utilizada em estatística, porém, o valor 
da média é extremamente sensível à ocorrência de valores muito extremos num 
conjunto de dados. Veremos isto com exemplos mais adiante. 
 
Se o conjunto representa uma amostra a média é representada pelo símbolo 
x
 ; se 
representa uma população a média é representada pelo símbolo 

. 
 
 9 9 
Ex.1 – Dado o conjunto abaixo sobre os salários incentivos dos executivos de algumas 
empresas, calculemos a média salarial de dos incentivos. 
 
Empresa Salário em R$ Incentivos em R$ 
 A 20.000,00 8.000,00 
 B 30.000,00 5.000,00 
 C 25.000,00 7.000,00 
 D 18.000,00 5.000,00 
 E 20.000,00 6.000,00 
 F 22.000,00 5.000,00 
 G 28.000,00 6.000,00 
 H 20.000,00 6.000,00 
 I 25.000,00 4.000,00 
 Tabela 1 x
s 
n
x
n
i
1
= 
9
,000.25,000.20,000.28,000.22,000.20,000.18,000.25,000.30,000.20 
 = 
 = 
11,111.23$
9
,000.208
R
 x
i 
n
x
n
i
1
 = 
78,777.5$
9
,000.4,000.6,000.6,000.5,000.6,000.5,000.7,000.5,000.8
R

 
 
Mediana (Md) – É o valor localizado no centro da distribuição dos dados ordenados, de 
tal maneira que a metade dos dados se localiza abaixo e a outra metade se localiza 
acima desse valor. Ao contrário da média, a mediana é menos sensível a valores 
extremos (outliers). 
Outliers são valores que são considerados discrepantes em relação a um conjunto de 
dados. 
Ex. homens ou mulheres com altura muito superior a média de uma população. 
Devido ao fato da mediana ser menos sensível aos valores extremos, deve-se preferi-la 
como medida central quando a distribuição de valores é fortemente assimétrica ou 
considerar a média, excluindo os valores discrepantes do conjunto de dados a ser 
analisados. 
 10 1
0 
 
Cálculo da mediana: se o conjunto possuir um número ímpar de valores, a mediana 
será o valor xi, onde i representa sua posição iésima, e é encontrado conforme 
formula a seguir: i = 
2
1n
. 
 
 ou se for par através da média simples dos dois valores xi e xi+1 que estão nas 
posições do meio, onde i = 
2
n
 . Vejamos o exemplo a seguir. 
 
 Ex1. A = { 7 , 8 , 8 , 9 , 9, 9 ). ; 
 
O conjunto A está ordenado e contém um número par de elementos, portanto a 
mediana é a média dos elementos das posições i = 
2
n
 = 
2
6
= 3 ; e posição i+1 = 
13
 
= 3 + 1 = 4 , temos então que a mediana 
5,8
2
98
2
43
~





xx
x
 
 
Ex.2 – Considerando os valores dos salários e incentivos dos executivos, de nossa 
tabela 1 anterior, encontramos após ordenação dos dados: 
Tabela 2 
 
Como o número de elementos é impar, igual a 9, temos que a mediana são os valores 
 Empresa Salário em R$ Incentivos R$ Empresa Salário em R$ Incentivos em R$ 
 1 D 18.000,00 5.000,00 I 25.000,00 4.000,00 
 2 A 20.000,00 8.000,00 D 18.000,00 5.000,00 
 3 E 20.000,00 6.000,00 F 22.000,00 5.000,00 
 4 H 20.000,00 6.000,00 B 30.000,00 5.000,00 
 5 F 22.000,00 5.000,00 E 20.000,00 6.000,00 
 6 C 25.000,00 7.000,00 H 20.000,00 6.000,00 
 7 I 25.000,00 4.000,00 G 28.000,00 6.000,00 
 8 G 28.000,00 6.000,00 C 25.000,00 7.000,00 
 9 B 30.000,00 5.000,00 A 20.000,00 8.000,00 
 11 1
1 
nas posições da linha 
5
2
19
2
1



n
, do conjunto de dados ordenados, 
correspondentes às colunas 3 e 7 da tabela 2 acima. Ou seja, a mediana dos salários é 
R$22.000,00 e dos incentivos é R$6.000,00. 
 
Moda - M = É o valor que ocorre com maior freqüência em um conjunto de dados. 
 
Se ocorrer de uma amostra possuir 2 valores com a mesma freqüência, dizemos que 
o conjunto é bimodal; ocorrendo mais de dois valores com um número maior de 
freqüência, dizemos que o conjunto é multimodal. 
 
Considerando nossa tabela 2 anterior, temos que a moda salarial é R$20.000,00 e para 
os incentivos temos um conjunto bimodal de R$5.000,00 e R$6.000,00. 
 
Ponto médio = É a média da soma do menor e do maior valor de um conjunto de 
dados. 
 
Ex. Dado o conjunto A = { 7 , 8 , 8 , 9 , 9, 9 ), temos como ponto médio o valor: 
 
8
2
97


PontoMédio
 
 
Considerando a tabela 2 anterior, sobre salários e incentivos, temos: 
 
Ponto médio salarial = 
00,000.24$
2
,000.30,000.18
R

 
 
Ponto médio de incentivo = 
00,000.6$
2
,000.8,000.4
R

 
 
 
 
 
 
 12 1
2 
 MÉDIA PONDERADA 
 
Dado um conjunto de valores A = (xi, x2, x3, ... , xn), onde é atribuído a cada valor 
xi um valor pi correspondente, definido como peso. Denominaremos P = (p1, p2, p3, 
...,pn) o conjunto dos valores pi . 
 
Definimos como Média Ponderada o valor Xw = 



i
n
i
ii
p
px
1
 
 
Exemplo 1: Dois alunos prestaram vestibular para vagas em distintos cursos. A 
universidade avalia o resultado final de acordo com a nota específica de cada 
matéria, atribuindo um peso de acordo com o curso escolhido pelo aluno. Veja a 
tabela abaixo: 
 Aluno A Curso A Aluno B Curso B 
MATÉRIA NOTA PESO MATÉRIA NOTA PESO 
Matemática 7,0 4 Matemática 6,0 1 
Física 8,0 4 Física 5,0 1 
Química 7,5 2 Química 8,0 3 
Biologia 6,0 1 Biologia 9,0 4 
Inglês 7,0 2 Inglês 8,0 3 
 
Qual aluno obteve o melhor desempenho? 
 
Usando o conceito de média ponderada, calculemos a média do aluno A, 
conforme abaixo: 
 
Xa= 
19
20,710,625,740,840,7 xxxxx 
 = 7,3 
Agora façamos o mesmo para o aluno B: 
 
Xb = 
12
30,840,930,810,510,6 xxxxx 
 = 7,9 
 13 1
3 
 Exercícios 
 
Ex.1: Dado um conjunto A = 
 30,29,29,29,28,25,25,22,20
, encontrar a Moda, Média, 
Mediana e Ponto Médio. 
 
Ex.2: Dado oconjunto M = 

20.000, 800, 750, 850, 900, 2.400, 3.000, 1.500, 1.000, 
850, 300, 

, referente a uma amostra de salários de uma empresa. Calcular a média, 
a mediana, a moda e o ponto médio. 
 
Compare os dois exemplos acima, faça uma crítica e diga qual melhor valor que 
representa uma medida central de cada conjunto. Como lidar com valores 
discrepantes? 
Ex.3: Dois investidores obtiveram os seguintes rendimentos em seus investimentos: 
 
Qual obteve o melhor rendimento financeiro? Quem obteve a melhor taxa média? 
 
 
Investimento Taxa Investidor A Rendimento Investidor B Rendimento 
Poupança 0,7% R$ 30.000,00 R$ 210,00 R$ 5.000,00 R$ 35,00 
RDB 1,2% R$ 8.000,00 R$ 96,00 R$ 7.000,00 R$ 84,00 
Dólar / F.Cambial -2,0% R$ 15.000,00 (R$300,00) R$ 10.000,00 (R$ 200,00) 
Ações 3,0% R$ 20.000,00 R$ 600,00 R$ 15.000,00 R$ 450,00 
Ouro 2,5% R$ 5.000,00 R$ 125,00 R$ 10.000,00 R$ 250,00 
Total R$ 78.000,00 R$ 731,00 R$ 47.000,00 R$ 619,00 
 
 
Ex.4: Em uma determinada região, contém 5 países que apresentam os seguintes 
índices de mortalidade infantil: 
 
 
 
 
 
 
 
Qual a média do índice de mortalidade infantil considerando a região como um todo? 
 País População ìndice 
 A 100.000.000 0,02 
 B 40.000.000 0,90 
 C 65.000.000 0,30 
 D 25.000.000 0,85 
 E 96.000.000 0,16 
 14 1
4 
 Outras medidas de tendência central: 
 
Média Geométrica: Muito utilizada na Economia e no Mercado Financeiro para taxas 
médias, envolvendo juro composto. Mas em geral é a raiz enésima de um conjunto de 
n elementos. 
 
Ex.1 : Calcular a raiz geométrica dos seguintes números do conjunto A= { 5, 8, 12, 13 } 
 
 x
4 131285 xxx
 

 8,888 
Exemplo 2: Calcular a taxa média de um Fundo de Investimento que rendeu 
respectivamente, 4% ; 5% e 2% nos três últimos períodos. 
 
Primeiro devemos aprender que a taxa está sempre vinculada, a fator de correção 
representado por 1 + i . 
No exemplo dado, os fatores de correção de cada taxa, são respectivamente: 
 
1 + 4% ; 1 + 5% e 1 + 2%. Na prática o valor x da nossa média é: 
 
x = 
)02,01()05,01()04,01(3  xx
 

 1,036951 
 
O valor encontrado representa o fator de correção médio, para achar a taxa percentual, 
devemos subtrair 1 e multiplicar por 100. x = (1,036951 –1 ) x 100 = 3,6951% por 
período. 
 
 
Média Harmônica = Muito utilizada em conjunto de dados que representação taxa de 
variação. Como exemplo velocidade. 
x = 

x
n
1
 
A média harmônica é utilizada quando estamos trabalhando com grandezas 
inversamente proporcionais. 
 15 1
5 
Exemplo1. Calcule a média harmônica de 5, 6 , 7 e 8. 
 
X = 
8
1
7
1
6
1
5
1
4

 

 6,3 
 
 
Exemplo 2. Um automóvel desloca com uma velocidade de 60 km/h em um percurso 
de 1200 km e volta com uma velocidade de 40 km/h, qual sua velocidade média? Use a 
média harmônica e veja o resultado como é diferente do que esperávamos? 
 
Obs.: o resultado do cálculo deverá apresentar sempre uma casa decimal a mais 
do que apresentado pelo conjunto de dados original. 
Durante os cálculos utilizar o maior número de casas decimais possíveis. 
 
 
 MEDIDAS DE VARIAÇÃO 
 
São medidas mostram como os valores podem diferir(distanciar) entre si e de quanto 
diferem de um valor específico, geralmente a média de conjunto de valores. 
 
Os números relativamente próximos uns dos outros têm baixa medidas de variação em 
relação aos que são mais dispersos. 
 
Quando estamos estudando um conjunto de valores em estatística, além de um valor 
de tendência central, é razoável que queiramos saber como que os outros valores 
estão situados em relação a este. Esta dispersão é de grande importância para a 
análise do problema ou situação que nos apresenta quanto a sua interpretação. 
 
Vamos iniciar estudando um exemplo retirado do nosso livro texto, pág. 38. A tabela 
abaixo mostra tempo de espera em minutos de dois bancos, sendo que o Banco 1 
utiliza fila única e outro Banco 2 que utiliza fila múltipla. 
 16 1
6 
 
Banco 1 6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7 
 
Banco 2 4,2 5,4 5,8 6,2 6,7 7,7 7,7 8,5 9,3 10,0 
 
 
Encontremos primeiro a média, a moda, a mediana e o ponto médio do tempo de 
espera de cada Banco. ( O Aluno deverá fazer ). 
 
 
Podemos constatar que os valores são os mesmos, então perguntamos o que levou a 
maioria dos Bancos a fazerem opção pela fila única. É ISTO QUE AS MEDIDAS DE 
VARIAÇÃO IRÃO NOS RESPONDER. 
 
 
 Amplitude 
 
È a diferença entre o maior e o menor valor de um conjunto de dados. A amplitude 
pode nos dar a princípio uma idéia de quão estão dispersos os números, mas tem o 
inconveniente de utilizar apenas dois elementos. 
 
 
Banco 1 A = 7,7 – 6,5 = 1,2 minutos 
 
Banco 2 A = 10,0 – 4,2 = 5,8 minutos 
 
 
Pode-se observar que os clientes do Banco 1 tem uma expectativa de variação de 
espera menor que o Banco 2, . Mas esta expectativa, considerando apenas a 
amplitude sem conhecer o restante dos dados pode nos levar a uma interpretação 
errônea. Iremos mostrar mais adiante após falarmos de desvio-padrão. 
 
 17 1
7 
 
Desvio-padrão: É uma medida de variação de valores de um conjunto em relação à 
média. É mais útil e mais importante medida de variação. 
 
 
1
)(
1
2






n
xx
S
x
i
i
 = fórmula do desvio-padrão de uma amostra 
 
 
.
)1(
)]([][ 22
amostralpadrãodesviooparaabreviadaformula
nn
xxn
S 



  
 
 
s = 
)1(
)].([].[ 22

 
nn
xfxfn cc
 = fórmula de cálculo do desvio-padrão para uma tabela 
 de freqüência. onde x é o ponto médio da classe e fc 
a freqüência de classe.. 
 
N
x
n
i
i


 1
2)( 

 = fórmula do desvio-padrão de uma população 
Variância = s2 = 
1
)(
1
2




n
x
n
i
i x
 = variância de uma amostra 
 
Variância = 
N
x
n
i
i


 1
2
2
)( 

 = variância de uma população. 
 
Vamos calcular os desvios-padrão do exemplo anterior, sobre as filas dos Bancos 1 e 
2, comparar e analisá-los. 
 
- Agora, vamos ao exemplo abaixo que relaciona as notas da AIA dos alunos de um 
 18 1
8 
curso de graduação da UNI-BH. Vamos calcular o valor da média, desvio- padrão e 
Amplitude, fazermos nova análise para conclusão dos nossos estudos. 
 
Turma 1 = { 3, 20, 20, 20, 20, 21, 21, 21 , 21, 21, 22, 23} 
 
Turma 2 = { 4, 5, 5, 6 , 6, 7, 8 , 10, 17, 18, 19, 19} 
 
A1 = 23 - 3 = 20 , 
x
 =19,4 s1 = 5,2 ; 
 
A2 = 19 – 4 = 15 , 
x
 = 10,3 , s2 = 6,1 
 
Refaça os valores da turma 1, retirando o(s) valor(es) outlier(s). 
 
Coeficiente de variação: Indica uma dispersão relativa dos dados considerando o 
desvio padrão e a média de um conjunto de dados. 
 
 
_
x
s
CV 
 (amostra) ou 


CV
 (população) 
 
Ex. 1 – Calcule o coeficiente de variação dos exemplos referente as notas da AIA 
dados acima. 
 
 
 
 
 
 
 
 
 
 
 19 1
9 
Análise Exploratória de Dados 
 
Permite um estudo bastante formal dos dados e nos leva rapidamente aoconhecimento de estruturas existentes no conjunto de dados, principalmente com uma 
estrutura gráfica. 
 
Três características importantes que proporcionam uma visão satisfatória sobre os 
dados: 
 
1. A natureza ou forma da distribuição de dados, como forma de sino, uniforme ou 
assimétrica. 
 
2. Um valor representativo como média. 
 
3. Uma medida de dispersão ou variação. 
 
Tabela de freqüência: È uma tabela que visa organizar os valores de um conjunto de 
dados em classes ou categorias, de maneira a proporcionar ao estudante uma visão 
quantitativa da sua distribuição.. Para melhor entender, vamos analisar os dos 
conjuntos de valores da tabela 1, coletados pelos alunos do curso de GRH, 2º 
semestre de 2005, do UNI-BH. Referem-se a peso, altura e idade. 
 
Devemos organizar o conjunto em classes, de modo que cada classe contenha 
apenas os valores, limitados pelos limite inferior de classe(inclusive) e o limite 
superior de classe(inclusive). 
 
Bom, vamos definir então esses novos termos para melhor compreensão. 
 
Amplitude – A - de um conjunto de dados é a diferença entre o maior e menor valor 
entre os elementos deste conjunto de dados. 
 
Ex.1 : Calcular a amplitude da idade e peso dos alunos do curso 
 20 2
0 
Classes: São os intervalos onde serão distribuídos os dados de uma amostra ou 
população. 
 
Ex.1 : O quadro abaixo, tabela 3, mostra uma distribuição de dados em 6 classes. 
 
 
 
 
 
 
 
 
 Tabela 3 
 
Números de Classes – K : após o cálculo do valor de A, podemos agora dividi-lo de 
modo que cada subdivisão, represente uma classe de valores. Para isto devemos 
definir o número de classes que iremos trabalhar. 
 
Há duas regras básicas para cálculo de um número de classes K: 
 
Segundo SCOTT, em um conjunto de até 100 dados, podemos definir a quantidade de 
classe pela raiz quadrada desse número. K = 
n
 ; se n 

 100 ou 
 
Acima de 100, calculamos através da fórmula: K = 5.log n 
 
Algumas literaturas a respeito do assunto, adota como parâmetro, um número mínimo 
de 5 e máximo de 20. Nos cabe utilizar o bom senso, analisar cada situação e 
utilizar a que mais convir ao estudo proposto. Mas na prática, ambas se 
aproximam. Veremos isto mais tarde. 
 
Podemos utilizar a tabela 1, anexa, contendo dados dos alunos do 1 ano GRH/2005, 
para encontrar este número. Sabemos que nossos conjunto possui 46 alunos, então 
aplicando os conceitos acima, temos: 
Faixa de Renda fc 
 501 a 1000 5 
1001 a 1500 12 
1501 a 2000 18 
 2001 a 2500 15 
 2501 a 3000 3 
 Acima 3000 1 
 21 2
1 
n 
100
 K = 
46
 = 6,78 

 7 
 
Amplitude de Classe c: representa o intervalo que conterá os elementos de cada 
classe. 
c = 
1K
A
 ; onde A representa a amplitude do conjunto de dados e K número de 
classes que iremos distribuir os dados. 
 
Utilizando mais uma vez nossos dados referente à idade da tabela 1 ou 2, temos: 
 
A = 49 – 19 = 30 c =
17
30

= 5 
 
Então, nosso dados da tabela 1 ou 2, anexas, os dados da idade, serão distribuídos 
em 7 classes, sendo que cada terá uma amplitude igual a 5. 
 
Limite Inferior : LI = ( menor valor - 
2
c
 ) *, representa o menor valor do intervalo 
da primeira classe de dados. Continuando a utilizar os dados referentes a idade , 
temos: 
 
LI = 19 - 
2
5
= 16,5 LI pode ser 16 ou 17, neste nosso exemplo. 
 
*Alguns autores define o LI, como sendo o menor valor do conjunto. 
 
Limite Inferior de Classe: É o menor valor que pode pertencer a uma classe. 
 
Limite Superior de Classe – LSC: delimita o maior valor que pode pertencer a uma 
Classe. 
 
Marca de classe: São os pontos médios de classe. 
 
 22 2
2 
Vamos então iniciar nosso estudo prático com os dados referente a 
idade da tabela 2, ao final da apostila. 
 
1 - Calculemos a amplitude, a média, a moda, mediana e o ponto médio. 
 
2 – Vamos organizar agora nossos dados em classe. Para tanto, encontremos o 
número de classe adequado, a amplitude do classe, Limite inferior e limite inferior de 
cada classe. 
 
3 – Achar o ponto médio de cada classe. 
 
4 – Montar um gráfico de freqüência. 
 
Freqüência de classe – fc : É o número de valores ou dados que pertencem a cada 
classe. 
 
Freqüência relativa - fr: 
totalfrequencia
declassefrequencia
 
 
 Freqüência relativa percentual: fr 

 100 
 
Freqüência acumulada - fa = É a soma da freqüência de uma classe específica com 
freqüência das classes anteriores. 
 
Freqüência relativa acumulada: É o valor acumulado das freqüências relativas. 
 

x
 = média de uma tabela de frequência = 
n
xfc .
, onde: 
fc = freqüência de classe 
x = ponto médio de classe ou marca da classe 
n = freqüência total 
 23 2
3 
 Prática 
 
Como a melhor maneira de aprender e assimilar conhecimentos é fazendo, vamos 
montar nossa tabela usando os dados, relativos a idade, desta turma. Os outros 
dados estaremos estudando utilizando o computador, o EXCEL. 
 
 
Obs.: Considerando LI como 17. 
 
 classe 
 
 fc 
 
 fr 
 
 fra 
 
 fr% 
 
 fra% 
pto.médio 
classe x 
 
 fc .x 
 
 fc . x
2 
 
 
 
 
 
 
 
total 
Obs.: a partir dos dados da amplitude e freqüência de classe podemos construir nossos 
gráficos. 
 
 
 
 
 
 
 
 
 
 
 
 
 24 2
4 
Tabela a ser utilizada para o peso. 
 
 classe 
 
 fc 
 
 fr 
 
 fra 
 
 fr% 
 
 fra% 
pto.médio 
classe x 
 
 fc .x 
 
 fc . x
2 
 
 
 
 
 
 
 
total 
Obs.: a partir dos dados da amplitude e freqüência de classe podemos construir nossos 
gráficos. 
 
 
 
 
Tabela a ser utilizada para altura. 
 
 classe 
 
 fc 
 
 fr 
 
 fra 
 
 fr% 
 
 fra% 
pto.médio 
classe x 
 
 fc .x 
 
 fc . x
2 
 
 
 
 
 
 
 
total 
 
 
 
 25 2
5 
Assimetria - Coeficiente de Pearson 
 
Uma distribuição é simétrica se a metade esquerda do seu histograma é 
aproximadamente a imagem-espelho da metade da direita. Neste caso a média tem o 
mesmo valor da mediana e da moda. 
 
Uma distribuição é assimétrica quando o histograma mostra uma tendência de 
concentração mais a esquerda ou direita. Dizemos assimetria negativa, quando a 
média e a mediana estão situadas à direita da moda, e assimetria positiva se estiverem 
a direita 
 
Fórmula para encontrar o grau de assimetria de um conjunto de dado: 
Coeficiente de Pearson - I = 
s
medianax )(3 
 ; se I 
1
 ou I 

 - 1 , dissemos que os 
dados podem ser considerados significativamente assimétricos. 
 
 
 
 
 
 
 26 2
6 
 
 
 
 
 
 
 
Exercícios: Calcular o índice de assimetria de Pearson, para os exemplos anteriores 
da fila dos Bancos e das tabelas 2, referente peso, altura e idade dos alunos do UNI-
BH, curso Tecnológico GRH. 
 
 
 
 27 2
7 
 Algumas regras práticas e Empírica 
 
Regra prática do desvio-padrão:s = 
4
A
 
 
Regra Empírica = 68-95-99,7 para dados com distribuição em foram de sino. 
 
 Cerca de 68% dos valores estão a menos de um desvio-padrão em relação à média 
amostral ou populacional. 
 
 Cerca de 95% dos valores encontram-se a menos de dois desvios-padrão em 
relação à média amostral ou populacional. 
 
 E finalmente, aproximadamente 99,7% dos valores encontra-se a menos de três 
desvios-padrão em relação à média amostral ou populacional. 
 
 
Exercício – Certifique as regras acima e verifique utilizando os dados da tabela 2. 
 
Bom agora estamos pronto para iniciar nossos estudos acima, considerando nossa 
tabela de idade, peso e medida, utilizando o EXCEL. 
 
 
Medidas de Posição 
 
Indica quão distante um valor x, de um conjunto de dados, em relação à média dos 
elementos desse conjunto. 
 
Escore z ou escore padronizado: indica o números de desvios-padrão que um valor x 
de um conjunto de dados situa-se em relação à média desse conjunto de dados: 
 
 
 28 2
8 
z = 
s
xx )( 
 = fórmula para um conjunto amostral. 
 
z = 

)( x
 = formula para um conjunto populacional. 
 
O valor z representa melhor, quando queremos comparar dados, do que a simples 
diferença entre um valor xi qualquer e a media _x de uma amostra ou população. 
 
OUTRAS MEDIDAS DE POSIÇÃO. 
 
Percentis – divide um conjunto de dados em 100 pares 
Quartis: Representados por Q1, Q2, e Q3, (primeiro, segundo e terceiro quartil), são 
outras medidas de posição que dividem o conjunto de dados em quatro partes. 
Exercício1 – Faça uma correlação entre os percentis e os quartis. 
 
 
Teorema de Chebyshev 
Há pelo menos (
2
1
1
z

) valores, entre a média _
x
 e z desvios-padrões , considerando 
uma distribuição de dados e z > 1. 
 
1 - A vantagem do teorema de Chebyshev é que pode ser aplicado a qualquer amostra, 
independente de sua distribuição. 
 
2 – A regra empírica, pressupõe uma distribuição normal, em forma de sino. Porém 
seus valores já encontram-se tabelados. 
 
 
 
 
 29 2
9 
 Exercícios de Revisão. 
 
1) – Qual a melhor medida de tendência central mais utilizada, considerando a moda, 
mediana, média e ponto médio de uma amostra ou população? 
 
2) – Dê exemplos de dados discretos e contínuos. 
 
3) Considere a tabela abaixo, referente a Variação Mensal do IGPM. Encontre a moda, 
a mediana, a média, o ponto médio, a amplitude e o desvio padrão. Faça uma tabela e 
o gráfico da de distribuição de freqüência.: Utilize o Excel. 
 
Variação Mensal do IGPM de jan/2002 a Julho/2005 
 Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez 
2002 0,36% 0,06% 0,09% 0,56% 0,83% 1,54% 1,95% 2,32% 2,40% 3,87% 5,19% 3,75% 
2003 2,33% 2,28% 1,53% 0,92% -0,26% -1,00% -0,42% 0,38% 1,18% 0,38% 0,49% 0,61% 
2004 0,88% 0,69% 1,13% 1,21% 1,31% 1,38% 1,31% 1,22% 0,69% 0,39% 0,82% 0,74% 
2005 0,39% 0,30% 0,85% 0,86% -0,22% -0,44% -0,34% 
Tabela referente ao exercício 3. 
 
 
4) Calcule o coeficiente de Pearson para a o exemplo acima. 
 
5) Porque o desvio-padrão é mais importante e útil medida de variação? 
 
6) calcule o valor do escore z para o IGPM de junho/2004. 
 
7) Qual a taxa média mensal inflacionária, considerando as seguintes taxas? 
 
 5,5% ; 7,1% ; 1,9% e 3,6%. 
 
 
8) Um país obteve os seguintes crescimentos nos últimos 5 anos: 
 
 1,42% ; 4,41% ; 3,32% ; 6,8% e 0,80% , qual foi seu crescimento médio 
anual? 
 
 
 
 
 30 3
0 
Tabela 1 – Alunos do curso Gestão de RH – 1
o
 período 2005 
Introdução à Estatística - GRH - 1o período 
 
 matrícula idade peso altura 
1 4045219608 20 59 1,67 
2 4052219552 44 47 1,59 
3 405219550 21 59 1,66 
4 405219132 47 104 1,70 
5 405219135 43 61 1,73 
6 405219167 35 75 1,74 
7 405219615 30 64 1,69 
8 405219142 25 74 1,77 
9 455219139 24 93 1,85 
10 405219616 27 85 1,75 
11 405219168 26 55 1,64 
12 405219133 34 95 1,95 
13 405219146 37 70 1,73 
14 405219175 30 57 1,70 
15 405219612 22 60 1,65 
16 405219614 28 60 1,70 
17 405219180 26 57 1,65 
18 40503090 19 60 1,61 
19 405219543 19 48 1,67 
20 405219164 30 60 1,65 
21 405219520 20 53 1,68 
22 405219159 25 58 1,62 
23 405219550 49 58 1,50 
24 405219134 23 55 1,65 
25 405219174 27 62 1,66 
26 405219601 23 50 1,61 
27 405219613 23 60 1,65 
28 405219554 38 62 1,62 
29 405219149 32 70 1,63 
30 405219144 24 62 1,60 
31 405219163 31 60 1,56 
32 405219152 45 45 1,55 
33 405219165 30 52 1,62 
34 405219553 29 50 1,60 
35 405219176 28 60 1,69 
36 4052219603 46 57 1,58 
37 405219617 35 51 1,52 
38 405219161 21 63 1,66 
39 405219145 29 70 1,60 
40 404213492 26 49 1,59 
41 4014213515 42 56 1,63 
42 404213491 40 78 1,79 
43 4042213497 29 63 1,68 
44 404213471 22 105 1,87 
45 404213500 34 54 1,62 
46 404213478 33 56 1,69 
 
 
 
 
 31 3
1 
 
 
Tabela –2 - Alunos do 1o período de GRH – Tecnológico – 2o S - 2005-08-08 
 matrícula idade peso altura 
 
18 40503090 19 60 1,61 
19 405219543 19 48 1,67 
1 4045219608 20 59 1,67 
21 405219520 20 53 1,68 
3 405219550 21 59 1,66 
38 405219161 21 63 1,66 
15 405219612 22 60 1,65 
44 404213471 22 105 1,87 
24 405219134 23 55 1,65 
26 405219601 23 50 1,61 
27 405219613 23 60 1,65 
9 455219139 24 93 1,85 
30 405219144 24 62 1,60 
8 405219142 25 74 1,77 
22 405219159 25 58 1,62 
11 405219168 26 55 1,64 
17 405219180 26 57 1,65 
40 404213492 26 49 1,59 
10 405219616 27 85 1,75 
25 405219174 27 62 1,66 
16 405219614 28 60 1,70 
35 405219176 28 60 1,69 
34 405219553 29 50 1,60 
39 405219145 29 70 1,60 
43 4042213497 29 63 1,68 
7 405219615 30 64 1,69 
14 405219175 30 57 1,70 
20 405219164 30 60 1,65 
33 405219165 30 52 1,62 
31 405219163 31 60 1,56 
29 405219149 32 70 1,63 
46 404213478 33 56 1,69 
12 405219133 34 95 1,95 
45 404213500 34 54 1,62 
6 405219167 35 75 1,74 
37 405219617 35 51 1,52 
13 405219146 37 70 1,73 
28 405219554 38 62 1,62 
42 404213491 40 78 1,79 
41 4014213515 42 56 1,63 
5 405219135 43 61 1,73 
2 4052219552 44 47 1,59 
32 405219152 45 45 1,55 
36 4052219603 46 57 1,58 
4 405219132 47 104 1,70 
23 405219550 49 58 1,50

Continue navegando