Apostila de Estatística I

•
FPS

Daniel Pimentel
25/09/2013
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 33 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 33 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 33 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Estatística I

56.839 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
Material de propriedade do professor Carlos Martins – UNICAP
Capítulo I - Preliminares
 Os Dados e a Estatística
 
– INTRODUÇÃO
A terminologia Estatística é proveniente da palavra Estado e foi utilizada primeiramente para designar levantamentos de dados, cuja finalidade era orientar o Estado em suas decisões.
Neste sentido, foi também utilizada em épocas remotas para determinar o valor dos impostos cobrados dos cidadãos, para determinar a estratégia de uma nova batalha em guerras que se caracterizavam por uma sucessão de batalhas. (Para os comandantes era fundamental saber quantos homens, armas, cavalos etc., dispunham após a última batalha).
A estatística teve acelerado desenvolvimento a partir do século XVII, com os estudos de Bernoulli, Pascal, Laplace, Guass, Galton, Pearson e outros que estabeleceram suas características atuais.
Atualmente, a estatística é definida da seguinte forma:
Estatística é um conjunto de métodos e processos quantitativos que servem para estudar e mensurar os fenômenos coletivos
A Estatística é considerada por alguns autores como ciência no sentido do estudo de uma população. E como método quando utilizada de forma instrumental por outra ciência. De modo geral, podemos dizer que a essência da ciência é a observação e que o seu objetivo básico é a inferência. 
 Em qualquer ciência, engenharia, psicologia, medicina, economia, biologia, etc., modelos são usados para descrever fenômenos. Estes modelos são criados com base em um certo número de dados experimentais.
	Em toda ciência, uma grande quantidade de dados é usada e um tratamento matemático sempre é requerido, de modo a correlacionar estes dados entre si. Métodos estatísticos são utilizados para estes fins. 
	
1.2 – MÉTODO ESTATÍSTICO - O método estatístico pode ser: cientifico ou experimental.
1.2.1 – O Método Científico
 Muitos dos conhecimentos que temos foram obtidos na Idade Média por acaso ou por necessidades práticas sem aplicação de um método. Atualmente, todo novo conhecimento resulta da observação e do estudo. Se bem que, muitos desses conhecimentos possam ter sido observados inicialmente por acaso, a verdade é, que desenvolvemos processos científicos para adquirirmos tais conhecimentos.
 
1.2.2 – O Método Experimental. 
 O método experimental consiste em se manter constantes todas as causa (fatores), menos uma, e variar esta causa de modo que, o pesquisador possa descobrir seus efeitos, caso existam. É o método preferido no estudo da física e da química.
Este curso tem como objetivo usar a estatística para a análise de processos em geral; saber selecionar uma amostra, saber tratar um conjunto de informações, saber fazer um planejamento experimental (determinar quantas e como experiências devem ser feitas), propor um modelo matemático que descreva o fenômeno, estimar os parâmetros deste modelo e fazer a análise dos erros.
1.2.3 – Modelos
Existem basicamente dois tipos de modelos: modelos mecanicistas, desenvolvidos diretamente a partir de conhecimentos físicos básicos, e os modelos empíricos, desenvolvidos a partir de equações matemáticas do tipo exponencial, polinomial, logarítmica, por exemplo, com base em algum fenômeno físico conhecido.
Em capítulos posteriores, a estimação de parâmetros de modelos físicos será estudada, assim como o planejamento das experiências necessárias para a geração de dados. 
 
1.2.4 – A ESTATÍSTICA É ENFOCADA SEGUNDO DOIS ASPECTOS:
 
( ESTATÍSTICA DESCRITIVA – tem por objetivo descrever os dados observados.
( ESTATISTICA INDUTIVA – tem por objetivo obter e generalizar conclusões para a população, a partir de uma amostra, utilizando o cálculo das probabilidades. 
1.2.5 – AMOSTRAGEM
	Quando se deseja colher informações sobre um ou mais aspectos de um grupo grande ou numeroso, verifica-se muitas vezes, ser praticamente impossível fazer um levantamento do todo. Daí a necessidade de investigar apenas uma parte dessa população ou universo. O problema da amostragem é, portanto, escolher uma parte (ou amostra), de tal forma que ela seja mais representativa possível do todo e, a partir dos resultados obtidos, poderem inferir para o total da população. 
	Conceituando:
( População ou universo – É o conjunto constituído por todos os indivíduos que apresentem pelo menos uma característica comum.
( Amostra – É um subconjunto do universo, através do qual se faz um juízo ou inferência da população.
1.3 – FORMAS DE INVESTIGAÇÃO DE UMA POPULAÇÃO - Quando somos solicitados a estudar um fenômeno coletivo --podemos optar entre os seguintes processos estatísticos:
 ( Censo - É uma avaliação direta de um parâmetro, utilizando-se todos os componentes da população.
 ( Estimação - É uma avaliação indireta de um parâmetro, com base em um estimador através do cálculo das probabilidades.
PROPRIEDADES PRINCIPAIS DO CENSO
a) Admite erro processual zero e tem confiabilidade 100%.
b) É caro.
c) É lento.
d) É quase sempre desatualizado.
e) Nem sempre é viável.
PROPRIEDADES PRINCIPAIS DA ESTIMAÇÃO
a) Admite erro processual positivo e tem confiabilidade menor que 100%.
b) É barata.
c) É rápida.
d) É atualizada.
e) É sempre viável. 
 
1.4 – FASES DO MÉTODO ESTATÍSTICO - Podemos distinguir no método estatístico as seguintes fases:
 
Definição do Problema
Planejamento
Coleta dos Dados
Apuração dos Dados
Apresentação dos Dados
Análise e interpretação de Dados
1.4.1 – Definição do Problema - Consiste em uma definição ou formulação correta do problema a ser estudado.
1.4.2 – Planejamento - Consiste em determinar os procedimentos necessários para resolver o problema, ou seja, como levantar informações sobre o assunto objeto do estudo. Que dados deverão ser obtidos? Etc,..
1.4.3 – COLETA DE DADOS - A terceira etapa é essencialmente operacional, compreendendo a coleta das informações necessária a solução do problema. O passo seguinte é a coleta de dados. A coleta pode ser direta ou indireta.
( Direta - quando os dados são obtidos diretamente da fonte originária. Os valores assim compilados são chamados de dados primários, como, por exemplo, nascimentos, casamentos e óbitos, registrados no Cartório de Registro Civil, vendas registradas em notas fiscais da empresa etc.
Quanto ao tempo, a coleta pode ser classificada em:
( Continua: quando realizada permanentemente;
( Periódica: quando é feita em intervalo de tempo;
 
( Ocasional: Quando efetuada sem época preestabelecida.
( Indireta - quando é inferida a partir dos elementos obtidos pela coleta direta. Os valores assim compilados são denominados de dados secundários, como, por exemplo, o cálculo de vida média, obtida pela pesquisa, nas tabelas demográficas publicadas pelo IBGE. 
A coleta indireta é feita, portanto, por deduções e conjeturas, podendo ser realizada por: 
( Por analogia. 
( Por proporcionalização. 
( Por indícios.
( Por avaliação.
A coleta de dados é feita por analogia quando o conhecimento de um fenômeno é induzido a partir de outro que com ele guarda relações de casualidade.
A coleta de dados é feita por proporcionalização, quando o conhecimento de um fato se induz das condições quantitativas de uma parte dele.
A coleta por indícios se dá quando são escolhidos fenômenos sintomáticos para discutir um aspecto geral da vida social
A coleta é feita por avaliação quando, através de informações fidedignas ou estimativas cadastrais, onde se presume o estado quantitativo de um fenômeno.
 
1.4.4 – APURAÇÃO E CRÍTICA DE DADOS - Propõe-se eliminar os erros capazes de provocar futuros enganos na apresentação e análise, procede-se uma revisão crítica dos dados, suprimindo os valores estranhos ao levantamento.
1.4.5 – APRESENTAÇÃO DE DADOS – Existem duas formas de apresentação de dados: tabular e gráfica.A Associação Brasileira de Normas técnicas define que para a construção de uma tabela deve-se atender a resolução 886 do Conselho Nacional de Estatística.
1.4.6 – TABELAS - A construção de tabelas obedece à Resolução nº 886 de 26 de outubro de 1966, do Conselho Nacional de Estatística. Uma tabela deve apresentar: Titulo Cabeçalho, Corpo, Coluna indicadora e Rodapé.
Título - Apresenta o conjunto de informações, as mais completas possíveis, que possam responder às seguintes perguntas:
O quê? (referente ao fato)
Quando? (correspondente à época)
Onde? (relativo ao local)
Cabeçalho - É a parte superior da tabela que especifica o conteúdo das colunas
Corpo - É o conjunto de linhas e colunas que contém informações sobre a variável em estudo.
Coluna indicadora - É à parte da tabela que especifica o conteúdo das linhas
Rodapé - É onde são colocadas de preferência à fonte, as notas e as chamadas.
Exemplo de uma tabela:
 Produção de Café		Título
 Brasil 1991 - 1994
 ____________________
C. indicadora Anos Produção
 (1000t) Cabeçalho
 ____________________
 1991 2.535
 1992 2.666
 1993 2.122
 1994 3.750
 _____________________
 Rodapé Fonte: IBGE
1.4.7 – GRÁFICA - A representação gráfica tem por finalidade dar uma idéia, a mais imediata possível, dos resultados obtidos sobre o comportamento do fenômeno. 
1.4.8 – ANÁLISE DOS RESULTADOS - A estatística tem como objetivo tirar conclusões sobre a população, a partir de informações fornecidas pela representatividade desta. Desta forma, utiliza-se dos métodos da estatística indutiva (inferência) para fazer a análise dos resultados obtidos.
1.5 – NORMAS DE APRESENTAÇÃO TABULAR. 
1.5.1 – NORMAS GERAIS
1.5.2 – NÚMERO - Uma tabela deve ter número, inscrito no seu topo, sempre que um documento apresentar duas ou mais tabelas.
A identificação de uma tabela deve ser feita com algarismos arábicos, de modo crescente, precedido da palavra tabela, podendo ser subordinada ou não a capítulos ou seções de um documento.
1.5.3 – TÍTULO - Toda tabela deve ter título para indicar o fato observado e a abrangência geográfica e temporal dos dados apresentados na mesma.
As indicações do fato observado e a abrangência geográfica dos dados devem ser feitas sem abreviações, por extenso de forma clara e concisa. A abrangência temporal dos dados pode ser feita com abreviações, porém, de forma clara e concisa.
1.5.4 – MOLDURA - Toda tabela deve ter moldura para estruturar os dados a serem apresentados. A moldura de uma tabela é composta de, no mínimo, três traços horizontais paralelos. O primeiro para separar o topo e indicar o início da tabela. O segundo para separar cabeçalho e o terceiro para separar o rodapé e indicar o final da tabela. A moldura de uma tabela não deve ter traços verticais que a delimitam à esquerda e à direita.
1.5.5 – CABEÇALHO - É a parte da tabela que especifica o conteúdo das colunas, complementando o título. Deve ser feito com palavras ou com notações, de forma clara e concisa, sem abreviações.
1.5.6 – COLUNA INDICADORA - É a parte da tabela que especifica o conteúdo das linhas, complementando o título. Deve ser feito com palavras ou com notações, de forma clara e concisa, sem abreviações.
1.5.7 – UNIDADE DE MEDIDA - Toda tabela deve ter a unidade de medida inscrita no cabeçalho ou na coluna indicadora, sempre que houver necessidade de se indicar, completando o título, a expressão quantitativa ou metrológica dos dados. Deve ser feita com símbolos ou palavras entre parênteses. Exemplos: (metro) ou (m), (tonelada) ou (t), (1000R$) etc.,
1.5.8 – SINAL CONVENCIONAL - Uma tabela deve ter sinal convencional sempre que houver necessidade de substituir um dado numérico. Neste caso, os sinais utilizados na tabela deverão ser apresentados em nota geral com seus respectivos significados. Os sinais convencionais são:
a) - dado numérico igual a zero não resultante de arredondamento;
b) .. indicando que o dado numérico não pode ser aplicado;
c) ... indicando que o valor da informação é desconhecido ou não está disponível;
d) X utilizado para não individualizar a informação;
e) 0 ou 0,0 indica que o valor da informação é zero resultante de arredondamento de um dado numérico originalmente positivo;
f) - 0 ou -0,0 indica que o valor da informação é zero resultante de arredondamento de um dado numérico originalmente negativo.
1.5.9 – CHAMADA OU SÍMBOLO REMISSIVO – Uma tabela deve ter chamada, inscrita em qualquer um de seus espaços, sempre que houver necessidade de se remeter alguns de seus elementos a uma nota especifica, ou seja, a uma informação complementar.Deve ser feita de cima para baixo, da esquerda para a direita, em ordem crescente e com algarismos arábicos com destaque (entre parênteses, entre colchetes).
1.5.10 – Fonte – Localizada logo no rodapé, é utilizada para identificar a origem ou os responsáveis pelas informações. Deve ser feita por extenso e precedida da palavra Fonte ou Fontes.
1.5.11 – NOTA GERAL – Localizada logo após a fonte, é utilizada sempre que houver necessidade de se esclarecer o conteúdo geral de uma tabela. Deve ser feita de forma clara e concisa se precedida da palavra Nota ou Notas.
1.5.12 – NOTA ESPECIFICA – Inscrita abaixo da nota geral, é usada sempre que houver necessidade de esclarecer um elemento especifico da tabela. Deve ser feita de forma clara e concisa e precedida de sua respectiva chamada.
– NOTAS
1.6.1 – APRESENTAÇÃO DO TEMPO
1.6.2 – a) Toda série cronológica consecutiva deve ter o início do tempo, separado por um hífem. Exemplo 1990, 1991, 1992, 1993 = 1990 -1993.
1.6.3 – b) Toda série cronológica não consecutiva, deve ter o início e o fim do tempo, separados por uma barra. Exemplo 1990, 1991, 1992, 1993 = 1990 /1993. 
1.6.4 – ARREDONDAMENTO DE DADOS NUMÉRICOS. 
1.6.4.1 – Quando o primeiro algarismo a ser abandonado for 0, 1, 2,3 ou 4 o último algarismo a permanecer no dado numérico, fica inalterado. Exemplo: 5.2347, arredondando para duas casas decimais fica igual a 5,23.
1.6.4.2 – Quando o primeiro algarismo a ser abandonado for 5, 6, 7,8 ou 9, o último algarismo a permanecer no dado numérico, deve ser acrescido de uma unidade. Exemplo: 5.2347, arredondando para três casas decimais fica igual a 5,235.
1.7 – DIAGRAMA DE UMA TABELA.
1.7.1 – Toda tabela que ultrapassar a dimensão da página em número de linhas e tiver poucas colunas, podem ser apresentadas na mesma página, em duas ou mais partes, lado a lado, sendo as partes separadas por um traço vertical duplo, repetindo-se o cabeçalho.
1.7.2 – Toda tabela que ultrapassar a dimensão da página em número de colunas e tiver poucas linhas, pode ser apresentada, na mesma página em duas ou mais partes, uma abaixo da outra, repetindo-se a coluna indicadora.
1.7.3 – Toda vez que a tabela ultrapassar as dimensões da página, pode ser apresentada em várias páginas sendo que, continuada uma deve conter o topo e o cabeçalho da tabela com as seguintes indicações: continua para a primeira página, conclusão para a última página e continuação para as demais.
Neste caso, o traço horizontal da moldura que indica o final da tabela (rodapé), deve ser apresentado somente na página que contenha a indicação conclusão.
1.8 – RECOMENDAÇÕES GERAIS
a) Recomenda-se que uma tabela seja elaborada de forma a ser apresentada em uma única página. 
b) Recomenda-se que as tabelas de uma publicação apresentem uniformidade gráfica.
Texto Resumo para a construção de uma tabela:
Delimite a tabela, no alto e embaixo, por traços horizontais;
Se existir mais de uma tabela no texto, numere-as;
Escreva na tabela ostotais das linhas e das colunas, ou as médias, ou qualquer outro resultado que possa ajudar o leitor;
Delimite o total por um traço horizontal;
Podem ser feitos traços verticais no interior da tabela se isso trouxer maior clareza;
Separe o cabeçalho do corpo da tabela por um traço horizontal;
Se os dados não forem coletados por você, forneça a fonte, isto é, a entidade, o pesquisador ou os pesquisadores que forneceram os dados;
Precisando dar definições e destacar dados diferenciados, faça notas no rodapé da tabela;
Utilize letras maiúsculas apenas no inicio das palavras de uma linha ou uma coluna;
Quando o dado não existir, faça um traço no lugar da tabela em que deveria estar. 
 
1.9 – Organização e apresentação de Dados - É feita através de tabelas que designamos de séries estatísticas.
1.10 – SÉRIES ESTATÍSTICAS – Chamamos de série estatística a toda tabela que apresenta a distribuição de um conjunto de dados estatísticos em função da época, do local ou da espécie.
	Conforme o critério de agrupamento, as séries classificam-se em:
1.10.1 – SÉRIE CRONOLÓGICA, EVOLUTIVA OU HISTÓRICA - É a série estatística em que todos os dados são observados segundo a época da ocorrência.
٭ Elemento variável: época (fator cronológico).
٭ Elementos fixos: local (fator geográfico).
 Fenômeno (fator específico).
Exemplo: O diretor de vendas da companhia de seguros Vera Cruz deseja saber a evolução de suas vendas no período de 1970 a 1977. 
Vendas de Seguros da companhia Vera Cruz 1970 - 1977 Brasil
_________________________________________________
 Ano Vendas
_________________________________________________
 2.181
 3.948
 5.462
 7.550
 10.009
 11.728
 18.873
 29.076
_________________________________________________
Fonte: Departamento de marketing da Companhia
1.10.2 – Série Geográfica ou de localização - É a série estatística em que os dados são observados segundo a localidade de ocorrência.
٭ Elemento Variável - Local (fator geográfico).
٭ Elementos Fixos – Época (fator cronológico). 
 Fenômeno (fator específico).
Exemplo: Empresas que foram fiscalizadas no ano de 1973 pelo INAMPS. (tabela 3).
INAMPS - Empresas fiscalizadas em 1973
____________________________________
Regiões		Empresas Fiscalizadas
____________________________________
Norte				 7.495
Nordeste		 107.783
Sudeste		 281.202
Sul			 53.661
Centro Oeste	 15.776
____________________________________
Fonte: Relatório Estatístico Mensal
1.10.3 – Série Especifica - É a série estatística em que os dados foram agrupados segundo a modalidade de ocorrência.
٭ Elemento Variável - Fenômeno (fator especificado)
٭ Elementos Fixos - Época (fator cronológico)
 Local (fator geográfico)
Exemplo: Números de matriculados no terceiro grau por modalidade de área de ensino no Brasil.
Matriculas no Ensino de Terceiro Grau
Brasil - 1975 (ciclo básico)
________________________________________
Área de Ensino		 Matrículas
________________________________________
Ciências Biológicas		 32.109
Ciências Exatas e tecnologia 65.949
Ciências Agrárias	 2.419
Ciências Humanas		 48.842
Letras				 9.883
Artes				 7.464
_________________________________________
Fonte: Serviço de Estatística da Educação e cultura
1.10.4 - Distribuição de Freqüências - É a série Estatística em que os dados estão agrupados com suas respectivas freqüências Absolutas.
Exemplo: Quando a variável for do tipo discreta.
Número de Acidentes por dia na Rodovia Fernão dias em Janeiro de 1977
_______________________________________________________________
Nº de Acidentes Número de
 por dia dias
_______________________________________________________________
 10
 07
 04
 05
 03
 02
____________________________________________________________
Fonte: DNER
Exemplo: quando a variável for do tipo contínua.
Tabela 6.
Altura dos alunos do curso de física em Agosto de 2002
____________________________________________
 Alturas (m) Número de Alunos 
1,50 a 1,60 05
1,60 a 1,70 15
1,70 a 1,80 17
1,80 a 1,90 03
Fonte: Secretaria da Escola
1.10.5-REPRESENTAÇÃO GRÁFICA DAS SÉRIES - tem por objetivo dar uma idéia, a mais imediata possível, dos resultados obtidos, permitindo-se chegar a uma conclusão sobre a evolução do fenômeno em observação.
Os principais tipos de gráficos são: Gráfico de coluna, barras, setores e curvas.
1.10.6 - Gráfico de Coluna – É a representação gráfica de uma série por meios de retângulos, dispostos verticalmente em colunas. Onde identifica as alterações dos dados ao longo de um período ou ilustra comparações entre os itens.
As categorias são organizadas na horizontal e os valores na vertical, para enfatizar as variações ao longo do tempo. Exemplo: Número de veículos roubados no Carnaval no estado de São Paulo, segundo o ano. 
1.10.7 - Gráfico de Barras – É a representação gráfica de uma série por meio de retângulos horizontais, dispostos horizontalmente. Ilustra comparações entre itens individuais.
As categorias são organizadas na vertical e os valores na horizontal para enfocar valores de comparação e dar menos ênfase ao tempo.
Observações:
a) Quando as informações a serem inscritas são extensas, damos preferência ao gráfico de barras (séries geográficas e especificas).
b) À distância entre as colunas (ou barras), por questões estéticas, não deverá ser menor que a metade nem maior que dois terços da largura dos retângulos. 
1.10.8 - Gráfico de Setores - É a representação gráfica de uma série estatística, em um circulo, por meio de setores.
 É bastante utilizado quando se pretende comparar cada valor da série com o total. Para construí-lo, divide-se o circulo em setores, cujas áreas serão proporcionais aos valores da série.
 Essa divisão poderá ser obtida pela regra de três: O total está para 360°, assim como, a parte está para X°.
Observações:
a) O gráfico de setores só deve ser empregado quando há, no máximo, sete dados. 
b) Se a série apresenta os dados percentuais, podemos obter os respectivos valores em graus multiplicando o valor percentual por 3,6.
Exemplo: Universidades de alunos de classe média alta em 2012. 
1.10.9 - Gráfico de Curvas – É a representação gráfica de uma série estatística por meio dos eixos coordenados (abscissas e ordenadas). 
É usado freqüentemente para a comparação de valores em uma relação de tempo. 
 
Material de propriedade do professor Carlos Martins – UNICAP
Capitulo II
Métodos Tabulares e Gráficos
2.1 – INTRODUÇÃO
No primeiro capítulo, mostramos as formas de apresentação dos dados numéricos, através das séries estatísticas. 
A vantagem das tabelas é a de condensar, de forma consistente, as informações necessárias ao estudo desejado.
Neste capítulo será desenvolvido um tipo de tabela que condensa uma coleção de dados conforme as freqüências. Inicialmente, formalizaremos algumas definições fundamentais:
2.2 – VARIÁVEL - É um símbolo, representado por X, Y, Z que pode assumir qualquer valor de um conjunto de valores que lhe são atribuídos, conjunto este chamado de domínio da variável.
2.3 – Tipos de Variáveis.
Podemos classificá-las em categóricas e quantitativas.
VARIÁVEIS CATEGORICASAs variáveis categóricas podem ser do tipo nominal ou ordinal (caso exista uma ordem entre as classes). Exemplo sexo e estadiamento de uma doença. Também podem ter duas ou mais categorias dependem do interesse do estudo. Por exemplo, hábito de fumar (Fumante, não fumante, ex-fumante e fumante passivo).
Observação (1): Frequentemente os dados são reduzidos a duas categorias para simplificar a analise e sua apresentação.
VARIÁVEIS QUANTITATIVAS
Classifica - se em discretas ou continuas.
Discretas – quando a variável assume apenas valores pertencentes a um conjunto enumerável.
Exemplos: Número de acidentes na Rodovia Fernão Dias em janeiro de 1977.
Número de Bactérias em um volume de urina.
Numero de consultas médicas durante um mês.
Continuas – quando a variável assume qualquer valor num certo intervalo de variação.
Exemplos: Idades de indivíduos residentes em uma cidade.
Pressão sangüínea da população residente na cidade do Recife.
Observação (2): À importância dessa classificação justifica-se porque cada tipo de variável requer um tratamento estatístico especifico. 
2.4 – Organização e apresentação de dados
 
	Quando se estuda uma variável, o maior interesse do pesquisador é conhecer o comportamento desta variável, analisando a ocorrência de suas possíveis realizações.
Nesta seção veremos uma maneira de se dispor um conjunto de realizações, para se ter uma idéia global sobre elas, ou seja, sua distribuição.
Antes, porém, precisamos conceituar distribuição de freqüência. 
2.4.1 – Distribuição de Freqüência – É o arranjo tabular dos dados por classes, juntamente com as respectivas freqüências. 
2.4.2 – Dados Brutos – É o conjunto de dados numéricos que não foram ordenados de forma crescente ou decrescente. Exemplo: As alturas em (cm) de 40 alunos da Unicap são:
150,151,151,153,154,154,155,156,156,156,157,157,157,158,158 159,159,159,160,160,161,161,161,161,162,162, 165,...,173.
2.4.3 – ROL – É o arranjo dos dados numéricos brutos em ordem de grandeza. Exemplo: Com base nos dados do exemplo anterior, temos:
150,151,151,153,154,154,155,156,156,156,157,157,157,158,158 159,159,159,160,160,161,161,161,161,162,162, 165,...,173.
2.4.4 – Amplitude total dos Dados – É a diferença entre o maior e o menor valor observado. Representa-se por At = maior - menor valor observado. Fazendo uso do exemplo anterior, temos: At = 173 – 150 = 23.
2.4.5 – Amplitude total da distribuição – É obtida pela diferença entre o limite superior da última classe e o limite inferior da primeira classe. Representa-se por: Atd = Lsup – inf (das classes).Exemplo: Com os dados dos 40 alunos fornecidos anteriormente, podemos construir a distribuição.
Estaturas (cm). Freqüências (fi)
150 a 154			04
154 a 158			09
158 a 162			11
162 a 166			08
166 a 170			05 Assim, Atd = 174 – 150 = 24.
170 a 174			03 Concluindo-se que, Atd # At
 Total 40
2.4.6 – Amplitude de Classe – É obtida pela diferenças entre os limites reais superior e inferior dessa classe. Representa-se por: hi = Lsup – Linf. Observando a tabela (2.1), temos para i = 3; h3 = 162 – 158 = 4cm. 
2.4.7 – Amplitude do intervalo de classe - É obtida pelo quociente entre a amplitude total da série e o número de classes. Representa-se por hi = At / k 
2.4.8 – Limites das Classes – Chamamos de limites das classes os extremos de cada classe. Representa-se por Lsup e Linf respectivamente.
2.4.9 – Intervalos de Classe - Existe diversas maneira de expressar os limites das classes. Eis algumas:
a) Aberto à direita e fechado a esquerda
b) Aberto à esquerda e fechado a direita
c) Fechado à direita e a esquerda
d) Aberto em ambos dos lados.
2.4.10 – Freqüência Absoluta - É o número de vezes que o elemento aparece na amostra, ou o número de elementos pertencentes a uma classe. Representa-se por: fi . Assim, em nosso exemplo, temos que, para i = 3, f3 = 11 observações. 
2.4.11 – Ponto médio de uma classe – É obtido pela semi-soma dos limites inferior e superior da mesma classe. Denomina-se de representante da classe se é representado por xi. Exemplo: Usando os dados da tabela 2.1, calcule o ponto médio para a terceira classe. Solução: X3 = 158 + 162 / 2 = 160
2.4.12 – Freqüência Relativa – É obtida pela razão entre a freqüência absoluta e o somatório das freqüências absolutas. Representa-se por fri = fi / ∑ fi.
Note que ∑ fi = n. logo, fri = ( fi /n. Assim, no nosso exemplo, para i=1, fr1 =4/40= 0,10 ou 10% das alturas.
2.4.13 – Freqüências Acumuladas “Abaixo de” – É obtida pelo somatório das freqüências absolutas. Representa-se por fac. 
Exemplo: Seja a distribuição abaixo:
Xi	fi 	fac. 
 
0	3	3
1	5	8
2	2	10
	
Total	10
٭ Observação: Freqüência absoluta “Acima de” é o inverso da “abaixo de”
2.4.14 – Freqüência Relativa Acumulada – É obtida pelo somatório das freqüências relativas dessa classe ou das classes anteriores. Representa-se por fra. Exemplo: Seja a distribuição abaixo
Xi 	fi 	 fri 		fra
0	6	06/34		0,18
1	10	10/34		0,47
2	18	18/34		1,00
Total 34
2.4.15 – Roteiro Para a elaboração de uma tabela de Freqüências de dados simples ou agrupados em classes.
a) Listar os dados brutos que foram transformados em rol.
b) Encontrar a amplitude total (At) do conjunto de valores observados.
c) Escolher o número de classes (k). Alguns autores propõem que se escolha arbitrariamente entre um mínimo de cinco e o máximo de vinte classes. 
Não há uma formula exata para o cálculo do número de classes, entretanto, apresentaremos duas soluções:
I) Para n ≤ 25 , K = 5 classes ou k ≈ √ n , para n > 25 observações.
II) Formula de Sturges que é dada por k ≈ 1 + 3,22 log n.
d)Determinar os limites das classes, escolhendo-se preferencialmente, números inteiros se possível, caso contrário, será o comportamento da variável.
Exercícios:
1) Uma amostra de 60 estudantes, que completaram um curso em estatísticas de negócios durante o primeiro semestre de 1988, forneceu as seguintes respostas.
Para auxiliar o processamento dos resultados via computador foi usada uma escala numérica em que 1 = fraco, 2 = regular, 3 = bom, 4 = ótimo, 5 = excelente.
3 4 4 5 1 5 3 4 5 2 4 5 3 4 4
4 5 5 4 1 4 5 4 2 5 4 2 4 4 4
5 5 3 4 5 5 2 4 3 4 5 4 3 5 4
4 3 5 4 5 4 3 5 3 4 4 3 5 3 3
a) Os dados são qualitativos ou quantitativos?
b) Construa a distribuição de freqüência dos dados
c) Com base na distribuição, comente a avaliação global do curso feita pelos estudantes.
2) As Notas de 32 estudantes de uma classe estão descritas a seguir:
6,0	0,0	2,0	6,5	5,0	3,5	4,0	7,0
8,0	7,0	8,5	6,0	4,5	0,0	6,5	6,0
2,0	5,0	5,5	5,0	7,0	1,5	5,0	5,0
4,0	4,5	4,0	1,0	5,5	3,5	2,5	4,5
Pede-se: Construir a distribuição de freqüência. 
3) O serviço de Recursos Humanos da Roth Young relatou que os salários anuais para os gerentes de lojas de departamento variam de US$20.000 a US$57.000 em 16 de outubro de l994.
Assuma que os seguintes dados são uma amostra dos salários anuais de 40 gerentes de lojas de departamento (os dados estão em mil dólares)
48	35	57	48	52	56	51	44
40	40	50	31	52	37	51	41
47	45	46	42	53	43	44	39
50	50	44	49	45	45	50	42
52	55	46	54	45	45	50	42
a) Quais foram os salários mais altos e os mais baixos relatados?
b) Faça a distribuição dos salários, para isso, use uma amplitude de classe de US$ 4.000 com limites fechados á direita e à esquerda.
c) Que proporção dos salários anuais é de US$ 35.000 ou menos.
d) Que percentagem de salários anuais é maior que US$ 50.000?
e) Prepare um histograma dos dados. 
2.4.16 – Gráfico Representativo da Distribuição de Freqüências – O gráfico utilizado para representar uma distribuição de freqüência é o histograma. O histograma é um gráfico tipicamente de análise.
A representação das freqüências simples é feita através do histogramaou polígono de freqüência, enquanto que as freqüências acumuladas são representadas pelas ogivas de Galton.
 2.417 – Histograma – É um gráfico formado por um conjunto de retângulos justapostos, de forma que a área de cada retângulo seja proporcional à freqüência da classe que ele representa.
Exemplo: Framingham é uma pequena cidade americana perto de Boston, Massachusetts. Em1948 foi selecionada como local adequado para desenvolvimento de um estudo prospectivo cujo objetivo era verificar como os hábitos de vida das pessoas influenciam o desenvolvimento de doença cardíaca.
Para isto foi feito um controle sobre o nível de colesterol com 77 pessoas. 
Framingham, distribuição do nível de
Colesterol – 1948.
Nível de colesterol Freqüência absoluta 
 
100 a 150				2
150 a 200				24
200 a 250				35
250 a 300				14
300 a 350				1
350 a 400				1		
Fonte: IBGE. 77
Polígono de Frequência – É um gráfico de linha que é obtido unindo-se por linhas retas os pontos médios das bases superiores do histograma.
A apresentação de Caule-e-folha – É ainda amplamente utilizada para mostrar simultaneamente tanto a ordem da classificação como a forma do conjunto de dados.
 
Não existe uma regra fixa para construir uma apresentação de caule-e-folha, mas a idéia básica é dividir cada observação em duas partes: a primeira (caule) é colocada à esquerda de uma linha vertical, a segunda (a folha) é alocada à direita. 
 
Exemplo1: Considere os seguintes dados 72, 68, 97, 73, 76, 86,73. O arranjo é feito da seguinte forma:
6 8 
7 2 3 6 3
8 6
9 7
Para obtermos a representação de caule e folha, vamos girar a página em 90 graus no sentido anti-horário, obtendo-se uma figura dos dados.
Exemplo 2: Os dados abaixo se referem à dureza de 30 peças de alumínio.
53,0 70,2 84,3 69,5 77,8 87,5 53,4 82,5 67,3 54,1 
70,5 71,4 95,4 51,1 74,4 55,7 63,5 85,8 53,5 64,3
82,7 78,5 55,7 69,1 72,3 59,5 55,3 73,0 52,4 50,7
Observação: optamos por truncar cada valor, omitindo os décimos, de modo que 69,1 e 69,5 por ex., tornam-se 69 e 69 e aparecem como 9 na linha que corresponde ao ramo 6 
	5 0 1 2 3 3 3 4 5 5 5 9
6 3 4 7 9 9 
7 0 0 1 2 3 4 7 8	
8 2 2 4 5 7 
5
Este é um exemplo em que temos muitas folhas em cada ramo.
As Formas das Curvas de Freqüência – As curvas de freqüências assumem as seguintes características:
a) Simétrica (em forma de sino)
b) Assimétrica (positiva ou negativa).
c) Curva em forma de J ou J invertido.
d) Curva Bimodal.
e) Curva trimodal.
Material de propriedade do professor Carlos Martins – UNICAP
Capítulo III
Métodos Numéricos
 
	No capítulo II, discutimos os métodos tabulares e gráficos para sintetizar os dados. Neste capítulo, apresentamos diversos métodos numéricos de estatística descritiva que fornecem alternativas adicionais para sintetizar os dados.
 Começamos a considerar os conjuntos de dados que consistem de uma variável simples, e que os dados tenham sido obtidos a partir de uma amostra de n elementos. As medidas numéricas são calculadas usando-se as n observações.
 Diversas medidas numéricas de posição, dispersão e associação são introduzidas. Se as medidas são calculadas para dados a partir de uma amostra, elas são chamadas de estatística de amostra. Se for a partir de uma população, elas são chamadas de parâmetros de população.
3.1 – Medidas de Posição – Vimos no capítulo anterior que resumindo os dados por meio de tabelas de freqüências e ramos-e-folhas fornecem muito mais informações sobre o comportamento de uma variável do que a própria tabela original de dados.
Muitas vezes, queremos resumir ainda mais estes dados, apresentando um ou alguns valores que sejam representativos da série toda.
Nestes casos normalmente emprega-se uma das medidas de posição.
MÉDIA – A média é um valor típico ou representativo de um conjunto de dados. Se os dados são de uma amostra, a média e denotada por x; se os dados são de uma população, a média é denotada pela letra grega µ. Vamos formalizar os conceitos introduzidos acima. 
Se x1,..., xn são os n valores (distintos ou não)da variável X, a média aritmética pode ser escrita.
 
 = x1 + x2 + ......+ xn / n = 1/n
 (3.1)
Agora, se tivermos n observações da variável X, das quais n1 são iguais a x1, n2 iguais a x2 etc.., nk iguais a xk , então a média pode ser escrita
 
 = n1x1 + n2x2 + .....+ nkxk / n = 1/n 
 (3.2) 
Se fi = ni / n representar a freqüência relativa da observação xi, então (3.2) pode ser escrita.
 
 = 1/n 
 (3.3)
 Para ilustrar o cálculo da média da amostra, vamos considerar os seguintes dados de tamanho de classe para uma amostra de cinco classes de faculdade. 
46, 54, 42, 46, 32,
Usando a notação x1, x2, x3, x4, x5 para o número de estudantes em cada uma das cinco classes.
x1 = 46 ; x2 = 54 ; ....... ; x5 = 32 utilizando a equação (3.1) vem,
 _
 X = 46 + 54 + 42 + 46 +32 / 5 = 44
Conclusão: O tamanho médio das classes da amostra é de 44 alunos.
Agora, quando os dados estão agrupados em classes, temos:
Xi 	 1	2	3	4 
fi 	 1	3	5	1 substituindo na equação (3.3)vem,
 _ 
 X = 1.1 + 2.3 + 3.5 + 4.1 / 1 + 3 + 5 + 1 = 26 / 10 = 2,6
A equação (3.1) mostra como a média é calculada para uma amostra com n observações. A fórmula para calcular a média de uma população é a mesma, mas usaremos uma notação diferente para indicar que estamos trabalhando com a população inteira. O número de observações em uma população é denotado por N e o símbolo para a média da população é µ. Então
 µ = ( xi / N (3.4) 
Processo Abreviado para o cálculo da média – Este procedimento é particularmente útil de ser aplicado quando os valores de X forem grandes e a amplitude entre tais valores for constante. O processo oferece rapidez e facilidade nos cálculos. Para isso é preciso seguir os passos:
1° passo – Efetua-se a mudança da variável de X para Z, utilizando-se a seguinte fórmula:
 Zi = xi – xo / h (3.5) 
Onde:
Xi = Valores da variável
Xo = constante arbitrária tomada convenientemente 
H = intervalo de classe
Zi = valores transformados
Considere o seguinte exemplo: dada a distribuição abaixo. 
xi	17	19	21	23	25
_________________________
fi	8	12	15	7	5
Escolhe-se xo = 21, então z i = xi – 21 / 2 substituindo os valores de xi obtemos os zi correspondentes.
Xi		fi		zi z i.f i
17		8		-2 - 16
19		12		-1 - 12
21		15		 0 0
23		7		 1 7
25		5		 2 10 
( 47 0 - 11
 
2º Passo: Para o calculo da média (
) utiliza-se à fórmula. 
_ _ 
X = h z + x0 (3.6)
Onde
H = intervalo já utilizado
X0 = constante escolhida
Z = ( zi fi / n = - 11 / 47 ( - 0,23 logo, a média será:
 _
 X = 2(-0,23) + 21 = 20,54
Algumas Propriedades da média Aritmética
 _
a) A soma dos desvios em torno da média é zero. ( (xi - x ) = 0 
b) Somando ou subtraindo a mesma quantidade arbitrária de todos os valores da série, a média ficará aumentada ou diminuída dessa mesma quantidade.
Sugestão: Utilize a quantidade arbitrária 2. Calcule a média da série, em seguida some o 2 a todos os valores. Determine a média desses novos valores e compare as duas médias obtidas.
c) Multiplicando ou dividindo cada termo de uma série por uma constante, a média ficará multiplicada ou dividida pela constante.
Sugestão: utilize a mesmada propriedade b.
d) A soma dos quadrados dos desvios em relação á média é um mínimo, ou seja, é sempre menor que a soma dos quadrados dos desvios em relação a outro valor qualquer. Isto é, ((xi – x)2 < ((xi –A)2 
 
MEDIANA – É outra medida de posição central de uma variável. A mediana se localiza no centro da seqüência (distribuição) quando os dados são arranjados na ordem ascendente.
Consideremos agora, as observações em ordem ascendente. Vamos denotar a menor observação por x1 , a segunda por x2 e assim por diante, obtendo-se
 X1 = x2 = ,............, = xn-1 = xn. (3.7)
As observações ordenadas como em (3.7) são chamadas estatística de ordem. Com esta notação, a mediana da variável x pode ser definida
Se o número de observações for impar, o valor mediano será localizado através do elemento: Me(x) = x(n + 1) / 2 (3.8)
 
Se o número de observações for par, o valor mediano será localizado através dos elementos: Me(x) = x(n / 2) + x( n / 2 + 1) (3.9)
Exemplo: Considere a série: 5 , 7, 8, 10, 14 (número impar de observações).
Então, Me(x) = X(5 + 1) /2 = 3º elemento da série, logo Me = 8 .
Para a série: 5, 7, 8, 10, 14 e 20 (número par de observações) 
Então, Me(x) = X(n / 2) + (n + 1) / 2 = 3 e 4º elementos, ou seja, o valor mediano será obtido pela semi-soma deles 8 + 10 / 2 = 9
Logo, Me(x) = 9.
Agora, quando os dados forem discretos e localizados numa distribuição conforme exemplo abaixo, a maneira de encontrar o valor mediano é o seguinte.
Xi fi fac 
1 1 1
2 3 4
3 5 9
4 2 1 1
∑ 11 
Primeiramente, faremos e somatório das freqüências e verificamos que n = 11 então n é impar, utilizando a equação (3.8) vem:
X(11 + 1)/2 = X(6) = 6° elemento, logo, o valor mediano é: Me = 3.
Exemplo 2 - tomemos os dados dos salários mensais iniciais para uma amostra de 7 graduados de escola de Administração
Graduado		salário mensal (us$)
1	 2.350,
2	 2.450,
3	 2.550,
4	 2.380,
5	 2.255,
6	 2.210,
7	 2.390,
Como o número de observações é impar, então o valor da mediana é X(n + 1) / 2 = 7 + 1 / 2 = 4° elemento. Colocando em ordem ascendente o valor mediano será 2.380, _ 
Quando a variável for continua, o cálculo da mediana é feito observando a seguinte fórmula.
Me = linf + ( n / 2 - (fi ) h / fme (3.9)
Onde:
Linf = limite inferior da classe que contém a mediana
N = número de observações
(fi = somatório de todas às freqüência anteriores à classe mediana
h = amplitude da classe mediana
fme = freqüência da classe mediana
Para ilustrar, considere a renda familiar em milhares de dólares de 40 famílias.
Renda Familiar (us$) 2 a 4 4 a 6 6 a 8 8 a 10 10 a 12
________________________________________________
Nº de famílias		 05 10 14 08 03 
Agora, fazendo uso da equação (3.9), temos:
N / 2 = 40 / 2 = 20 indicando que o valor mediano encontra-se na terceira classe da distribuição. Então
Me = 6 + ( 40 / 2 – 15).2 / 14
Me = 6,72. Podemos afirmar que a renda mediana das (quarentas) famílias é de us$ 6,72 dólares.
Observação:
A mediana é a medida de posição mais freqüentemente usada para o cálculo da renda anual e para dados de valores de bens, porque, algumas rendas ou valores de bens são extremamente elevados de modo a inflacionar a média. Em tais casos, a mediana reflete melhor o valor central.
COMENTÁRIO 
É sempre melhor usar a mediana do que a média como medida de posição central quando um conjunto de dados contém valores extremos. Uma outra medida, algumas vezes usada quando valores extremos estão presentes, é a média ajustada.
Ela é obtida suprimindo-se as observações menores e maiores de um conjunto de dados e então calculando - se a média dos valores restantes. 
Por exemplo, a média ajustada de 5% poderia ser obtida removendo-se os 5% menores e os 5% dos maiores valores de dados e então se recalcula a média dos valores restantes.
Suponha que tenhamos uma amostra de n =15 alturas dos alunos da classe, 0,05(15) = 0,75. Arredondando-se esse valor para 1 indica que a média ajustada de 5% removeria 2 valores, um menor e um maior. Assim, a média ajustada utilizaria só 13 observações. 
MODA – É a terceira medida de posição. Definimos como sendo o valor de dados que ocorre com maior freqüência.
Quando a distribuições de dados for simples (sem agrupamento em classe), a identificação da moda é facilitada pela simples observação do elemento que representa maior freqüência. Assim, para a distribuição.
Xi 	2	4	6	8	10
fi	7	17	23	20	 8
a moda será 6 indica – se Mo = 6.
Podem surgir situações em que a maior freqüência ocorra em dois ou mais valores diferentes. Nestes casos, existe mais de uma moda. Se os dados têm exatamente duas modas, dizemos que são bimodais. Considere a seguinte distribuição dos dados.
Xi 	2	4	6	8	10
fi	2	5	4	5	3
Então a moda será 4 e 8. indica-se: Mo = 4, Mo = 8 Então chamamos de distribuição bimodal.
Quando os dados da distribuição forem agrupados em classes, temos duas fórmulas para o cálculo da moda.
1° Fórmula de Czeber
Moc = linf + (fmo – fant )h / 2fmo – (fant + fpost) (3.10)
Onde:
Linf = limite inferior da classe que contém a moda
Fmo = freqüência absoluta da classe que contém a moda
Fant = freqüência absoluta da classe anterior à classe modal 
H = amplitude da classe que contém a moda
Fpost = freqüência absoluta da classe posterior a modal
Exemplo: Determinar a moda para a distribuição abaixo
Classes	fi
0 a 1		03
1 a 2		10
2 a 3		17
3 a 4		08
4 a 5		05
 ( 	43
Mo = 2 + (17 – 10) 1 / 34 – (10 + 8)
Mo = 2,44
2° Fórmula de King
Mok = linf + (fpost) h / (fant + fpost) (3.11)
Utilizando o mesmo exercício anterior, a moda será 2,44.
Conclusão: Moc ( Mok 
RELAÇÃO ENTRE MÉDIA, MEDIANA E MODA. 
 
Em uma distribuição simetria 
 = Me = Mo 
Em uma distribuição assimétrica positiva 
 > Me >Mo. 
Em uma distribuição assimétrica negativa 
 < Me < Mo. 
SEPARATRIZES – São medidas que nos auxiliam na análise de um conjunto de dados, principalmente, quando queremos detalhar mais a informação que é fornecida pela média e a mediana. 
QUARTIS – É a separatriz que divide o conjunto de dados em quatro partes iguais. Assim,
Q1 = 1º quartil, deixa 25% dos elementos. 
Q2 = 2º quartil, deixa 50% dos elementos e é igual a mediana
Q3 = 3º quartil, deixa 75% dos elementos.
Para calcularmos o quartil de um conjunto de dados agrupados em classe, a fórmula para a determinação é semelhante a da mediana, ou seja,
 Qi = linf + ( i. n / 4 - ∑ fi )h / fqi 
Onde:
Linf = limite inferior da classe que contém o quartil.
i = a ordem do quartil.
N = número de observações
∑ fi = somatório das freqüências anteriores a classe do quartil.
fqi = freqüência absoluta da classe que contém o quartil
Ex: A tabela abaixo representa os salários pagos a 100 operários da empresa GTL.
Nº de salários 		nº de operários
 Mínimos		 fi 
0	a	2			40 
2	a	4			30
4	a	6			10
6	a	8			15
8	a	10			05
Determinar o 3º quartil da distribuição dos salários.
Resolução: Para localizar a classe que se encontra o terceiro quartil, basta usar o operador 3n / 4, ou seja, 3.100/4 = 75 (septuagésimo quinto elemento) que se encontra na terceira classe, logo o limite inferior é 4, substituindo na formula temos:
 
Q3 = 4 + (75 – 70) 2 / 10 = 5 salários mínimos 
Logo, 75% dos operários ganham 5 salários mínimos ou menos
Observação: Os quartis são percentis específicos: assim, as etapas para calcular os percentis podem ser aplicadas diretamente no cálculo dos quartis. 
Então quando queremos calcular os quartis usandoos percentis é preciso recorrer ao seguinte procedimento:
Etapa 1: Arranje os dados na ordem ascendente
Etapa 2: Calcule um índice i
 i = (p / 100)n (3.12)
Onde, p é o percentil de interesse e n e o número de observações.
Etapa 3: (a) se não for um inteiro,arredonde para cima. O próximo inteiro maior que i denota a posição do p-ésimo percentil.
 (b) se i é um inteiro, o p-ésimo percentil é a média dos valores dados nas posições i e i +1.
Como ilustração desse procedimento, vamos determinar o1º e 3º quartis para os 12 salários mensais iniciais em dólares da Escola de Administração, conforme segue:
2.255, 2.350, 2.210, 2.380, 2.390, 2.380, 2.420, 2.450, 2.440, 2.550, 2.630, 2.825.
Etapa 1: Os dados na ordem ascendente são:
2.210, 2.225, 2.230, 2.380, 2.380, 2.390, 2.420, 2.440, 2.450, 2.550, 2.630, 2.850. 
Etapa 2: i = (25/100)12 = 3
Etapa 3: Como i é um inteiro, a etapa 3(b) indica que o primeiro quartil será a média do terceiro e do quarto valores de dados.
Assim, Q1 = 2.350 + 2.380 / 2 = 2.365 dólares
Suponha agora, que a amostra do exemplo anterior fosse composta de apenas onze graduados e queremos calcular o primeiro quartil. Usando o procedimento anterior temos:
Etapa 1: já feita no exemplo anterior 
Etapa 2: i = (25 / 100)11 = 2,75
Etapa 3: como i não é um inteiro, arredonde para cima.
A posição do 25ª percentil é o próximo inteiro maior do que 2,75,ou seja, a 3ª posição. Retornando aos dados, vemos que o valor na 3ª posição é 2.350.
Decil – É a separatriz que divide a distribuição em 10 partes iguais, ou seja, 10%, 20%,30% ,...........,100%.
Semelhantemente, ao quartil a fórmula do decil é representada por:
Di = linf + ( in / 10 - ∑ fi ) h / fdi (3.13)
 
Utilizando os dados do problema anterior, calcule o 2º decil. Assim,
D2 = 0 + ( 2. 100 / 10 - 0 ) 2 / 40 = 1 salário mínimo ou menos. 
Percentil ou Centil – É a separatriz que divide a distribuição em 100 partes iguais, ou seja, de 1%, 2% , ..., 100% . Para determiná-lo
Pode-se usar a equação (3.12) ou a formula:
Pi = linf + (in / 100 - ∑ fi ) h / fpi (3.14)
Observação: A forma de cálculo para o percentil é igual ao decil ou quartil. 
3.2- MEDIDAS DE VARIABILIDADE – Além das mediadas de posição, freqüentemente é desejável considerar as medidas de variabilidade ou de dispersão. 
Amplitude total – talvez seja a mais simples de ser calculada. Embora a amplitude seja a medida de variabilidade mais fácil de calcular, raramente é usada isoladamente como única medida. A razão é a que está baseada somente em duas observações e, portanto, é altamente influenciada pelos valores extremos. Representa-se por:
At = maior – menor valor observado. (3.15)
Exemplo: para a série 10, 12, 20, 22, 25, 33, 38.
At = 38 – 10 = 28
DESVIO MÉDIO – É a medida de dispersão ou o grau de concentração dos valores em torno da média. Quando estamos calculando o desvio médio estamos medindo a dispersão entre cada xi e a média x,ou seja,di = xi - x . Como o ∑di = 0, tomaremos o somatório dos desvios em modulo. Assim, representamos o desvio médio para dados simples.
 Dm = ∑ ‌ xi - 
 ‌ / n (3.16) 
Se os dados estiverem agrupados ou ponderados, a fórmula do desvio médio toma o seguinte aspecto:
 __ 
 Dm = ∑ ‌ xi - x ‌ fi / n (3.17) 
Interpretação do Desvio padrão – O desvio padrão não tem uma interpretação física, como ocorre com a média, mediana, moda e os quartis. Contudo, é possível interpretá-lo de forma analítica.
Consideremos, por exemplo, que dois estudantes tenham obtido os seguintes resultados em 5 provas de física.
Estudante A: 4 	5	6	7	8 
Estudante B: 2	4	6	8 10
Calculando a média dos estudantes elas são iguais a seis. Entretanto, a variação das notas em torno das respectivas médias difere do aluno A para o aluno B, este último apresentando maior dispersão. O desvio-padrão das notas permite comprovar o que foi dito. 
DESVIO PADRÃO – É a medida de dispersão mais usada.É definido como sendo a raiz quadrada positiva da variância seguindo a mesma notação para a variância da amostra e da população, usamos s e σ respectivamente.
Quando se tratar de (dados simples) o desvio padrão de um conjunto de n números x1,........, xn é representado por:
 
S = 
- 1 = 
-1 onde, di = ( xi – 
 ) (3.18)
Se desenvolvermos o numerador da expressão sob o radical, chegaremos à fórmula desenvolvida do desvio padrão.
 S = 
 (3.19) 
Ex., Calcular o desvio padrão do conjunto A = (10,12,13,20)
X = 13,75
∑ xi2 = 813 resolvendo temos: s = 4,34
Quando se tratar de (dados agrupados) o desvio padrão de um conjunto de n números x1,......., xn com respectivas freqüências f1 ,....,fn é representado por:
S = 
 = 
 (3.20) 
Observação: Quando os dados estiverem agrupados em classes ou com o número de freqüência, é só acrescentar na formula (3.18) o fi .
PROPRIEDADES DO DESVIO PADRÃO
1- Somando ou subtraindo um valor constante e arbitrário, x0, a cada elemento de um conjunto de números, o desvio - padrão não se altera.
Fazendo uso da equação (3.18) vem:
 
S = √ ∑ [(xi +x0) – (
 + x0 )]2 / n - 1
2 – Multiplicando ou dividindo por um valor constante e arbitrário c cada elemento do conjunto de números, o desvio-padrão fica multiplicado ou dividido pela constante.
3 – O desvio padrão é maior que o desvio médio
VARIÂNCIA – A variância é a medida de variabilidade que utiliza todos os dados. É obtida pela diferença entre xi e a média, elevando-se ao quadrado e o resultado dividido por n - 1. Representa-se por s2 quando se tratar de amostra
 s2 = ∑ (xi - x )2 / n-1 (3.21) 
- Quando se tratar da população, a variância é dada por:
 σ2 = ( xi - µ )2 / N (3.22)
Utilizam-se as mesmas fórmulas, acrescentando fi quando os dados estiverem com freqüência ou agrupados
PROPRIEDADES DA VARIÂNCIA
Observação: A Primeira e as segundas propriedades são iguais ao do Desvio padrão. 
COEFICIENTE DE VARIAÇÃO DE PEARSON – É uma medida relativa de variabilidade que mede o desvio padrão em relação à média. O coeficiente de variação de Pearson é obtido pela relação do quociente entre o desvio padrão e a média aritmética. Representa-se por Cv.
Cv = desvio padrão / média x 100. (3.23) 
 
Ex:. Numa empresa, o salário médio dos homens é de US$ 4000, com desvio-padrão deUSs$ 1500, e o das mulheres é em média de US$ 3000, com desvio-padrão de US$ 1200,.Calcule qual dos salários apresentam maior dispersão?
Solução:
Cvh = 1500 / 4000 = 0,375 x 100 = 37,5%
Cvm = 1200 / 3000 = 0,400 x 100 = 40%
Logo, podemos concluir que os salários das mulheres apresentam maior dispersão relativa que os dos homens.
Na prática, quando o Cv for superior a 50% é um indicativo de alto grau de dispersão e, como conseqüência pouca representatividade da média. Portanto, a medida deve ser abandonada. Por outro lado, quanto menor for o Cv maior representatividade da média. 
MEDIDAS DE ASSIMETRIA E CURTOSE – As medidas de assimetria e curtose são as que faltam para completarmos o quadro das estatísticas descritivas, que promovem a compreensão completa da distribuição de freqüências estudadas.
As características mais importantes dessas medidas são o grau de deformação ou assimetria e o grau achatamento ou afilamento da curva de freqüência.
 
ASSIMETRIA – SIGNIFICA DESVIO OU AFASTAMENTO DA SIMETRIA OU O GRAU DE DEFORMAÇÃO DE UMA CURVA DE FREQUENCIA.
Quanto ao grau de assimetria, podemos ter três tipos de curvas de freqüência:
Curva Simétrica, assimétrica à direita e assimétricaà esquerda, já estudadas anteriormente.
1º COEFICIENTE DE ASSIMETRIA DE PEARSON – É dado pela fórmula
Cap1 = (media – moda) / (desvio-padrão). (3.24)
2º COEFICIENTE DE ASSIMETRIA DE PEARSON – É dado pela fórmula
Cap2 = 3 (média – mediana) / (desvio-padrão). (3.25)
Quando: Cap1 ou Cap2 = 0 a distribuição é simétrica
 Cap1 ou Cap2 > 0 a distribuição é assimétrica à direita
 Cap1 ou Cap2 < 0 a distribuição é assimétrica à esquerda 
 
Observação: quando se tratar de população o desvio-padrão será trocado por sigma.
CURTOSE - A curtose ou excesso indica até que ponto a curva de freqüência de uma distribuição se apresenta mais afilada ou mais achatada do que uma curva - padrão, denominada de curva normal. De acordo com o grau de curtose podemos ter três tipos de curvas de freqüência:
a) Curva ou distribuição de freqüências mesocúrtica.
b) Curva ou distribuição de freqüências platicúrtica.
c) Curva ou distribuição de freqüências leptocúrtica. 
COEFICIENTE PERCENTILICO DE CURTOSE - É a medida mais elementar usada para avaliar o grau de curtose de uma distribuição ou curva de freqüências. É definido pela seguinte expressão:
 K = [ (Q3 – Q1) / (P90 – P10) 2 ] (3.26)
Quando: K = 0,263 a curva ou distribuição é mesocúrtica
	 K > 0,263 a curva ou distribuição é platicúrtica.
	 K < 0,263 a curva ou distribuição é leptocúrtica. 
2.5 – AMOSTRAGEM
	Voltamos a falar do que havíamos dito no início do curso sobre a forma de como iríamos escolher uma parte da população.Quando se deseja colher informações sobre um ou mais aspectos de um grupo grande ou numeroso, verifica-se muitas vezes, ser praticamente impossível fazer um levantamento do todo. 
Daí a necessidade de investigar apenas uma parte dessa população ou universo.
 O problema da amostragem é, portanto, escolher uma parte (ou amostra), de tal forma que ela seja mais representativa possível do todo e, a partir dos resultados obtidos, poder inferir para o total da população. 
2.5.1 – TIPOS DE AMOSTRAGEM - A amostragem pode ser probabilística e não probabilística.
( Probabilísticas: amostragem aleatória simples, estratificada e sistemática. 
( Não probabilísticas: amostragem de julgamento, por cota e fatia. 
A amostragem probabilística é o processo de seleção de uma amostra no qual cada unidade a se amostrar da população tem probabilidade diferente de zero e conhecida de pertencer à amostra.
Estão enquadrados nestes casos; a amostragem aleatória simples, estratificada e sistemática. 
Na amostragem não probabilística, a probabilidade de seleção é desconhecida para alguns ou todos os elementos da população, a escolha é deliberada podendo alguns destes elementos ter probabilidade nula de pertencer à amostra, como por exemplo, em amostras intencionais, a esmo ou de voluntários. 
 
2.5.2 – AMOSTRAGEM CASUAL SIMPLES - Este tipo de amostragem é equivalente a um sorteio lotérico. Na prática, é realizada numerando-se a população de 1 a n e sorteando-se, a seguir, por meio de um dispositivo aleatório qualquer.
Exemplo: Obter uma amostra representativa de seis elementos para a pesquisa da estatura de sessenta alunos de psicologia da sala 505:
1) Numeramos os alunos de 01 a 60.
2) Colocamos dentro de uma caixa todas as fichas numeradas. Agitando sempre a caixa, para misturar bem, em seguida, retiramos, uma a uma as seis fichas com reposição.
Quando o número de elementos da amostra for muito grande posso utilizar também uma tabela de números aleatórios.
2.5.3 – AMOSTRAGEM ESTRATIFICADA - Muitas vezes a população se divide em subpopulações que chamamos de estratos. Como a variável em estudo no estrato apresenta-se homogênea e de estrato para estrato heterogênea, convém que o sorteio dos elementos leve em consideração tais estratos.
 
Exemplo: Suponha, no exemplo anterior que, dos sessenta alunos, 54 sejam meninas e 6 sejam meninos, vamos obter a amostra proporcional estratificada.
Sexo População % Amostra
F 54 5,4 5
M 6 0,6 1
Total 60 6,0 6
 2.5.4 – AMOSTRAGEM SISTEMÁTICA - A amostragem sistemática é muito usada quando os elementos da população se acham ordenados. São exemplos os prontuários médicos de um hospital, lista de presença de alunos da universidade, etc.
Nestes casos, a seleção dos elementos que formarão à amostra pode ser feita por um sistema imposto pelo pesquisador.
Exemplo: Suponha que a rua do Príncipe tenha novecentos prédios, e que a prefeitura deseja obter uma amostra de cinqüenta prédios para revisar o cadastro.
A prefeitura usará o seguinte procedimento: dividirá 900/50 = 18, e escolherá por sorteio aleatório um número de 1 a 18 inclusive, o qual indicaria o primeiro elemento sorteado para a amostra; os demais elementos seriam periodicamente considerados de 18 em 18.
Assim, se o número sorteado fosse o 7, tomaríamos , pelo lado direito da rua, o 7 º prédio, o 25º, 43º etc., até voltarmos ao início da rua, pelo lado esquerdo.
Material de propriedade do professor Carlos Martins – UNICAP
	
_1248189170.unknown
_1248189486.unknown
_1390738989.xls
Gráf1
		1443		1996
		1344		1997
		1815		1998
		2421		1999
Número de veiculos roubados no Canaval no estado de São Paulo,segundo o ano
Frequência
Número de veículos roubados no Carnaval no estado de São Paulo
Plan1
		Número de veiculos roubados no Canaval no estado de São Paulo,segundo o ano
		ano		Frequencia
		1996		1443
		1997		1344
		1998		1815
		1999		2421
Plan1
		0		0
		0		0
		0		0
		0		0
Número de veiculos roubados no Canaval no estado de São Paulo,segundo o ano
Frequência
Número de veículos roubados no Carnaval no estado de São Paulo
Plan2
		
Plan3
		
_1390739565.xls
Gráf1
		230
		260
		380
		300
		350
		400
Vendas da Compnhia metal metalurgica
Vendas da Companhia metal metalurgica
Plan1
		1971		230
		1972		260
		1973		380
		1974		300
		1975		350
		1976		400
Plan1
		0
		0
		0
		0
		0
		0
Vendas da Compnhia metal metalurgica
Plan2
		
Plan3
		
_1390739388.xls
Gráf2
		2		24		35		14		1		1		1
100 a 150
150 a 200
200 a 250
250 a 300
300 a 350
350 a 400
400 a 450
Frequencia Absoluta
Nível de colesterol
Gráf1
		2		24		35		14		1		1		1
100 a 150
150 a 200
200 a 250
250 a 300
300 a 350
350 a 400
400 a 450
Plan1
		nível de colesterol		Frequencia
		100 a 150		2
		150 a 200		24
		200 a 250		35
		250 a 300		14
		300 a 350		1
		350 a 400		1
		400 a 450		1
Plan1
		0		0		0		0		0		0		0
100 a 150
150 a 200
200 a 250
250 a 300
300 a 350
350 a 400
400 a 450
Frequencia Absoluta
Nível de colesterol
Plan2
		
Plan3
		
_1248189512.unknown
_1248189697.unknown
_1248189764.unknown
_1248189635.unknown
_1248189500.unknown
_1248189230.unknown
_1248189317.unknown
_1248189199.unknown
_1093076615.unknown
_1106638765.unknown
_1106638766.unknown
_1106638767.unknown
_1106428614.xls
Gráf1
		liquidificadores		50
		batedeiras		30
		refrigeradores		22
		exaustores		10
Percentagem
Evolução de vendas da Cia. X entre 1971-1972
Plan1
		liquidificadores				50
		batedeiras				30
		refrigeradores				22
		exaustores				10
Plan1
		
Percentagem
Evolução de vendas da Cia. X entre 1971-1972
Plan2
		
Plan3
		
_1093076626.unknown
_1093072716.unknown
_1093076090.unknown
_1093072285.unknown