Apostila UNIJUÍ -Métodos estaísticos e a administração
164 pág.

Apostila UNIJUÍ -Métodos estaísticos e a administração

Disciplina:Estatística Aplicada7.429 materiais64.132 seguidores
Pré-visualização35 páginas
Observando atentamente, verifi-

camos que o primeiro valor é inferior a mil, logo tem 0 (zero) milhares, e o máximo é superior

a 15 mil. Podemos então considerar o Ramo com a variação mais demorada: de 0 a 15 mil, e as

Folhas que apresentam uma Variação menor, ou seja, mais rápida na centena, dezena, unidade

– 000 a 999. Como verificamos que um grande vazio ocorre isolando o valor máximo, podemos

optar por informar todos os intervalos ou então indicar apenas o vazio, como foi realizado no

quadro a seguir. Os dados são distribuídos pelas linhas em acordo com o valor e a faixa correta,

registrando-se nas Folhas apenas o restante do número que não aparece no Ramo. Neste caso,

registramos centena, dezena e unidade. O passo seguinte é ordenar os valores nas linhas. Este

processo pode ser acompanhado no Quadro 6:

EaD

41

MÉtodos estatísticos e a adMinistração

Quadro 6: dados distribuídos pela técnica de ramo e Folhas

RAMO E FOLHAS não ordenado RAMO E FOLHAS ordenado na linha

RAMO FOLHAS RAMO FOLHAS

0 534 725 947 922 0 534 725 922 947

1 902 325 1 325 902

2 369 520 945 2 369 520 945

3 703 3 703

4 145 .060 554 4 .060 145 554

5 418 514 196 5 196 418 514

6 675 6 675

7 660 7 660

8 291 8 291

. .

. .

15 989 15 989

Fonte: Elaboração da autora.

Com essa técnica olhamos os dados apenas uma vez. São distribuídos inicialmente já nas

faixas certas e posteriormente ordenados em cada faixa, de forma rápida.

•	Diagrama de Pontos

Outra técnica importante para verificar se a padronização dos dados está garantida, isto

é, se não há nem um valor muito fora do padrão, é o Diagrama de Pontos. Faz-se uma régua

parcial, dando conta da variação dos dados e se desenha um ponto para cada valor, respeitando

a primeira casa das Folhas apenas.

Com isso, será possível verificar se algum dos valores está muito fora do esquema e tam-

bém concluir sobre a forma provável da distribuição dos dados. Vamos enxergar as regiões de

concentração dos valores, e também, conseguimos visualizar as faixas de dispersão em que os

pontos se tornam mais raros, dispersos.

Chamamos os valores fora do padrão de pontos isolados, tecnicamente são os “outliers”.

Estes valores precisam ser reconhecidos, pois atrapalham a distribuição das observações nos

intervalos, constituindo uma quebra da terceira regra que impõe uma exigência de frequência

maior do que zero em todos os intervalos. Se a distância entre o penúltimo ponto e o “outlier” for

muito grande corremos o risco de ter fi = 0. Neste caso, este ponto deve ser descartado, colocado

em uma observação e o padrão será calculado com os pontos restantes. Necessariamente vamos

ter que redimensionar o n, Li ou Ls e o At. Vejamos como fica no exemplo dos Quadros 5 e 6.

EaD
ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente

42

Quadro 7: diagrama de Pontos dos municípios (em milhares)

o

o o o o

o o o o o
o o o o o o o o o o
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Fonte: Elaboração da autora.

Neste Diagrama de Pontos observamos perfeitamente que a maioria dos municípios apre-

senta ITR de 0 a 8 mil reais; este é, portanto, o padrão destes municípios, no entanto encontramos

um valor que pode ser considerado um “outlier”: o 15.989. Ele se encontra afastado dos demais e

não poderá ser agrupado, está fora do padrão. Existe um vazio entre ele e o valor imediatamente

anterior de mais de 7.500 reais. O tratamento dos dados deve colocar este valor à parte e informar

que temos um caso de valor fora do padrão, “outlier”, portanto.

Não se trata de perda de informação, mas sim de tratá-la em separado para evitar tenden-

ciosidades nas estatísticas. Os “outliers” tanto podem ser informações corretas que apresentam

uma outra tendência que não a do grupo de dados mais homogêneos, quanto pode ser valor

incorretamente observado.

Excluindo-se este valor as informações básicas modificam e passam a ser:

Quadro 8: informações básicas readequadas ao novo cenário de ocorrência de “outlier”

n = 19
Li = R$ 534,00
Ls = R$ 8.291,00
At = R$ 7.757,00*

Fonte: Elaboração da autora.

* Excluído o valor de R$ 15.989 por estar fora do padrão.

•	Amplitude Parcial (hi)

Após o ajuste dos dados, o passo seguinte é calcular o número e o tamanho dos intervalos

que vão dar lugar à Amplitude Parcial (hi). A distribuição em faixas, usualmente, de igual ta-

manho, deve facilitar a leitura e a compreensão das informações. Em alguns casos, como o de

faixas etárias da população, é interessante adotar as faixas comumente utilizadas pelo IBGE,

permitindo uma comparação com resultados censitários. Este também é o caso de faixa de renda,

tamanho de propriedades rurais que impõem o uso de intervalos de tamanho diferenciado em

função da extrema variação de renda e hectares, por isso é interessante utilizar as faixas como

o faz o IBGE.

EaD

43

MÉtodos estatísticos e a adMinistração

•	O número de intervalos pode variar entre 4 e 10, tendo em vista que agrupar os dados pretende

facilitar a visão do conjunto de dados. Nesse caso o excesso de intervalos acabaria diluindo a

informação de forma a prejudicar a análise. O número de intervalos é dado pela n . Caso o

resultado dessa raiz for superior a 10, é possível adaptar para um resultado mais favorável.

•	A amplitude parcial (hi) é o tamanho do intervalo, este resulta da aplicação de uma fórmula,

cuja resposta deve ser olhada apenas como um indicador do entorno de amplitude a ser em-

pregada. O ajuste deve sempre favorecer a visibilidade da informação, por isso nem sempre

o valor encontrado é diretamente utilizado. É necessário fazer uma aproximação do mesmo

de forma a atingir os objetivos de sua utilização. Essa aproximação permanece no entorno do

valor encontrado.

,.ti t s i
A

h A L L
n

= = −

•	Distribuição de Frequências (DF)

O passo seguinte é a construção da tabela de Distribuição de Frequências (DF). A ideia é

distribuir a frequência dos valores dentro das faixas construídas, mediante contagem delas no

Ramo e Folhas ordenado.

•	é usual, tendo em vista a continuidade dos dados numa DF, utilizar um intervalo do tipo [ li

|-------– ls ]. Esta forma indica que valores a partir de li estarão sendo contados no intervalo,

pertencem a ele, no entanto valores iguais a ls serão incluídos no intervalo seguinte;

•	decisão sobre o limite inicial do primeiro intervalo, lembrando que qualquer valor pode ser

utilizado, desde que se garanta a contagem de li nesse primeiro intervalo. A seguir, ls= li+ hi

permitirá construir todos os intervalos;

•	checagem se o último intervalo contém o último valor. É preciso verificar se ele não é igual ao

limite superior (ls) do último intervalo, pois nesse caso não será contado no mesmo;

•	outra checagem fundamental é quanto às frequências (fi) em cada intervalo. Todas elas devem

ser maiores do que zero, fi> 0;

EaD
ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente

44

•	Além do fi, utilizaremos outros recursos para compreender o comportamento do fenômeno:

•	 fa: frequência absoluta acumulada. A ideia é a de ir acumulando as frequências observadas
de forma a verificar como elas se concentram. No primeiro intervalo, fa= fi; a partir de então

será acrescentada a do segundo intervalo e assim por diante fa2= fa1+ fi2

•	 fr%: frequência relativa percentual 100*n
x

%f ir =

•	 fr%ac: frequência relativa percentual acumulada, a primeira repete, a segunda fr%ac2= fr%ac1+
fr%2

Vejamos esta sequência de tratamentos aplicados ao exemplo dos municípios da Micror-
região de Três Passos no que se refere ao ITR.

•	Informações básicas após o ajuste de “outlier”

Como foi observada a presença de um “outlier”, a sua supressão gera modificações nas
informações básicas.

Quadro 9: informações básicas readequadas ao novo cenário de ocorrência de “outlier”

n = 19
Li = R$ 534,00
Li