ESTATISTICA 2013

•

Humanas / Sociais

Filipe Inácio Procópio Araújo Viana

25/07/2014

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística I

57.579 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Capítulo1: Introdução
Definimos Estatística como uma coleção de métodos para planejar experimentos, obter dados e organizá-los, resumi-los, analisá-los, interpretá-los e deles extrair conclusões.
População é um conjunto de indivíduos ou objetos que apresentam pelo menos uma característica em comum. A população pode ser finita ou infinita.
Se uma população for muito grande (por exemplo, o conjunto de todas as estaturas de uma comunidade), o pesquisador poderá ter um trabalho astronômico para estudá-la. E em alguns casos os resultados serão sempre falhos.
Nesses casos, o estatístico recorre a uma Amostra, que, basicamente, constitui uma redução da população a dimensões menores, sem perda das características essenciais.
Uma amostra para ser boa, tem de ser representativa, ou seja, deve conter em proporção tudo o que a população possui qualitativa e quantitativamente. E tem que ser imparcial, isto é, todos os elementos da população devem ter igual oportunidade de fazer parte da amostra. Dessa maneira, o pesquisador não pode escolher quem ele quiser para fazer parte da amostra, pois dessa forma não estará sendo imparcial.
Para garantir a Representatividade devemos fazer a análise da população para ver se seus elementos distribuem-se homogeneamente ou se formam grupos com características peculiares. Se for esse o caso, temos que respeitar as proporções com que esses grupos integram a população.
Para garantir a Imparcialidade podemos recorrer a um sorteio (mediante a utilização de uma máquina geradora de números aleatórios ou de uma tábua de números aleatórios) dos elementos que farão parte da amostra.
Obedecidas essas regras, os números aleatórios resultantes são os seguintes: 69, 16, 91, 75, 47, 56, 09, 13, 61, 86, 03, 69, 46, 09, 63, 26, 59, 72, 96, 48, 30 e 07.
Observe que só usamos 2 colunas da tabela de números aleatórios porque se usássemos só uma os alunos com números acima de 10 ficariam de fora do sorteio. Como só precisamos de 3 alunos, os números sorteados, na ordem, são os seguintes: 16, 09 e 13.
Note que não foram considerados os números 69, 91 e 75, pois a 1ª série só tem 30 alunos, logo, qualquer número maior que 30 está excluído.
Agora já temos uma amostra representativa da população inicial. As pessoas (no caso, os alunos) passam, a partir deste momento, a ser tratadas como dados (estaturas) e podem dar origem a diversas relações estatísticas, como, por exemplo, média aritmética, mediana, moda, variância, desvio-padrão, etc....
Essas relações estatísticas possibilitam descrever, sob diversos ângulos, o conjunto de dados representado pela amostra. Por essa razão, o estudo dessas relações pertence ao campo da Estatística Descritiva.
O interesse do pesquisador está voltado para a população da qual se originou a amostra. Ele estuda as características da amostra(isto é, calcula as relações estatísticas) com o objetivo de transferir, de generalizar suas conclusões para a população.
A parte da estatística que se interessa pelas generalizações, ou seja, pelas transferências de conclusões das amostras para as populações chama-se Estatística Inferencial.
Métodos de amostragem
Probabilística e não-probabilística.
Tipos de amostragem probabilística: Amostragem Aleatória Simples: é o processo mais elementar e freqüentemente utilizado. Atribui-se a cada elemento da população um número distinto. Se a população for numerada utilizam-se esses rótulos. Efetuam-se sucessivos sorteios até completar-se o tamanho da amostra: n. Para realizar os sorteios, utilizam-se tábuas de números aleatórios que consistem em tabelas que apresentam seqüências dos dígitos 0 a 9 distribuídos aleatoriamente.
Exemplo: estudo de estaturas realizado anteriormente.
Amostragem Sistemática: trata-se de uma variação da amostragem aleatória simples, conveniente quando a população está ordenada segundo algum critério, como fichas em um fichário, listas telefônicas, ...
Calcula-se o intervalo de amostragem aproximando-o para o inteiro mais próximo: . Utilizando-se a tábua de números aleatórios, sorteia-se um número , entre 1 e , formando-se a amostra dos elementos correspondentes aos números
Exemplo: seja N=1000, n= 200, logo: . Imagine que 3 seja o número sorteado entre 1 e 5. Portanto, os elementos da população numerados por 3, 8, 13,...., 998 irão compor a amostra.
Amostragem Estratificada: No caso de população heterogênea em que se podem distinguir subpopulações mais ou menos homogêneas, denominadas estratos, é possível utilizar o processo de amostragem estratificada.
Após a determinação dos estratos, seleciona-se uma amostra aleatória de cada subpopulção (estrato). Se as diversas subamostras tiverem tamanhos proporcionais aos respectivos números de elementos dos estratos, e guardarem proporcionalidade com respeito à variabilidade de cada estrato, obtém-se uma estratificação ótima.
As variáveis de estratificação mais comuns são: classe social, idade, sexo, profissão, ou qualquer outro atributo que revele os estratos dentro da população.
As principais dificuldades para a utilização desse tipo de amostragem residem nas complicações teóricas relacionadas com a análise dos dados e em não podermos, muitas vezes, avaliar de antemão o desvio-padrão da variável nos diversos estratos.
Exemplo: estratificação de uma cidade em bairros, quando se deseja investigar alguma variável relacionada à renda familiar; a estratificação de uma população humana em homens e mulheres ou por faixas etárias; a estratificação de uma população de estudantes conforme suas especializações, etc.
Amostragem por Conglomerados (ou Agrupamentos): algumas populações não permitem ou tornam extremamente difícil que se identifiquem seus elementos. Apesar disso, pode ser relativamente fácil identificar alguns subgrupos da população. Em tais casos, uma amostra aleatória simples desses subgrupos (conglomerados) pode ser colhida, e uma contagem completa deve ser feita para o conglomerado sorteado. Agregados típicos são quarteirões, famílias, organizações, agências, edifícios, etc...
Assim, por exemplo, num levantamento da população de uma cidade, podemos dispor do mapa indicando cada quarteirão e não dispor de uma relação atualizada dos seus moradores. Pode-se, então, colher uma amostra dos quarteirões e fazer a contagem completa de todos os que residem naqueles quarteirões escolhidos.
Métodos não-probabilísticos
Amostragem acidental : Trata-se de uma amostra formada por aqueles elementos que vão aparecendo, que são possíveis de se obter até completar o número de elementos da amostra. Geralmente utilizada em pesquisas de opinião, em que os entrevistados são acidentalmente escolhidos.
Amostragem por conveniência: sua única virtude é a rapidez. A idéia é pegar qualquer amostra que estiver à mão.
Exemplos: Uma professora de contabilidade, desejando saber quantos alunos de MBA escolheriam uma disciplina optativa no verão relacionada com contabilidade internacional, poderia simplesmente pesquisar entre os alunos da turma que ela estiver lecionando no momento. Os estudantes sondados poderiam não ser representativos de todos os estudantes de MBA, mas uma resposta (apesar de imperfeita) estaria disponível de forma imediata.
Amostragem Intencional: De acordo com determinado critério, é escolhido intencionalmente um grupo de elementos que irão compor a amostra. O investigador se dirige intencionalmente a grupos de elementos dos quais deseja saber a opinião.
Por exemplo, numa pesquisa sobre preferência por determinado cosmético, o pesquisador se dirige a um grande salão de beleza e entrevista as pessoas que aí se encontram.
Amostragem por Quotas: Um dos métodos de amostragem mais comumente usados em levantamentos de mercado e em prévias eleitorais. Ele abrange 3 fases:
Clas
sificação da população em termos de propriedades que se sabe, ou presume, serem relevantes para a característica a ser estudada;
determinação da população para cada característica, com base na constituição conhecida, presumida ou estimada da população;fixação de quotas para cada observador ou entrevistador a quem tocará a responsabilidade de selecionar interlocutores ou entrevistados, de modo que a amostra total observada ou entrevistada contenha a proporção década classe tal como determinada em 2
Exemplo: Admite-se que se deseja pesquisar o “trabalho das mulheres”. Provavelmente se terá interesse em considerar: a divisão cidade/campo, a habitação, o número de filhos, a idade dos filhos, a renda média, as faixas etárias...A primeira tarefa é descobrir as proporções (porcentagens) dessas características na população. Imagine-se que haja 47% de homens e 53% de mulheres na população. Logo, uma amostra de 50 pessoas deverá ter 23 homens e 27 mulheres. Então o pesquisador receberá uma quota para entrevistar 27 mulheres. A consideração de várias categorias exigirá uma composição amostral que atenda ao n determinado e às proporções populacionais estipuladas.
Variáveis quantitativas e qualitativas
A variável será qualitativa quando resultar de uma classificação por tipos ou atributos, como nos exemplos que seguem:
população: moradores de uma cidade.
Variável: cor dos olhos (pretos, castanhos, azuis, etc.)
população: peças produzidas por máquina.
Variável: qualidade (perfeita ou defeituosa)
população: óbitos em um hospital, nos últimos cinco anos.
Variável; causa mortis (doenças cardiovasculares, Cânceres, doenças do aparelho digestivo, etc.)
população: candidatos a exame de vestibular
Variável: sexo (masculino/feminino).
A variável será quantitativa quando seus valores forem expressos em números. As variáveis quantitativas podem ser subdivididas em quantitativas discretas e quantitativas contínuas. Essa classificação corresponde aos conceitos matemáticos de discreto e contínuo. Assim, uma variável contínua será aquela que, teoricamente, pode assumir qualquer valor num certo intervalo de variação. A variável discreta, ao contrário, pode assumir apenas valores pertencentes a um conjunto enumerável.
Exemplos de variáveis quantitativas discretas:
população: residentes em uma cidade.
Variável: número de filhos.
População: as jogadas possíveis com um dado.
Variável: o ponto obtido em cada jogada.
População: aparelhos produzidos em uma linha de montagem.
Variável: número de defeitos por unidade.
Essas variáveis são todas discretas, pois seus possíveis valores são apenas números inteiros não-negativos, havendo, ainda no caso (b), a restrição de estarem compreendidas entre 1 e 6.
Exemplos de varáveis quantitativas contínuas:
População: pessoas residentes em uma cidade.
Variável: idade.
População; sabonetes de certa marca e tipo.
Variável: peso líquido.
População: peças produzidas por uma máquina
Variável: diâmetro externo
População: indústrias de uma cidade.
Variável: índice de liquidez.
Pelos exemplos apresentados, podemos perceber que os valores das variáveis discretas são obtidos mediante alguma forma de contagem, ao passo que os valores das variáveis contínuas resultam, em geral, de uma medição, sendo freqüentemente dados em alguma unidade de medida.
Capítulo 2: Tabelas e Gráficos.
A Estatística Descritiva se constitui num conjunto de técnicas que têm por objetivo descrever, analisar e interpretar os dados numéricos de uma população ou amostra.
A seguir veremos exemplos de tabelas e gráficos que podem representar, de maneira sintética as informações sobre o comportamento de variáveis numéricas levantadas através de processos de pesquisa
Tabelas estatísticas.
A tabela deverá ser uma forma objetiva de se demonstrar o comportamento de variáveis.
Séries estatísticas.
Conforme o critério de agrupamento as tabelas podem representar diversas séries.
Definição: Série Estatística é toda tabela que apresenta a distribuição de um conjunto de dados em função da época, do local ou da espécie.
Daí, podemos inferir que numa série estatística observamos a existência de três elementos ou fatores: o tempo, o espaço e a espécie.
Conforme varie um dos elementos da série, podemos classificá-la em histórica, geográfica e específica.
SÉRIE HISTÓRICA, CRONOLÓGICA, TEMPORAIS: Descrevem valores da variável, em determinado local, discriminados segundo intervalos de tempo. (OS DADOS VARIAM COM O TEMPO).
PRODUÇÃO MEDIA DE SOJA NO BRASIL
2005-06
ANOS
PRODUÇÃO (1.000 t)
2005
2006
51 138
52 223
FONTE: IBGE.
SÉRIES GEOGRÁFICAS, ESPACIAIS, TERRITORIAIS OU DE LOCALIZAÇÃO: Descrevem valores da variável, em determinado instante, discriminados segundo regiões. (OS DADOS VARIAM NO LOCAL).
DURAÇÃO MÉDIA DOS ESTUDOS SUPERIORES 1994
PAÍSES
NÚMERO DE ANOS
Itália
Alemanha
França
Holanda
7,5
7,0
7,0
5,9
FONTE: APA.
SÉRIES ESPECÍFICAS OU CATEGÓRICAS: Descrevem valores da variável em determinado tempo e local, discriminados segundo especificações e categorias (OS DADOS VARIAM DE ACORDO COM A ESPÉCIE OU QUALIDADE DO FENÔMENO).
EXPORTAÇÃO BRASILEIRA
2005
PRODUTOS
QUANTIDADE
(em bilhões de toneladas)
Grãos
Farelo
Óleo
20,5
14,2
2,4
FONTE: Companhia Nacional de Abastecimento (Conab).
SÉRIES CONJUGADAS, TABELAS DE DUPLA ENTRADA: Quando precisamos apresentar em uma única tabela a variação de valores de mais de uma variável (OS DADOS SÃO RELATIVOS A 2 OU 3 ASPECTOS SIMULTANEAMENTE).
DISTRIBUIÇÃO DE FREQÜÊNCIAS: É a série estatística em que os dados são agrupados com suas respectivas freqüências absolutas.
Número de Acidentes por Dia na Rodovia X no Rio de Janeiro
1977
Número de acidentes por dia
Quantidade
(em dias)
0
1
2
3
4
5
10
7
4
5
3
2
FONTE: DNER.
Altura dos Alunos de uma Classe do IFRJ
Março de 2009
Alturas (m)
Número de alunos
1,50|-1,60
1,60|-1,70
1,70|-1,80
1,80|-1,90
5
15
17
3
FONTE: Secretaria da escola
Gráficos Estatísticos.
O gráfico estatístico é uma forma de apresentar os dados estatísticos, com o objetivo de mostrar uma impressão mais rápida do fenômeno em estudo, com simplicidade, clareza e veracidade.
Títulos completos e o mais claro possível;
Sempre que possível a escala vertical deve ser escolhida de modo a aparecer na linha o valor zero;
A escala horizontal deve ser lida da esquerda para direita e a escala vertical deve ser lida de baixo para cima.
Gráfico em colunas ou em barras
Gráfico de linhas ou em curva
Gráfico em setores ou de pizza:
Total_____360º
Parte_____xº
Considere a utilização de um gráfico de pizza quando:
Você tiver apenas uma série de dados que deseja plotar.
Nenhum dos valores que deseja plotar for negativo.
Quase nenhum dos valores que deseja plotar for igual a zero.
Você não tiver mais de sete categorias.
As categorias representarem partes de toda a pizza e queremos comparar as partes com o todo.
Capítulo 3: Representação da amostra.
A seguir veremos um estudo completo das distribuições de freqüências, pois trata-se da tabela mais importante para a estatística descritiva.
Após a coleta de dados relativos a um determinado fenômeno em estudo, que compõem uma amostra, obtemos um conjunto de dados que será tabulado. Os dados obtidos são chamados de dados brutos
Por exemplo:
TABELA 1
ESTATURA DE 40 ALUNOS DA CEFETEQ
Observe que a tabela foi formada por dados que não estão organizados. Dessa forma ela recebe o nome de TABELA PRIMITIVA.
Dessa forma difícil ter uma idéia exata do comportamento da variável em estudo (estatura). Precisamos organizar os dados tabelados através de uma ordenação crescente ou decrescente
TABELA 2
ESTATURA DE 40 ALUNOS DA CEFETEQ
Amplitude total ou Range (R): é a diferença entre o maior e o menor valor observado: R=173-150=23
Ainda assim, a variável observada (ESTATURA) será mais facilmente estudada quando dispusermos os valores ordenados em uma coluna e ao lado de cada valor o número de vezes que aparece repetido (FREQÜÊNCIA).
Obtemos dessa formauma tabela que recebe o nome de DISTRIBUIÇÃO DE FREQÜÊNCIA.
Outra solução aceitável e mais conveniente para diminui o tamanho da tabela quando o número de valores da variável é grande, seria agrupá-los em vários intervalos (INTERVALOS DE CLASSE).
Nesse caso a tabela passa a ser denominada: DISTRIBUIÇÃO DE FREQÜÊNCIA POR INTERVALO DE CLASSE.
Lê-se: 4 alunos têm estatura entre 150 e 154 anos (exclusive) – intervalo fechado à esquerda (|-)
ELEMENTOS DE UMA DISTRIBUIÇÃO DE FREQÜÊNCIA.
(1) CLASSE (i): São intervalos de variação da variável.
De 150 a 154 ou 150|-154 temos a classe i=1.
Temos um total de 6 classes, ou seja, i=1,2,...,6.
(2) LIMITES DE CLASSE: São os extremos de cada classe.
= Limite inferior = Limite superior
Ex.: Na primeira classe: = 150 e = 154.
(3) AMPLITUDE DE UM INTERVALO DE CLASSE ( ): É a medida do intervalo que define a classe. Diferença entre o limite superior e inferior da classe.
Ex.: Na primeira classe:
= – = 154 – 150 = 4 cm.
(4) AMPLITUDE TOTAL DA DISTRIBUIÇÃO (AT): É a diferença entre o Limite superior da ultima classe e o Limite inferior da primeira classe.
AT = L (Max) – l (min)

Ex.: 174 – 150 = 24 cm
Observe que como as classes possuem o mesmo intervalo vale a relação:
24/4 = 6 (6 = Número total de classes)
(5) PONTO MÉDIO DE UMA CLASSE ( ): É o ponto que divide o intervalo de classe em duas partes iguais.
Ex.: Classe 1: (150 + 154)/2 = 152 cm
TIPOS DE FREQÜÊNCIA:
(1) FREQÜÊNCIA SIMPLES OU ABSOLUTA ( ): É o número de observações correspondentes a classe ou a um valor.
Ex.: f1 = 4 => freqüência da classe 1,
F2= 9 => freqüência da classe 2,...
A soma de todas as freqüências será
onde n é o número
total de observações.
(2) FREQÜÊNCIA RELATIVA ( ): É a razões entre a freqüência simples a freqüência total.
Exemplo:
(3) FREQÜÊNCIA ACUMULADA ( ): É o total das freqüências de todos os valores inferiores ao limite superior do intervalo de classe.
Ex: ou seja
Existe
inferior a 162

(4)FREQÜÊNCIA ACUMULADA RELATIVA ( ): É a freqüência acumulada da classe dividida pela freqüência total da distribuição.
Ex:

Critério para calcular o número de classes a ser utilizado
CRITÉRIO DA RAIZ:
Se a seqüência estatística contém n elementos e se indicarmos por i o número de classes a ser utilizado, então:
, onde n é o número total de observações.
Amplitude do intervalo de classe que chamaremos de h é determinada por:
Exemplo:
n = 40
Então, = 6,324, portanto o inteiro mais próximo é 6.
Devemos trabalhar com o inteiro mais próximo da raiz de n, o inteiro imediatamente anterior e o inteiro imediatamente superior.
Logo, as opções para i são: 5, 6 ou 7.
Então,
A amplitude do intervalo de classe (h) é determinada por:
Observe que a opção por 6 classes foi feita em função de um valor de h mais fácil de se operar.
REPRESENTAÇÃO GRÁFICA DE UMA DISTRIBUIÇÃO DE FREQÜÊNCIA.
Histograma
Consiste em um conjunto de retângulos, tantos quantos forem às classes de uma distribuição.
As classes são as bases dos retângulos (tantas partes quantas forem às classes)
A escala para marcação dos pontos no eixo Y corresponde às freqüências.
Exemplo:
Polígono de freqüências:
Freqüência simples:

Intervalos de freqüência:
As bases dos retângulos vão estar centradas nos pontos médios das classes.
Exemplo:
Capítulo 4 - Medidas de posição: Média, Moda e Mediana
O estudo sobre a Distribuição de Freqüência permitiu descrever, de um modo geral, os valores que uma variável pode assumir. Agora precisamos de um “indicativo” generalizado.
O modo mais comum de se obter esse tipo de informação é através das MEDIDAS DE POSIÇÃO, estatística que representa à posição relativa da distribuição em relação ao eixo horizontal.
As medidas de posição mais importantes são as MEDIDAS DE TENDÊNCIA CENTRAL – recebem esse nome pelo fato dos dados observados, em geral, se agruparem em torno dos valores centrais.
São elas:
MÉDIA ARITMÉTICA
MODA
MEDIANA
Outras medidas de posição são:
SEPARATRIZES
QUARTIS
PERCENTIS
Essas medidas quando bem interpretadas, podem fornecer-nos informações muito valiosas com respeito às séries estatísticas, ou seja, com estas medidas tenta-se encontrar um valor numérico que represente o comportamento típico da série em estudo.
MÉDIA ARITMÉTICA SIMPLES ( )
DADOS NÃO AGRUPADOS (dados brutos ou rol)
Ex.: Produção leiteira diária da vaca A, durante uma semana, foi de 10, 14, 13, 15, 16, 18 e 12 litros. Qual a produção média da semana.

MÉDIA PARA DADOS AGRUPADOS SEM INTERVALO DE CLASSE.
Onde é a freqüência simples .
Exemplo: 1)

MÉDIA PARA DADOS AGRUPADOS COM INTERVALO DE CLASSE

, onde ( ) é o ponto médio de cada
intervalo de classe e ( ) a freqüência simples de cada intervalo de classe.
Exemplo:

MÉDIA GERAL: Sejam as médias aritméticas de k séries e os números de termos destas séries, respectivamente. A média aritmética da série formada pelos termos das k séries é dada por:
Exemplo:Sejam as séries:
1) 4, 5, 6, 7, 8 em que
2) 1, 2, 3 em que
3) 9, 10, 11, 12 13 em que
] MÉDIA GEOMÉTRICA: Sejam , valores de X, associados às freqüências absolutas , respectivamente. A média geométrica de X é definida por:
Exemplo: 1) Calcule a média geométrica dos valores 3, 6, 12, 24, 48.
2) Calcular a média geométrica para a distribuição:

1
2
3
5

8
6
5
3
Notemos que se utilizarmos a fórmula anterior faremos um grande número de operações, então torna-se conveniente o uso de logaritmos.
MÉDIA HARMÔNICA : Sejam valores de X, associados às freqüências absolutas , respectivamente.
A média harmônica de X é definida por:
Exemplo: Calcular a média harmônica para 2, 5, 8.
MODA (MO): É o valor que ocorre com maior freqüência em uma série de dados. Quando uma série de dados não apresentar moda chamaremos de AMODAL. Dois valores na série, duas modas, chamaremos de BIMODAL.
DADOS NÃO AGRUPADOS (dados brutos ou rol)
DADOS AGRUPADOS SEM INTERVALO DE CLASSE.
Basta verificar o valor da variável de maior freqüência.
Uma vez agrupado os dados basta fixar o valor da variável de MAIOR freqüência. A moda nesse caso é 3.
DADOS AGRUPADOS COM INTERVALO DE CLASSE.
A classe que apresentar a maior freqüência é denominada CLASSE MODAL que servirá de base para os seguintes cálculos
a) Moda bruta: Ponto médio da classe modal.
, onde l* é o limite inferior da
Classe modal e L* é o limite superior da classe modal.
b) Moda de King:
, onde
é a freqüência absoluta anterior e posterior à classe modal e h* é amplitude da classe modal.
c) Moda de Czuber:

d) Moda de Pearson :
É uma boa aproximação quando a distribuição apresenta razoável simetria em relação à média.
Exemplo:Calcule a moda utilizando os 4 métodos.
R: 50
Observações:
1) A moda é utilizada quando desejamos obter uma medida rápida e aproximada de posição ou quando o valor da distribuição deve ser o valor mais típico da distribuição.
2) A moda é uma medida de posição, pois indica a região das máximas freqüências
MEDIANA (Md)
É o valor que divide o conjunto de dados ordenados em duas metades, com metade dos valores acima da mediana e a metade dos valores abaixo dela. Quando o número de observações (n) é ímpar, a mediana é o valor que ocupa a posição central. Quando n forpar, há duas posições centrais no conjunto, então a mediana é a média aritmética dos dois valores que ocupam as posições centrais.
1) Se n for ímpar (n=número de observações), o valor mediano será o de ordem
, ou seja, o valor do elemento que ocupa está posição será a mediana.
2) Se n for par, o rol admite dois termos centrais que ocupam as posições.O de ordem
, então, a mediana será a média dos valores que ocupam estas posições.
Exemplo:
DADOS AGRUPADOS SEM INTERVALO DE CLASSE.
Se os dados se agrupam em uma distribuição de freqüência será preciso determinar um valor tal que divida a distribuição em dois grupos que contenham o mesmo número de elementos. Esse valor será encontrado através da seguinte fórmula:

: nos fornece a posição do valor na série de dados
Passos para o cálculo da mediana:
(1) Achar n
(2) Calcular Fi
(3) Calcular Posição da mediana P(Md)
(4) Procurar P(Md) em Fi.
Exemplo:
=34/2=17 posição
A mediana vai ser a média entre o 17º valor e o 18º valor da série (pois temo um número par de elementos (n=34).
Então,
Md = (2+2)/2 = 2 meninos.
2) =8/2=4 posição na série

A mediana será a média entre o 4º e o 5º elemento da série => Md=(15+16)/2 = 31/2 = 15,5
idade
fi
Fi
2
1
1
5
5
6
8
10
16
10
6
22
12
1
23
total
23

=23/2=11,5 posição12
Md = 8
DADOS AGRUPADOS COM INTERVALO DE CLASSE.
Passos para o cálculo da Mediana:
(1) Achar n
(2) Calcular Fi
(3) Calcular P(Md)
(4) Determinar a Classe Mediana
Fórmula para o cálculo:

Onde:

Exemplo:
idade
fi
Fi
3 |--- 6
2
2
6 |--- 9
5
7
9 |--- 12
7
14
12 |--- 15
3
17
15 |--- 18
2
19
total
19

=19/2=9,5 posição 10 O 10º elemento está na 3ª
classe.

=10,1
Observação:
No caso de existir uma freqüência acumulada exatamente igual a , a Mediana será o limite superior da classe correspondente.
Por exemplo:
Classes
fi
Fi
0 |---10
1
1
10 |---20
3
4
20 |---30
9
13
30 |---40
7
20
40 |---50
4
24
50 |---60
2
26
Total
26

Nota:
A mediana pode coincidir ou não com um elemento da série. Vimos que, quando tivermos um número de elementos ímpar na série de dados, há coincidência.
Quando o número de elementos de uma série é par, não há coincidência.
A mediana depende da posição e não dos valores centrais na série ordenada.
Usamos a mediana quando desejamos obter o ponto que divide a distribuição em partes iguais; quando há valores extremos afetando de uma maneira acentuada a média e quando a variável em estudo é salário.
Exemplo:
5, 7, 10, 13, 15 => Média = 10 e Md = 10
5, 7, 10, 13, 65 => Média = 20 e Md = 10
Observe que a mediana permanece a mesma e a média sofreu influencia dos valores extremos.
SEPARATRIZES
As separatrizes, como o próprio nome sugere são medidas que separam a série em partes iguais.]
Não são medidas de tendência central, mas estão ligadas à mediana relativamente a sua segunda característica, já que se baseiam em sua posição na série.
QUARTIS: São valores de uma série que a dividem em 4 partes iguais. Assim temos:
Q1 = 1º quartil: Separa a seqüência ordenada deixando 25% dos valores a sua esquerda e 75% dos valores a sua direita.
Q2= 2º quartil: Separa a seqüência ordenada deixando 50% dos valores a sua esquerda e 50% dos valores a sua direita.
Q3 = 3º quartil: Separa a seqüência ordenada deixando 75% dos valores a sua esquerda e 25% dos valores a sua direita.
!------------!-----------!-----------!--------!
Q1 Q2 Q3
Pode-se observar que o 2º quartil e a mediana tem os mesmos valores, pois ambos dividem uma série ordenada em duas partes iguais.
!---------!---------!---------!--------!
Q1 Q2 Q3
!--------------------!------------------!
Md
QUINTIS: Quando dividimos uma série em 5 partes iguais, cada parte ficará com 20% dos elementos da série. Assim temos:
K1= 1º quintil – separa a seqüência ordenada deixando 20% dos valores a sua esquerda e 80% dos valores a sua direita.
K2= 2º quintil – separa a seqüência ordenada deixando 40% dos valores a sua esquerda e 60% dos valores a sua direita.
K3= 3º quintil – separa a seqüência ordenada deixando 60% dos valores a sua esquerda e 40% dos valores a sua direita.
K4= 4º quintil – separa a seqüência ordenada deixando 80% dos valores a sua esquerda e 20% dos valores a sua direita.
!-------!-------!-------!-------!-------!
K1 K2 K3 K4
DECIS: Quando dividimos uma série em 10 partes iguais, cada parte ficará com 10% dos elementos da série. Assim temos:
D1 = 1º decil – separa a seqüência ordenada deixando 10% dos valores a sua esquerda e 90% dos valores a sua direita.
D2= 2º decil – separa a seqüência ordenada deixando 20% dos valores a sua esquerda e 80% dos valores a sua direita.
D3= 3º decil – separa a seqüência ordenada deixando 30% dos valores a sua esquerda e 70% dos valores a sua direita.
.
.
.
D8= 8º decil – separa a seqüência ordenada deixando 80% dos valores a sua esquerda e 20% dos valores a sua direita.
D9 = 9º decil – separa a seqüência ordenada deixando 90% dos valores a sua esquerda e 10% dos valores a sua direita.
!-----!-----!-----!-----!-----!-----!-----!-----!-----!-----!
D1 D2 D3 D4 D5 D6 D7 D8 D9
PERCENTIS ou CENTIL: São valores de uma série que a dividem em 100 partes iguais. Cada parte ficará com 1% dos elementos da série. Assim temos:
C1= 1º percentil: separa a seqüência ordenada deixando 1% dos valores a sua esquerda e 99% dos valores a sua direita.
C2= 2º percentil: separa a seqüência ordenada deixando 2% dos valores a sua esquerda e 98% dos valores a sua direita.
.
.
.
C98= 98º percentil: separa a seqüência ordenada deixando 98% dos valores a sua esquerda e 2% dos valores a sua direita.
C99= 99º percentil: separa a seqüência ordenada deixando 99% dos valores a sua esquerda e 1% dos valores a sua direita.
!------!------!------!------!------!------!------!------!------!------!
C10 C20 C30 C40 C50 C60 C70 C80 C90
Observação: Podemos separar em quantas partes quisermos.
Podemos notar que os quartis, quintis e decis podem ser expressões em termos dos percentis,
Q1=P25
K1=P20
D1=P10
Q2=P50
=P40
D2=P20
Q3=P75
K3=P60
D3=P30

K4=P80
D4=P40

D5=P50

D6=P60

D7=P70

D8=P80

D9=P90
Cálculo das medidas separatrizes: QUARTIL
É o mesmo cálculo de mediana sendo que deve ser substituído por , onde k é o número de ordem do quartil.
Exemplo:
1) Calcule o Q1 da seqüência X: 2, 5, 8, 5, 5, 10, 1, 12, 12, 11, 13, 15.
2) Calcule o Q1 e Q3
QUINTIS
É o mesmo cálculo de mediana sendo que
deve ser substituído por , onde k é o número de ordem do quintil.
Exemplo:
Considerando a tabela de distribuição de freqüência por intervalo de classe, calcule K2.
DECIS
É o mesmo cálculo de mediana sendo que
deve ser substituído por , onde k é o número de ordem do decil.
Exemplo: Considerando a tabela de distribuição de freqüência por intervalo de classe, calcule D3.
PERCENTIS
É o mesmo cálculo de mediana sendoque
deve ser substituído por , onde k é o número de ordem do percentil.
Considerando a tabela de distribuição de freqüência por intervalo de classe, calcule P8.
MEDIDAS DE DISPERSÃO OU VARIABILIDADE.
Servem para avaliar o quanto os dados são semelhantes, descreve então o quanto os dados distam do valor central.
Desse jeito, as medidas de dispersão servem também para avaliar qual o grau de representação da média.
É fácil demonstrar que apenas a média é insuficiente para descrever um grupo de dados.
Dois grupos podem ter a mesma média, mas serem muito diferentes na amplitude de variação de seus dados. Por exemplo:
-Grupo A (dados observados): 5; 5; 5.
-Grupo B (dados observado): 4; 5; 6.
-Grupo C (dados observados): 0; 5; 10.
A média dos três grupos é a mesma (5), mas no grupo “A” não há variação entre os dados, enquanto no grupo “B” a variação é menor que no grupo “C”.
Dessa forma, uma maneira mais completa de apresentar os dados (além de aplicar uma medida de tendência central como a média) é aplicar uma medida de dispersão.
Dessas medidas, estudaremos as seguintes:
Medidas de variação absoluta que são: a amplitude total, a variância e o desvio padrão.
Medidas de variação relativas que são: coeficiente de variação e a variância relativa.
(1) MEDIDAS DE VARIAÇÃO ABSOLUTA
Amplitude Total:
AT = L (Max) – l (min)
Tem o inconveniente de só levar em conta os dois valores extremos da série, não levando em consideração os valores intermediários.
Ela é apenas uma indicação aproximada da dispersão ou variabilidade.
Variância e Desvio Padrão
A variância e o desvio padrão são medidas que levam em consideração a totalidade dos valores da variável em estudo.
Isso que faz delas índices de variabilidade bastante estáveis e, por isso mesmo, os mais geralmente empregados.
A variância é a média aritmética do quadrado dos desvios (em relação à média).
Variância populacional:
Etapas do cálculo da Variância populacional:
- Calcular a média populacional
- Subtrair a média de cada valor do conjunto , o que chamamos de desvio;
- Elevar cada desvio ao quadrado
- Somar os quadrados dos desvios
- Dividir a soma por (n-1) quando se tratar de dados amostrais, ou simplesmente por N se os dados representam todos os valores de uma população.
Sendo a variância calculada a partir dos quadrados dos desvios, ela é um número em unidade quadrada em relação à variável em questão, o que, sob o ponto de vista prático, é um inconveniente.
Por isso mesmo, imaginou-se uma nova medida que tem a interpretação prática, denominada desvio padrão da população, definida como a raiz quadrada da variância populacional.
Variância e desvio-padrão amostrais
Obs.:
(1) O desvio padrão sempre será positivo!
(2) O desvio padrão de uma série indica o quanto os dados estão afastados da média e, que se os dados são iguais, o valor da medida é zero.
Exemplo: Em uma turma de 15 alunos de uma escola, verificaram-se através da análise das 15 notas (amostra), os seguintes desempenhos:
Alunos
Conceito na Prova

1
4,3
9,1204

2
4,5
7,9524

3
9
2,8224

4
6
1,7424

5
8
0,4624

6
6,7
0,3844

7
7,5
0,0324

8
10
7,1824

9
7,5
0,0324

10
6,3
1,0404

11
8
0,4624

12
5,5
3,3124

13
9,7
5,6644

14
9,3
3,9204

15
7,5
0,0324

Total
109,8
44,16
Média
7,32
3,155
Variância
Desvio Padrão
1,77

Observamos no exemplo, que a média das provas, foi estimada em 7,32 com desvio padrão em 1,77. Concluímos que a maioria das notas concentrou-se em 9,09 e 5,55.
Exercício: Calcular a média aritmética e o desvio padrão dos seguintes dados relativos à dosagem de hemoglobina verificada em 12 animais bovinos (mg).
15 14 13 11 13 14 13,5 12 16 14,5 12 9
Resp.: Média = 13,083mg Variância = 3,588mg2 Desvio padrão = 1,894mg
( 2) MEDIDAS DE VARIAÇÃO RELATIVA
A variância relativa
O coeficiente de variação
É a razão entre o desvio padrão e a média aritmética da série dos dados.
Note que o coeficiente de variação, como é uma divisão de elementos de mesma unidade, é um número puro. Portanto pode ser expresso em percentual.
Exemplo:
Se uma série X apresentar: e
E uma série Y apresentar: e
Do ponto de vista da dispersão absoluta, a série Y apresenta maior dispersão que a série X.
No entanto, se levarmos em consideração as médias das séries, o desvio padrão de Y que é 5 em relação a 100 é um valor menos significativo que o desvio padrão de X que é 2 em relação a 10. Isso nos leva a definir as medidas de dispersão relativas.
Desse modo, se calcularmos os coeficientes de variação das séries X e Y obteremos:
cv(x) = 2/10 = 0,2 ou 20% e
cv(y) = 5/100 = 0,05 ou 5%
Comparando os valores destes dois coeficientes concluímos que a série X admite maior dispersão relativa.
Como a medida de dispersão relativa leva em consideração a medida de dispersão absoluta e a média da série, é uma medida mais completa que a medida de dispersão absoluta.
Portanto, a medida de dispersão relativa prevalece sobre a medida de dispersão absoluta.
Podemos afirmar que a série que tem a maior dispersão relativa, tem de modo geral a maior dispersão.
Ou seja,
A série Y apresenta maior dispersão absoluta.
A série X apresenta maior dispersão relativa.
Portanto, a série X apresenta maior dispersão.
Exercício: Responda, justificando em cada caso, as questões abaixo:
Qual das séries apresenta maior dispersão absoluta?
Qual das séries apresenta maior dispersão relativa?
Qual das séries apresenta maior dispersão?
Caso 1: e
Caso 2: e
Notação:
Para a população: denominador N tamanho da população.

Para a amostra: denominador n-1 proveniente do tamanho n da amostra.

Exercícios
Medidas de assimetria e Curtose.
Essa parte da disciplina não está na apostila. Seguir pelo livro.
Medidas de Assimetria
É o grau de afastamento de uma distribuição da unidade de simetria (eixo de simetria)
O grau de assimetria pode ser avaliado olhando-se para o histograma ou comparando-se a média com a mediana.
Porém essa comparação é imprecisa e não leva em consideração o tamanho da amostra
Em outras palavras, as medidas de assimetria possibilitam analisar uma distribuição de acordo com as relações entre suas medidas de moda, média e mediana, quando observadas graficamente.
Distribuição Simétrica.
A distribuição é dita simétrica quando ocorre a igualdade entre os valores de moda, média e mediana coincidentes sobre o eixo de simetria.
O eixo de simetria é traçado sobre a média da distribuição e sempre que a curva de distribuição se afastar desse eixo teremos um certo de grau de afastamento, configurando uma assimetria na distribuição.
Distribuição Assimétrica Positiva
É quando a curva da distribuição declina para a direita.
Cauda longa do histograma aponta para a direita.
Concentração de dados à esquerda.
Poucos valores altos.
Distribuição Assimétrica Negativa.
É quando a curva da distribuição declina para a esquerda.
Cauda longa do histograma aponta para a esquerda.
Concentração de dados à direita.
Poucos valores baixos.
Coeficiente de assimetria
As duas principais fórmulas para o cálculo da medida de assimetria são:
1º Coeficiente de Pearson:

para população
para amostra.
2º Coeficiente de Pearson:
onde :
representa as medidas dos quartis.
Quando:
AS=0 a distribuição é Simétrica.
AS>0 a distribuição é Assimétrica Positiva.
AS<0 a distribuição é Assimétrica Negativa.
Exemplo:
Analisea distribuição amostral a seguir quanto à simetria.
Salários ($1.000,00)
30|- 50
50|-100
100|-150
Empregados
80
50
30
Resposta:
Pelo 1º coeficiente de Pearson: AS=0,796
Pelo 2º coeficiente de Pearson: AS=0,6
Nos dois casos AS>0, logo temos uma distribuição assimétrica positiva.
Medidas de Curtose:
Curtose é o grau de achatamento da distribuição.
Ou, é o quanto uma curva de freqüência será achatada em relação a uma curva normal tomada como referência.
Ou ainda, pode-se dizer que a curtose refere-se ao comprimento relativo das caudas e o grau de concentração no centro.
Quanto à curtose a distribuição pode ser:
Pico normal
Comparada à distribuição normal.
Mais achatada que a curva normal.
Caudas mais pesadas.
Pico mais pronunciado
Caudas mais leves
Para medir o grau da curtose, utilizamos:
, onde

representa as medidas dos
percentis.
Dessa forma, quando:
K=0,263 a distribuição é mesocúrtica.
K>0,263 é platicúrtica.
K<0,263 é leptocúrtica.
Exemplo: A distribuição abaixo corresponde a qual distribuição amostral?
Classes
3|-8
8|-13
13|-18
18|-23

5
15
20
10
Resp: 0,2752>0,263. Suavemente platicurtica.
Precisão x Exatidão.
Denomina-se precisão a concordância entre os valores experimentais obtidos.
Quanto mais próximos entre si estiverem, menor será a amplitude e maior será a precisão.
A precisão de um instrumento de medição quantifica a proximidade entre as medidas individuais gerada pelo instrumento.
A precisão é a habilidade do método de reproduzir o mesmo resultado, embora não necessariamente o correto, sempre que o procedimento é executado.
A precisão refere-se ao grau de concordância mútua entre as medidas individuais, está de acordo com a precisão dos dados.
A exatidão refere-se ao grau de concordância entre o resultado de uma medição e o valor verdadeiro (convencional) da grandeza submetida à medição.
É um conceito qualitativo.
Não devemos confundir precisão com exatidão.