Introdução a Estatística

•

FAESNE

9

1

9

1

0

Anderson Oliveira

30.06.2014

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

Estatística - Administração
Introdução
O termo estatística provém da palavra Estado e foi utilizado originalmente para denominar levantamento de dados, cuja a finalidade era orientar o Estado em suas decisões.
*Conceito atual:
Estatística é um conjunto de métodos e processos quantitativos que serve para estudar e medir os fenômenos coletivos.
POPULAÇÃO
População: É o conjunto de todos os itens (pessoas, coisas, objetos) que interessam ao estudo de um fenômeno coletivo segundo alguma característica.
População alvo: É a totalidade dos elementos que estão em estudo e em relação aos quais se deseja obter informações.
População de estudo: É a população a partir da qual é possível realizar uma amostragem. Para fins de inferência estatística, a população sob estudo deve coincidir com a população alvo. Caso contrário, a inferência deve ficar restrita à população sob estudo.
AMOSTRA E PARÂMETRO
Amostra: É qualquer subconjunto não vazio de uma população.
Uma característica numérica estabelecida para toda uma população é denominada parâmetro.
Uma característica numérica estabelecida para uma amostra é denominada estimador.
PARÂMETRO
Exemplo:
No fenômeno coletivo eleições para governador no Estado da Paraíba, a população é o conjunto de todos os eleitores habilitados na Paraíba. Um parâmetro é a proporção de votos do candidato A.
Uma amostra é um grupo de 1000 eleitores selecionados em todo o Estado. Um estimador é a proporção de votos do candidato A obtida na amostra.
PARÂMETROS
média populacional (μ ),
variância populacional (σ²),
tamanho da população (N),
proporção populacional (p), dentre outros.
Processos Estatísticos de Abordagem
Censo: É uma avaliação direta de um parâmetro, utilizando-se todos os componentes da população.
Estimação: É uma avaliação indireta de um parâmetro, com base em um estimador através do cálculo de probabilidade.
Propriedades principais do Censo
Admite erro processual zero e tem confiabilidade 100%
É caro
É lento
É quase sempre desatualizado
Nem sempre é viável
Propriedades principais da Estimação
Admite erro processual positivo e tem confiabilidade menor que 100%
É barata;
É rápida;
É atualizada;
É sempre viável.
Princípios de amostragem
Amostra:
É um subconjunto da população. Esse subconjunto é não vazio e não coincidente com a população.
Problemática:
É preciso justificar que a amostra retirada da população representa as características dela e que, portanto, pode ser utilizada em testes, bem como seus resultados e conclusões são estatisticamente aceitos como os da respectiva população.
Deve-se calcular (justificar) qual tamanho deve ter a amostra para garantir que suas características realmente sejam aquelas da população original.
Amostragem
Probabilística
Aleatória simples
Sistemática
Estratificada
Por conglomerados
Não Probabilística
-Por conveniência
-Intencionais
-Por quotas
Amostragem Probabilística
É aquela em que cada unidade amostral tem uma possibilidade zero de não pertencer à amostra, pois todas as variáveis fazem parte da população e não há, portanto, variáveis que não sejam desse universo.
Então: probabilidade de 1/N.
*Se a população for N=40, cada uma das observações terá probabilidade 1/40 de ser escolhida para integrar a amostra probabilística.
Amostragem Aleatória Simples
Os elementos são classificados por números e, depois, sorteados aleatoriamente em número desejado pelo analista para que seja constituída a amostra de análise e posterior generalização dos resultados.
Amostragem Sistemática
Supõe que haja um critério predeterminado para a escolha dos elementos que irão compor a amostra. A esse critério denomina-se fator de sistematização
s=N/n
Amostragem Estratificada
O princípio desse tipo de amostragem é o de verificar, no evento a ser estudado, quantos estratos (características dentro da população) existem.
Amostragem por Conglomerados
A população a ser estudada é delimitada em uma região geográfica de escolhidos, por exemplo, ruas ou quarteirões em um mesmo bairro ou município. São entrevistados os pais de família com ensino superior completo.
Amostragem não probabilística
É aquela em que existe uma probabilidade diferente de zero de uma variável considerada não pertencer à amostra.
Como há uma escolha deliberada dos elementos da amostra, não se pode generalizar os resultados das pesquisas para a população, pois a amostra não garante a sua representatividade.
Amostragem por conveniência
Essas amostras são colhidas em ambientes como shoppings, igrejas, clubes, cidades turísticas , como litorâneas, para as quais determinado tipo de público se dirige em certas ocasiões ou épocas do ano.
Amostragem Intencional
É parecida com a anterior, mas também, no ambiente, são selecionados os respondentes que atendem a critérios visuais ou subjetivos do pesquisador. Esses critérios devem ser previamente estabelecidos no projeto de pesquisa.
Amostragem por cotas
Esse tipo de amostragem se apoia no critério intencional, mas estabelece um número mínimo de cada sub grupo pesquisado.
Por exemplo a pesquisa pode ser estabelecidas por cotas de critério de renda, idade, classe social, etc.
Viés de Seleção
O viés de seleção decorre da possibilidade de que alguma variável não pertença realmente à população considerada ou de que haja uma escolha deliberada por este ou aquele respondente, sem levar em conta o critério previamente adotado.
A amostragem probabilística é isenta de viés, esse fato decorre da probabilidade igual de escolha para todos os membros da população.
Dados Estatísticos
Precisamos lidar com grande quantidade de valores numéricos resultantes de um Censo ou de uma estimação.
Estes valores são chamados de dados estatísticos.
A estatística ensina métodos racionais para a obtenção de informações a respeito de um fenômeno coletivo, obter conclusões válidas e permite a tomada de decisão através dos dados estatísticos observados.
Desta forma a estatística pode ser dividida em duas áreas
Estatística Descritiva – é a parte da estatística que tem por objetivo descrever os dados observados.
Estatística Indutiva – é a parte da estatística que tem por objetivo obter e generalizar conclusões para a população a partir de uma amostra, através do cálculo de probabilidade.
O cálculo de probabilidade é que viabiliza a inferência estatística.
Estatística descritiva
A estatística descritiva, na sua função de descrição de dados, tem as seguintes atribuições:
A obtenção dos dados estatísticos;
A organização dos dados;
A redução dos dados;
A representação dos dados;
A obtenção de algumas informações que auxiliam a descrição do fenômeno observado.
Dados Brutos
Quando fazemos n observações diretas em um fenômeno coletivo ou observamos as respostas a uma pergunta em uma coleção de n questionários, obtemos uma seqüência de n valores numéricos.
Tal seqüência é denominada dados brutos.
Dados brutos é uma seqüência de valores numéricos não organizados, obtidos diretamente da observação de um fenômeno coletivo.
ROL
Quando ordenamos na forma crescente ou decrescente, os dados brutos passam a se chamar Rol.
Rol é uma seqüência ordenada dos dados brutos.
Apresentação de dados estatísticos
Podemos ter poucos dados
Podemos ter uma grande quantidade de dados
Ex: as notas de 30 alunos:
X: 3,5;5;4,5;4;4,5;5;3,5;4;4;5;
2;3;4,5;3,5;4;4,5;3;4;3;4;
3,5;3,5;3,5;4;4;3;4;4;5;3.
freqüência simples é o número de vezes que um elemento figura no conjunto de dados.
Então podemos reduzir o número de elementos com os quais devemos trabalhar.
Para isso organiza-se o conjunto de dados na forma de uma série estatística chamada variável discreta.
Distribuição de Freqüência – Variável Discreta
É uma representação tabular de um conjunto de valores em que colocamos na primeira coluna em ordem crescente apenas os valores distintos da série e na segunda coluna colocamos os valores das
freqüências simples correspondentes.
Distribuição de Freqüência
Xi
fi
2
1
3
5
3,5
6
4
10
4,5
4
5
4
Distribuição de Freqüência – Variável Contínua
Notas de 30 alunos:
X: 3;4;2,5;4;4,5;6;5;5,5;6,5;7;
7,5;2;3,5;5;5,5;8;8,5;7,5;9;9,5;
5;5,5;4,5;4;7,5;6,5;5;6;6,5;6.
O que observamos?
Um grande número de valores distintos, o que significa que neste caso a variável discreta não é aconselhável na redução de dados.
Nesta situação é conveniente agrupar os dados por faixas de valores, ficando a série com a seguinte apresentação:
Classe
Notas
fi
1
2| 4
4
2
4| 6
12
3
6|8
10
4
8|10
4
Amplitude total de uma seqüência
É a diferença entre o maior e o menor elemento de uma seqüência.
Representando a amplitude total por At , o maior elemento da seqüência X por Xmax e o menor elemento por Xmin, a amplitude será denotada por:
At= Xmax - Xmin
No exemplo anterior dado, Xmax= 9,5 e Xmin= 2, portanto:
At= 9,5 - 2 = 7,5
A amplitude total representa o cumprimento total da seqüência e é dada na mesma unidade de medida dos dados da seqüência.
Intervalo de classe
É qualquer subdivisão da amplitude total de uma série estatística.
No exemplo subdividimos a amplitude total em quatro classes, obtendo os intervalos de classes 2| 4, 4| 6, 6| 8, 8| 10.
Obs. A amplitude total (At) é 7,5 no entanto trabalhamos com a amplitude ajustada para 8.
(será explicado adiante)
Limite de classe
Cada intervalo de classe fica caracterizado por dois números reais. O menor valor é chamado limite inferior da classe e será indicado por I. O maior valor é chamado limite superior da classe e será indicado por L.
Por exemplo, na classe 2| 4,
I= 2 e L= 4
Amplitude do intervalo de classe
É a diferença entre o limite superior e o limite inferior da classe. Se usarmos h para representar a amplitude do intervalo de classe podemos estabelecer:
h = L - I
Observações
Note que usamos para representar as classes, intervalos reais semi-abertos à direita. Isto significa que o intervalo contém o limite inferior, mas não contém o limite superior, ou seja, o intervalo de classe 2| 4 contém os valores reais maiores ou iguais a 2 e menores que 4.
Observações
Desta forma, o último intervalo da série é 8| 10 não contém o valor 10. É por isso que não foi utilizado a amplitude 7,5, pois se isso fosse feito, o limite superior da última classe seria 9,5 e como o limite superior não deve pertencer à classe, o elemento 9,5 da seqüência estatística original ficaria sem classificação.
Outro critérios podem ser adotados.
Número de classes
Pode depender do tipo de problema e o que se pretende responder.
Critério da raiz: Se a sequência estatística contém n elementos e indicarmos por K o número de classes a ser utilizado, então por esse critério teremos:
Como o número K de classes deve ser necessariamente um número inteiro e como dificilmente , é um número inteiro, deixaremos como opção para o valor de K o valor inteiro mais próximo de .
No exemplo, n=30 e conseqüentemente que é = 5,4777, portanto o valor inteiro mais próximo de é 5. As opções para K então são: 4 ou 5 ou 6.
A amplitude do intervalo de classe que designamos por h é determinada da seguinte forma:
E portanto
Observe que a opção por quatro classes foi feita em função de um valor de h mais fácil de operar.
Conhecendo-se o valor Xmin = 2 e a amplitude de classe h = 2, concluímos que o limite superior da primeira classe é 4. Portanto, a primeira classe é o intervalo 2| 4. O limite inferior da segunda classe é 4. Somando-se a amplitude de classe obteremos 6. Portanto a segunda classe é 4| 6. A terceira classe por analogia é 6| 8 e a quarta classe é 8| 10.
Frequência simples de uma classe fi
Número de elementos da sequência que são maiores ou iguais ao limite inferior desta classe e menores que o limite superior desta classe.
No exemplo, a frequência simples da primeira classe é o número de elementos da sequência que são maiores ou iguais a 2 e menores que 4.
São os valores: 3;2,5;2 e 3,5.
Portanto a frequência simples da primeira classe é 4.
Exercício
Um teste para aferir o Quociente de Inteligência em determinada classe de alunos de uma faculdade deu origem a sequência de valores:
X:
111
90
121
105
122
61
128
112
128
93
108
138
88
110
112
112
97
128
102
125
87
119
104
116
96
114
107
113
80
113
123
95
115
70
115
101
114
127
92
103
78
118
100
115
116
98
119
72
125
109
79
139
75
109
123
124
108
125
116
83
94
106
117
82
122
99
124
84
91
130
= 8,37 (7 ou 8 ou 9)
Xmax = 139
Xmin = 61
At = 139-61 = 78
At = 140-61 = 79
At = 141-61 = 80
At = 140-60 = 80
Classe
Intervalo de classe
fi
1
60|70
1
2
70| 80
5
3
80| 90
6
4
90|100
10
5
100| 110
12
6
110| 120
19
7
120| 130
14
8
130| 140
3
Obtendo informações
Frequência Relativa de um elemento da série - fr
É a divisão simples deste elemento pelo número total de elementos da série.
Exemplo: Considere a variável discreta
Xi
fi
2
3
3
7
4
8
6
6
7
1
O total de elementos desta série é 25. Portanto, a frequência relativa do primeiro elemento distinto da série, que é 2, vale:
A frequência relativa do segundo elemento distinto, que é 3, vale:
E as demais frequências ....
Note que estes valores representam a participação percentual de cada elemento distinto na série. Assim, podemos fazer a interpretação:
12% dos valores da série são iguais a 2; 28% dos valores da série são iguais a 3; 32% dos valores da série são iguais a 4; 24% dos valores da série são iguais a 6; e 4% dos valores da série são iguais a 7.
Frequência acumulada de um elemento da série Fi
É a soma da frequência simples deste elemento com as frequências simples dos elementos que o antecedem.
Fi =f1+f2+...+fi
Desta forma, a frequência acumulada para os elementos 2,3,4,6 e 7 valem respectivamente:
F1 = f1 = 3
F2 = f1+ f2 = 3+7 = 10
F3 = f1+ f2 +f3 = 3+7+8 = 18
F4 = f1+ f2 +f3 +f4 = 3+7+8+6 = 24 , e
F5 = f1+ f2 +f3 +f4 + f5 = 3+7+8+6+1 = 25
Como estes valores são interpretados?
Interpretação:
3 elementos componentes da série são valores menores ou iguais a 2.
10 elementos componentes da série são valores menores ou iguais a 3.
18 elementos componentes da série são valores menores ou iguais a 4.
24 elementos componentes da série são valores menores ou iguais a 6.
25 elementos componentes da série são valores menores ou iguais a 7.
Frequência acumulada relativa de um elemento da série - FRi
É a divisão da frequência acumulada deste elemento, pelo número total d elementos da série:

Assim, a frequência acumulada relativa dos elementos 2,3,4,6 e 7 valem respectivamente:
Estes valores podem ser interpretados da seguinte forma:
12% dos valores da série são menores ou iguais a 2.
40% dos valores da série são menores ou iguais a 3.
72% dos valores da série são menores ou iguais a 4.
96% dos valores da série são menores ou iguais a 6.
100% dos valores da série são menores ou iguais a 7.
Quando acrescentamos estes valores à tabela original, esta passa a se chamar distribuição de frequências. Para o exemplo estabelecido, a distribuição de frequências é:
Xi
fi
fri%
Fi
FRi%
2
3
12
3
12
3
7
28
10
40
4
8
32
18
72
6
6
24
24
96
7
1
4
25
100
Distribuição de frequência – Variável Contínua
No caso da variável contínua, pelo fato de termos utilizado intervalos de classe, semi-abertos à direita, as interpretações são diferentes.
Frequência Relativa de uma classe –fri
É a divisão da frequência simples desta classe pelo número total de elementos da série.
Exemplo:
Distribuição de frequência.
O total de elementos desta série é 40.
Classe
Int. classe
fi
1
2| 4
6
2
4| 6
18
3
6| 8
10
4
8| 10
6
A frequência relativa de cada classe é:
Observe que estes valores representam a participação percentual dos elementos por classe. A interpretação para estes valores é:
15% dos valores da série são maiores ou iguais a 2 e menores que 4.
45% dos valores da série são maiores ou iguais a 4 e menores que 6.
25% dos valores da série são maiores ou iguais a 6 e menores que 8.
15% dos valores da série são maiores ou iguais a 8 e menores que 10.
Frequência Acumulada de uma classe -Fi
É a soma da frequência simples desta classe com as frequências simples das classes anteriores.
Fi =f1+f2+...+fi
Desta forma, as frequências acumuladas para estas classes são:
F1 = f1 = 6
F2 = f1+ f2 = 6+18 = 24
F3 = f1+ f2 +f3 = 6+18+10 = 34
F4 = f1+ f2 +f3 +f4 = 6+18+10+6 = 40
Interpretação:
6 elementos da série são valores menores que 4.
24 elementos da série são valores menores que 6.
34 elementos da série são valores menores que 8.
40 elementos da série são valores menores que 10.
Frequência Acumulada relativa de uma classe - FRi
É a divisão da frequência acumulada desta classe pelo número total de elementos da série:
Deste modo, a frequência acumulada relativa para cada classe é:
Interpretação
15% dos valores da série são menores que 4.
60% dos valores da série são menores que 6.
85% dos valores da série são menores que 8.
100% dos valores da série são menores que 10.
Quando acrescentamos estes valores à tabela original, esta passa a se chamar distribuição de frequências. Para o exemplo estabelecido, a distribuição de frequências é:
Classe
Int. classe
fi
fri%
Fi
Fri%
1
2| 4
6
15
6
15
2
4| 6
18
45
24
60
3
6| 8
10
25
34
85
4
8| 10
6
15
40
100
Medidas de Tendência Central
No estudo de uma série estatística é conveniente o cálculo de algumas medidas que a caracterizam.
Estas medidas, quando bem interpretadas, podem fornecer-nos informações muito valiosas a respeito da série estatística.
Em suma, podemos reduzi-la a alguns valores, cuja interpretação fornece-nos uma compreensão bastante precisa da série.
Um desses valores é a medida de tendência Central.
É um valor intermediário da série, ou seja, um valor compreendido entre o menor e o maior valor da série. É também um valor em torno do qual os elementos da série estão distribuídos e a posiciona em relação ao eixo horizontal.
Em resumo, a medida de tendência central procura estabelecer um número no eixo principal em torno do qual a série se concentra.
As principais medidas de tendência central são: média, mediana e moda.
Somatório – Notação (∑)
Quando queremos representar uma soma de n valores do tipo x1+x2+....+xn , podemos codificá-la através da expressão:
Onde:
∑ - é utilizada para representar as operações de adição entre as parcelas.
Xi - é a parcela genérica.
A parcela genérica é obtida tomando-se os termos constantes em todas as parcelas, no caso “x”. Para representar a parte variável em cada parcela, no caso os índices, utilizamos a letra “i” e indicamos a variação de “i”.
No exemplo “i” varia, segundo números inteiros consecutivos de 1 até n.
A expressão deve ser lida “soma dos valores xi, para i variando de 1 até n.
Médias
Média Aritmética Simples
Para uma sequência numérica X: x1,x2,....,xn, a média aritmética simples, que designaremos por é definida por:
Exemplo:
Se X:2,0,5,3 então
Exemplo
Calcule a média da variável X:3,5,8,12,7,12,15,18,20,20
Solução
Interpretação: O valor médio desta série é 12, ou seja, os valores desta série concentram-se em torno do valor 12.
Média Aritmética Ponderada
Para uma sequência numérica X: x1,x2,...,xn afetados de pesos p1,p2,...,pn, respectivamente, a média ponderada, que designaremos por , é definida por:

Exemplo: Se X: 2,4,5, com pesos 1,3,2 respectivamente, então:
Variável Discreta
Se os dados estão apresentados na forma de uma variável discreta, utilizaremos a média aritmética ponderada, considerando as frequências simples fi como sendo as ponderações dos elementos xi correspondentes.
A fórmula de cálculo de que originalmente era . passa a ser escrita como:
Exemplo
Determinar a média da distribuição:
xi
fi
2
1
5
4
6
3
8
2
Solução: Inicialmente devemos somar a coluna de frequências simples para obter o número total de elementos da série: ∑fi = 10 elementos.
Em seguida, utilizamos a própria disposição da tabela para efetuar os produtos xi fi, acrescentando estes valores dispostos em uma nova coluna.
Em seguida somamos os valores desta coluna.
∑ fi=10 ∑xifi=56
Na sequência distribuímos estes valores na expressão obtendo:
xi
fi
xifi
2
1
2
5
4
20
6
3
18
8
2
16
Interpretação
O valor médio da série é 5,6, isto é, 5,6 é o ponto de concentração dos valores da série.
Variável Contínua
Se os dados estão apresentados na forma de uma variável contínua, utilizaremos a média aritmética ponderada, considerando as frequências simples das classes como sendo as ponderações dos pontos médios destas classes.
O ponto médio, de cada classe é definido por:
Exemplo
Determinar a média da distribuição:
Classe
Int.cl.
fi
1
2| 5
1
2
5| 8
10
3
8| 11
8
4
11| 14
1
Solução
Inicialmente, devemos somar a coluna das frequências simples, obtendo ∑fi=20.
Na sequência, calculamos os pontos médios de classes: o ponto médio da primeira classe é (2+5)/2 = 3,5; o ponto médio da segunda classe é (5+8)/2 = 6,5; o ponto médio da terceira classe é (8+11)/2 = 9,5 e o ponto médio da quarta classe é (11+14)/2 = 12,5.
Estes valores serão dispostos em uma nova coluna na tabela e usaremos a própria tabela para sequência de cálculos.
Classe
Int. cl.
fi
xi
xifi
1
2| 5
1
3,5
3,5
2
5| 8
10
6,5
65
3
8| 11
8
9,5
76
4
11| 14
1
12,5
12,5
Portanto,
Interpretação: O valor médio desta série é 7,85, isto é, 7,85 é o valor em torno do qual os elementos desta série se concentram.
Comentário
Quando agrupamos os dados na disposição de uma variável contínua, passamos a trabalhar com os dados sem conhecimento de seus valores individuais.
Note no exemplo, que o máximo que podemos afirmar com respeito ao menor valor desta série é que ele é um valor maior o igual a 2 e menor que 5. Mas não conhecemos seu valor individualizado.
Este fato é que nos leva a substituir as classes pelos seus pontos médios ao calcular a média da série.