Buscar

C01_MAT013_EX_002

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1 Introdução à Estatística
A palavra estatística é derivada da palavra latina status que significa
estado. Os primeiros usos da estatística envolviam compilação de dados e
gráficos que descreviam vários aspectos de um estado ou país.
Em 1662, John Graunt publicou informações estatísticas sobre nascimen-
tos e mortes. Seu trabalho foi seguido por estudos sobre taxas de mortalidade
e doenças, tamanhos de populações, rendas e taxas de desemprego.
As famílias, governos e empresas se apóiam fortemente nos dados esta-
tísticos para orientação. Por exemplo: taxas de desemprego, de inflação,
índices do consumidor, etc.
1.1 Visão Geral
O objetivo comum de estudos em estatística é coletar dados de uma
pequena parte de um grupo maior, de modo a aprendermos alguma coisa
sobre esse grupo maior.
OBJETIVO PRINCIPAL: aprender sobre um grupo grande através do exame
de dados de alguns de seus membros. É a partir disso que entram algumas
definições importantes como população e amostra.
OBS: Porque existe a estatística? Por causa da variabilidade, o que possi-
bilita a estimativa do erro.
1.1.1 Definições Importantes
ESTATÍSTICA: é um conjunto de métodos para o planejamento, coleta,
organização, análise e interpretação de dados. E por consequência a elabo-
ração de conclusões baseadas nesses dados.
POPULAÇÃO: é o conjunto de elementos com pelo menos uma característica
comum. Essa(s) característica(s) comum deve delimitar inequivocadamente
quais elementos pertencem à população e quais não pertencem.
AMOSTRA: é um subconjunto de uma população. É necessariamente finita,
pois todos os seus elementos serão examinados para o estudo estatístico.
CENSO: é o conjunto de dados obtidos de todos os membros da população.
1
VARIÁVEL: característica pela qual deseja-se que a população seja descrita.
Essa característica pode assumir diferentes valores de elemento para elemen-
tos. A variável é sempre a característica de interesse que será estudada
estatisticamente.
DADO: é o valor que assume a variável para um elemento em particular.
PARÂMETRO: é uma medida numérica que descreve alguma característica
da população. Ex: µ (média).
ESTIMATIVA DE PARÂMETRO: é uma medida numérica que descreve
alguma característica da amostra de uma população. Ex: X¯ (média).
1.2 Tipos de Variáveis
É necessário e importante sabermos que tipo de dados vamos estudar,
pois o tratamento estatístico é diferente para cada tipo de variável. As
variáveis podem ser qualitativas ou quantitativas, sendo que as qualitativas se
dividem em nominais e ordinais, e as quantitativas em discretas e contínuas.
• VARIÁVEIS QUALITATIVAS: são aquelas que correspondem a tribu-
tos ou categorias e podem ser:
NOMINAIS: quando não é possível ordenar a variável. Ex: sexo, cores, tipo
sanguíneo, etc.
ORDINAIS: quando é possível ordenar a variável. Ex: classe social (baixa,
média e alta), nível de conhecimento em inglês (básico, intermediário e avan-
çado), etc.
• VARIÁVEIS QUANTITATIVAS: são aquelas que correspondem a nú-
meros resultantes de contagens ou medidas e podem ser:
DISCRETAS: são variáveis que podem assumir apenas um número finito ou
infinito contável de valores e, assim, somente fazem sentido valores inteiros.
Geralmente são o resultado de contagens. Ex: número de defeitos em uma
peça, número de carros que passam em determinada rua.
CONTÍNUAS: são variáveis que assumem valores em uma escala contínua
(na reta real), para as quais valores fracionais fazem sentido. Usualmente
devem ser medidas através de algum instrumento. Ex: peso (balança), altura
(régua), tempo (relógio), idade.
2
NOTAÇÃO UTILIZADA:
• tamanho da população = no de elementos da população : N;
• tamanho da amostra = no de elementos da amostra : n;
• variáveis são representadas por letras maiúsculas: X, Y, Z, etc. (geral-
mente as últimas do alfabeto). Ex: X representa o peso dos alunos do
curso de ADM;
• realizações de variáveis são representadas por letras minúsculas: x, y,
z, etc. Ex: x=58 kg representa o peso de um dos alunos do curso de
ADM.
2 Organização e Apresentação de Dados
Existem várias formas para organização e apresentação de dados e elas
podem variar de acordo com o tipo de variável. A seguir serão apresentadas
as formas mais usuais.
2.1 Organização e Apresentação de Dados Qualitativos
2.1.1 Representação Tabular
Exemplo: Suponha que precisamos avaliar possíveis defeitos em 50 má-
quinas. A classificação de defeitos é feita da seguinte forma:
Classificação do Defeito Procedimento
I conserto imediato
II conserto com especialista da própria indústria
III conserto com especialista tercerizado
Os dados obtidos pelo avaliador foram:
máquina 1 : I
máquina 2: III
...
máquina 50: I
A forma de tabular mais simples seria fazer a contagem de máquinas com
o respectivo defeito:
3
Tipo de Defeito Número de Máquinas
I 23
II 17
III 10
TOTAL 50
2.1.2 Representação Gráfica
• Gráfico de colunas:
• Gráfico de setores:
4
2.2 Organização e Apresentação de Dados Quantitativos
2.2.1 Representação Tabular: Distribuição de Frequências
Na distribuição de frequências os dados são agrupados em classes de
valores. Sendo assim é necessário definirmos o número de classes e os limites
para cada classe.
Exemplo: A tabela a seguir apresenta o peso de cada uma das peças de
um lote da empresa Pegasus, contendo 20 unidades:
14,2 14,4 15,8 16,2
16,2 18,4 18,4 19,2
20,6 20,6 20,6 20,8
21,4 21,8 22 22,2
23,4 25,2 26,6 27,0
• Determinar o número de classes (k): pode-se adotar os seguintes
critérios:
Tamanho da amostra (n) Número de classes (k)
Até 100
√
n (inteiro mais próximo)
Acima de 100 5 log10 n (inteiro mais próximo)
- - - - - - - - familiaridade do pesquisador com os dados
No exemplo: k =
√
n =
√
20 = 4,472 ∼= 5
• Determinar a amplitude das classes (c): é a diferença entre os
limites superiores e inferiores de cada classe:
c =
A
k − 1
sendo:
A = amplitude total = maior observação - menor observação.
No exemplo:
c =
27,0− 14,2
5− 1 = 3,2
• Determinar limite inferior da primeira classe (LI1):
5
LI1 = menor obs. − c
2
No exemplo:
LI1 = 14,2− 3,2
2
= 12,6
• Determinar os demais limites:
LS = limite superior
LS1 = LI1 + c
LI2 = LS1
LS2 = LI2 + c
Sendo assim, as classes são as seguintes:
Classes
[12,6; 15,8)
[15,8; 19,0)
[19,0; 22,2)
[22,2; 25,4)
[24,5; 28,6)
• Determinar o ponto médio da classe (Xi), frequência absoluta
(Fi), frequência relativa (Fri) e frequência percentual(Fpi):
Fi = número de observações contidas na classe "i",
Xi =
LSi + LIi
2
, Fri =
Fi
n
, Fpi = Fri × 100%.
• Determinar frequência acumulada (FAi), frequência acumu-
lada relativa (FAri) e frequência acumulada percentual (FApi):
FA1 = F1, FAi = FAi−1 + Fi, FAri =
FAi
n
, FApi = FAri × 100%.
6
Peso das peças (clases) Xi Fi Fri Fpi FAi FAri FApi
[12,6; 15,8) 14,2 2 0,10 10% 2 0,10 10%
[15,8; 19,0) 17,4 5 0,25 25% 7 0,35 35%
[19,0; 22,2) 20,6 8 0,40 40% 15 0,75 75%
[22,2; 25,4) 23,8 3 0,15 15% 18 0,90 90%
[25,4; 28,6) 27,0 2 0,1 10% 20 1,00 100%
Total 20 1,00 100%
2.2.2 Representação Gráfica: Histograma e Polígono de Frequên-
cia
• Histograma: é um gráfico formado por retângulos cuja as bases são
proporcionais às amplitudes das classes e as alturas são proporcionais
às frequências das classes. Pode- se usar Fi, Fri e Fpi.
• Polígono de Frequência: gráfico onde os pontos médios das clas-
ses, no topo dos retângulos do histograma, são unidos por linhas. O
polígono começa meia amplitude de classe (c/2) antes e termina meia
amplitude de classe depois.
OBS: A partir desses gráficos é que se originam as distribuições de proba-
bilidade que são muito importantes dentro da estatística.
Os polígonos de frequência podem ser classificados de acordo com o seu
formato: simétrico, assimétricoà esquerda e assimétrico à direita.
7
3 Medidas de Posição ou de Tendência Central e
Medidas de Dispersão ou de Variabilidade
3.1 Medidas de Posição ou de Tendência Central
São medidas que procuram sintetizar as informações, contidas nos dados
ou observações, em um único e informativo valor. Exemplo: média, moda e
mediana. Essas medidas têm a tendência de se posicionar no centro das dis-
tribuições. Observe que na tabela de distribuição de frequências, histograma
e polígono de frequência, os dados geralmente tem maior concentração no
centro e poucos valores se afastam dele. Daí o nome de medidas de tendên-
cia central.
3.1.1 Média Aritmética
É a medida de tendência central mais comum para um conjunto de dados.
A média de uma amostra com n observações (x1, x2, . . . , xn), é representada
pelo símbolo x¯, e é calculada da seguinte forma:
8
Para dados não agrupados em classes:
x¯ =
n∑
i=1
xi
n
Para dados agrupados em classes:
x¯ =
k∑
i=1
XiFi
n
onde Xi é o ponto médio da classe, Fi é a frequência absoluta, k é o número
de classes e n o tamanho da amostra.
No exemplo anterior, para os dados não agrupados em classes temos:
x¯ =
20∑
i=1
xi
20
= 20,25kg.
Para os dados agrupados nas classes:
x¯ =
5∑
i=1
XiFi
20
=
(14,2× 2) + (17,4× 5) + · · ·+ (27,0× 2)
20
= 20,28kg.
OBS: A média para os dados não agrupados foi obtida usando os verdadeiros
dados, já para os dados agrupados foi utilizado o ponto médio da classe. Isso
faz com que existe diferença entre esses valores, pois para os dados agrupados
existe um erro devido a perda de informações, porém esse erro é mínimo e
considerado desprezível.
3.1.2 Mediana
É um valor central que, colocando os dados em ordem crescente, divide
a amostra em duas partes iguais, ou seja, 50% das observações estão abaixo
desse valor e 50% estão acima do valor da mediana. O cálculo da mediana
vai depender do número de elementos da amostra, se é par ou ímpar e o
símbolo que a representa é md.
9
Para dados não agrupados:
n par:
md =
x(n
2
) + x(n+2
2
)
2
;
n ímpar:
md = x(n+1
2
).
Para dados agrupados:
md = LImd +
[ n
2 − FAa
Fmd
]
× cmd ,
sendo LImd o limite inferior da classe mediana, Fmd é a frequência absoluta
da classe mediana, FAa é a frequência acumulada das classes anteriores à
classe mediana e cmd é a amplitude da classe mediana. A classe mediana é
a classe que contém a observação xn/2, se n for par e xn+1/2 se n for ímpar.
Para o nosso exemplo: n = 20 é par. Então:
Dados não agrupados:
md =
x 20
2
+ x 20+1
2
2
=
x(10) + x(11)
2
=
20,6 + 20,6
2
= 20,6kg
Dados agrupados:
Classe mediana: x(20/2)=x(10) = 3a classe
md = 19,0
20
2 − 7
8
× 3,2 = 20,2kg.
3.1.3 Moda
É o valor que ocorre com maior frequência. Um conjunto de dados pode
ter mais de uma ou não ter moda.
Para dados não agrupados: os dados precisam ser ordenados e usa-se
apenas a definição para encontrá-la
10
Para dados agrupados:
mo = LImo +
[
∆1
∆1 + ∆2
]
× cmo ,
sendo, LImo o limite inferior da classe modal, ∆1 a diferença entre a frequên-
cia absoluta da classe modal e a classe anterior, ∆2 a diferença entre a
frequência absoluta da classe modal e a classe posterior e cmo a amplitude
da classe modal. A classe modal é a classe que apresenta a maior frequência.
No nosso exemplo, com os dados não agrupados, a mo = 20,6 kg. Para
os dados agrupados: a classe modal é a 3a classe: Fi = 8, logo:
mo = 19,0 +
[
(8− 5)
(8− 5) + (8− 3)
]
× 3,2 = 20,2kg.
3.1.4 Propriedades Comuns da Média, Moda e Mediana
Sejam x¯, mo e mmd , a média, moda e mediana, respectivamente, de n
observações e seja w uma constante qualquer:
1) Se em cada observação for acrescentado ou subtraído um valor w, e re-
calcularmos a média, moda e mediana, os novos valores serão:
x¯∗ = x¯± w;
m∗d = md ± w;
m∗o = mo ± w.
2) Se cada observação for multiplicada por um valor w, e recalcularmos a
média, moda e mediana, os novos valores serão:
x¯∗ = x¯× w;
m∗d = md × w;
m∗o = mo × w.
NOTAÇÃO: amostras =⇒ x¯, mo e md. População =⇒ µ, Mo e Md.
11
3.2 Medidas de Dispersão ou de Variabilidade
Para que as observações de uma amostra ou uma população sejam bem
representadas, deve-se calcular uma medida de posição e uma de medida de
dispersão. Assim, teremos informações sobre o centro dessa distribuição e o
quanto os dados se afastam desse centro.
3.2.1 Amplitude Total
É uma medida de dispersão dada pela diferença entre o maior e o menor
valor do conjunto de observações.
A = xmax − xmin
A utilização da amplitude total como medida de dispersão é limitada,
pois, sendo uma medida que depende apenas dos valores extremos, não capta
possíveis variações entre esses limites.
3.2.2 Variância
São medidas numéricas que indicam quanto os dados estão dispersos, ou
afastados, da média. Essas medidas analisam os desvios de cada valor em
relação à média. Se esses desvios forem altos, teremos elevada dispersão, se
forem baixos, teremos pouca dispersão. Veja exemplo a seguir:
Amostra A Amostra B
2 1
4 1
6 10
x¯ = 4 x¯ = 4
É fácil constatar que a soma dos desvios em torno da média é zero,∑
di = 0. Sendo assim, para o cálculo da variância é necessário utilizar o
quadrado desses desvios. A variância é representada pelo símbolo S2, e é
calculada, em dados não agrupados, por:
S2 =
n∑
i=1
d2i
n− 1 =
n∑
i=1
(xi − x¯)2
n− 1
Para dados agrupados:
12
S2 =
n∑
i=1
d2iFi
n− 1 =
n∑
i=1
(xi − x¯)2Fi
n− 1
Desenvolvendo o quadrado das diferenças e somando os termos comuns,
encontram-se as seguintes fórmulas práticas para o cálculo da variância:
S2 =
1
n− 1

n∑
i=1
x2i −
(
n∑
i=1
xi
)2
n
 ou S2 =
1
n− 1

n∑
i=1
x2iFi −
(
n∑
i=1
xiFi
)2
n
 .
Variância para a população:
σ2 =
1
N

n∑
i=1
x2i −
(
n∑
i=1
xi
)2
N
 ou σ2 =
1
N

n∑
i=1
x2iFi −
(
n∑
i=1
xiFi
)2
N
 .
OBS: o cálculo da variância é obtido pela soma dos quadrados dos desvios
em relação à média, assim a variância deve ser expressa com sua unidade ao
quadrado. Ex.: dados: em kg =⇒ S2 em kg2.
A variância e o desvio padrão permitem a comparação de variabilidades
de conjuntos numéricos apenas se as médias e as unidades forem as mesmas
em ambos os conjuntos.
3.2.3 Desvio Padrão
Para uma melhor interpretação da variância, que possui unidade ao qua-
drado, calcula-se a sua raiz quadrada e obtém-se o desvio padrão com a
mesma unidade dos dados originais.
S =
√
S2
Existem algumas regras empíricas para a interpretação do desvio padrão.
Para qualquer distribuição amostral com média x¯ e desvio padrão S, há:
13
• O intervalo x¯ ± S contém entre 60% e 80% de todas as observações
amostrais. A porcentagem aproxima-se de 70% para distribuições apro-
ximadamente simétricas, chegando a 90% para distribuições fortemente
assimétricas.
• O intervalo x¯ ± 2S contém aproximadamente 95% das observações
amostrais para distribuições simétricas e aproximadamente 100% para
distribuições com assimetria elevada.
• O intervalo x¯ ± 3S contém aproximadamente 100% das observações
amostrais, para distribuições simétricas.
3.2.4 Propriedades da Variância e Desvio Padrão
1) Soando ou subtraindo uma constante w em cada observação, a variância
e o desvio padrão não se alteram.
2) Multiplicando cada observação por uma constante w, a variância ficará
multiplicada por w2 e o desvio padrão por w.
3.2.5 Coeficiente de Variação de Pearson
É uma medida relativa de dispersão. Enquanto a amplitude total, va-
riância e o desvio padrão são medidas absolutas de dispersão, o coeficiente
devariação mede a dispersão em relação a média. Assim:CV =
S
x¯
× 100.
Também existem algumas regras empíricas para interpretações do coefi-
ciente de variação de Pearson:
Se: CV < 15% −→ há baixa dispersão
Se: 15% ≤ CV < 30% −→ há média dispersão
Se: CV ≥ 30% −→ há elevada dispersão.
3.2.6 Erro Padrão da Média
Para definir o erro padrão da média suponha que amostras aleatórias
de tamanho n são retiradas de uma população e que em cada amostra seja
estimada a média. Se for computado o desvio padrão da população formada
pelas estimativas das médias obtidas, o valor encontrado é conhecido como
erro padrão da média.
14
O estimador amostral desse parâmetro é dado pela razão entre o desvio
padrão amostral e a raiz quadrada do tamanho da amostra:
Sx¯ =
S√
n
O erro padrão da média é uma medida da dispersão das médias amostrais
em torno da média da população.
3.2.7 Quartil, Decil e Percentil
15

Outros materiais