Buscar

1.Estatística descritiva

Prévia do material em texto

Estatística 
Profª. Drª. Iara R. A. P. Bresolin 
Iara.bresolin@gmail.com 
 
UNIVERSIDADE FEDERAL DE SÃO PAULO – 
UNIFESP 
Eng. Química 
Bibliografia básica 
DEVORE, JAY L. Probabilidade e Estatística: para 
Engenharia e Ciências. Editora Thomson Learning, 
2006. 
 
TRIOLA, M. F. Introdução à estatística. Editora LTC, 
2011. 
 
BUSSAB, W. O., MORETTIN, P. A. Estatística 
Básica: Métodos Quantitativos. Editora Atual, 2002. 
O que é estatística? 
 Estatística é a ciência que trata da coleta, da análise 
e da disposição de dados. 
 
 Portanto, a estatística é uma ferramenta fundamental 
no processo de solução de problemas. 
 
 Como coletar os dados 
 Como classificar os dados 
 Como analisar os dados 
 Como utilizar os resultados da análise 
 
 
 
 
 Indústria 
 
 
 
 
 
 
 
 Indústria 
 
 
 
 
 
 Peso de um produto; 
 Dimensões de um produto; 
 Propriedades físico-químicas de 
um produto; 
 Diferentes medidas de um 
processo etc. 
 
 
 
 
 
 
 
 Pesquisa científica 
 
 
 
 
 
 
 
 Pesquisa científica 
 Pesagem de reagentes; 
 Determinação das concentrações 
de reagentes; 
 Determinação das concentrações 
de produtos; 
 Medidas das propriedades do 
meio reacional etc. 
 Todas essas medidas apresentam VARIAÇÕES! 
 Todas essas medidas apresentam VARIAÇÕES! 
 A estatística fornece técnicas para avaliar estas “variações” 
Ramos da estatística 
1) Estatística Descritiva: Consiste em resumir e 
descrever as características principais de um 
conjunto de dados. 
 Via métodos gráficos 
 Via cálculo de medidas numéricas 
 
2) Estatística Inferencial: Usar informações de 
uma AMOSTRA para tirar conclusões (INFERIR) 
sobre toda POPULAÇÃO. 
 
População e amostra 
População: consiste em uma coleção de 
objetos bem definida. 
Quando são conhecidas as informações de 
todos os objetos (população). 
 
Amostra: consiste em um subconjunto de 
uma população. 
Quando são conhecidas as informações de 
um grupo dos objetos (amostra). 
Variável 
Toda característica que pode variar de elemento para 
elemento de uma dada população é uma variável. 
 
 Consideremos o gênero dos alunos da sala: 
Essa dado é uma variável! 
 
 Seja uma fábrica de parafusos: 
O diâmetro (d) de todos os parafusos produzidos em 
um determinado dia é uma variável! 
 
Variável numérica (quantitativa)  O diâmetro 
de todos os parafusos produzidos em um 
determinado dia. 
 
 Variável discreta: resultante de contagem 
 Variável contínua: resultante de uma medida 
 
Variável categorizada (qualitativa)  O gênero 
dos alunos do Campus. 
Variável discreta 
 Número de alunos aprovados na UC de 
Estatística; 
 Número de parafusos produzidos em um dia 
(não confundir com o diâmetro dos parafuso que é 
uma medida!); 
 Número de votos que um candidato recebeu; 
 Número de gols em uma partida de futebol. 
Variável contínua 
A medida do pH de uma dada solução 
 
1) Podemos calcular por titulação, medindo-se a 
quantidade (volume) do agente titulante adicionado. 
2,25 mL 
Volume titulante = 5,00 – 2,25 mL = 2,75 mL 
Mas, o volume pode ter sido: 2,7499 ou 2,7511 
Variável contínua 
 
2) Podemos medir o pH também com o auxílio de um pHmetro. 
Também nesse caso o pH real pode ser: 6,722; 6,725; 6,7233... 
 
ou seja, embora o volume de titulante ou o pH aqui só possa 
assumir valores definidos, tanto o volume como o pH são 
variáveis contínuas. 
Estatística descritiva 
 Baseadas em visualizações gráficas de um 
conjunto de dados. 
 
 Baseadas em cálculos numéricos de um 
conjunto de dados. 
 
Métodos gráficos: Dot Plot 
Sejam as temperaturas (ºC) de uma Cidade A medidas às 
12:00 h: 
 
T = 30; 25; 32; 34; 31; 29; 28; 30; 32; 34; 34; 32; 30; 26; 43. 
Gráfico Ramo e Folha 
Seja o conjunto do número de multas de trânsito notificadas 
em uma certa via da Cidade de Diadema, observadas durante 
16 dias: 
 
Dados observados brutos: 10; 15; 22; 9; 15; 16; 9; 24; 11; 
20; 22; 25; 40; 28; 30; 31 
 
Vamos organizá-los: (ordená-los em ordem crescente, por 
exemplo) 
 
Rol: 9; 9; 10; 11; 15; 15; 16; 20; 22; 22; 24; 25; 28; 30; 31; 40 
“RAMO” “FOLHA” 
 
 
 
Histogramas - variáveis discretas 
Seja o conjunto do número de defeitos em um dado produto. 
Consideremos a seguinte amostra de 40 observações: 
Frequência de um dado valor x = Nº de vezes que o valor ocorre 
Frequência relativa do valor x = Frequência de um dado valor x 
 Número total de observações 
Frequência relativa do valor (x = 5) = 6 = 0,15 
 40 
Frequência percentual do valor (x = 5) = 15% 
Obs: A soma das frequências relativas = 1 
Tabela de frequência 
Tabela de frequência 
Completar a tabela de frequência! 
Tabela de frequência 
Tabela de frequência 
Qual o percentual de produtos que apresentam 
no máximo 2 defeitos? 
Exercício 
Qual o percentual de produtos que apresentam 
no máximo 2 defeitos? 
 
 
Resposta = fr(0) + fr(1) + fr(2) = 0,225 ou 22,5% 
Exercício 
 Colete os “n” dados. 
 Os dados devem ser divididos em “Classes”. 
 O número de classes são usualmente entre 5 e 20. 
 O número de classes = número de dados (n) 
 Amplitude Total: At = Valor máximo – Valor mínimo 
Histogramas - variáveis contínuas 
Sejam os valores de pH de 50 amostras medidos 
pelos alunos numa aula de laboratório. 
2,6; 2,6; 2,8; 3,1; 4,0; 4,0; 4,0; 4,1; 4,2; 4,5; 
5,1; 5,1; 5,2; 5,2; 5,3; 5,3; 5,3; 5,8; 5,9; 6,0; 
6,0; 6,0; 6,0; 6,1; 6,1; 6,2; 6,2; 6,3; 6,4; 6,5; 
6,6; 6,8; 7,0; 7,0; 7,0; 7,0; 7,0; 7,1; 7,2; 7,2; 
7,2; 7,6; 7,7; 7,8; 7,9; 8,0; 8,6; 8,8; 8,9; 9,1. 
Número de classes =  50 = 7,07 = 7 
Largura da classe = Amplitude total_ 
 Número de classes 
= 9,1−2,6 = 0,928 ≈0,93 
 7 
Exemplo 
2,6; 2,6; 2,8; 3,1; 4,0; 
4,0; 4,0; 4,1; 4,2; 4,5; 
5,1; 5,1; 5,2; 5,2; 5,3; 
5,3; 5,3; 5,8; 5,9; 6,0; 
6,0; 6,0; 6,0; 6,1; 6,1; 
6,2; 6,2; 6,3; 6,4; 6,5; 
6,6; 6,8; 7,0; 7,0; 7,0; 
7,0; 7,0; 7,1; 7,2; 7,2; 
7,2; 7,6; 7,7; 7,8; 7,9; 
8,0; 8,6; 8,8; 8,9; 9,1. 
Tabela de frequência 
2,6; 2,6; 2,8; 3,1; 4,0; 
4,0; 4,0; 4,1; 4,2; 4,5; 
5,1; 5,1; 5,2; 5,2; 5,3; 
5,3; 5,3; 5,8; 5,9; 6,0; 
6,0; 6,0; 6,0; 6,1; 6,1; 
6,2; 6,2; 6,3; 6,4; 6,5; 
6,6; 6,8; 7,0; 7,0; 7,0; 
7,0; 7,0; 7,1; 7,2; 7,2; 
7,2; 7,6; 7,7; 7,8; 7,9; 
8,0; 8,6; 8,8; 8,9; 9,1. 
Tabela de frequência 
Completar a tabela de frequência! 
Tabela de frequência 
Comportamento dos Histogramas 
 
 
 
Uma série temporal é uma sequência de realizações 
(observações) de uma variável ao longo do tempo. 
 
O objetivo é identificar padrões não aleatórios da 
variável de interesse. 
0
5
10
15
20
25
30
35
40
45
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
nº
 de
 m
ult
as
Tempo (dias)
Gráfico da série temporal 
 
 
 
Cálculo de medidas numéricas: 
média amostral 
Notações: 
n = tamanho da amostra 
xi = i-ésima observação de uma dada variável “x” 
 
 
 
Sejam as temperaturas x (ºC) de uma cidade A, medidas 
às 12:00 h (horário local): 
 
Dados brutos 
x = 30; 25; 32; 34; 26; 29; 33; 25; 28; 34; 34; 27; 30; 26; 43 
Calcular a média! 
x = 
Média amostralMédia amostral 
Sejam as temperaturas x (ºC) de uma cidade A, medidas 
às 12:00 h (horário local): 
 
Dados brutos 
x = 30; 25; 32; 34; 26; 29; 33; 25; 28; 34; 34; 27; 30; 26; 43 
Calcular a média! 
x = 30,4 ºC 
Média amostral 
 
 
 
0 2 4 6 8 10 12 14 16
0
5
10
15
20
25
30
35
40
45
50
Observações 
T
e
m
p
e
ra
tu
ra
 (
ºC
) 
“outlier” 
 
 
 
Média populacional 
N = tamanho da população 
Em casos práticos, a média da população é 
inviável de ser calculada 
x Inferência  
Mediana 
Com os dados de uma amostra organizados em forma de ROL 
(na ordem crescente), a mediana amostral é representada 
pelo valor que divide o conjunto de dados em duas partes 
iguais. 
 
Considerando uma amostra com cinco observações dispostas 
em ordem crescente: 
 
 
x1 , x2 , x3 , x4 , x5 
mediana amostral 
Mediana 
Observação: No caso de amostras com um número par 
de observações, a mediana consistirá na média das 
duas observações centrais. 
 
 
 
 
 
A mediana, diferentemente da média, praticamente não 
sofre efeitos pela presença de outlires, quer sejam 
valores muito baixos ou muito altos. 
 
x1 , x2 , x3 , x4 , x5 , x6 x3 + x4 
2 mediana amostral 
Sejam as temperaturas x (ºC) de uma cidade A, medidas às 
12:00 h (horário local): 
 
Dados brutos 
x = 30; 25; 32; 34; 26; 29; 33; 25; 28; 34; 34; 27; 30; 26; 43 
 
Rol: 
x = 25; 25; 26; 26; 27; 28; 29; 30; 30; 32; 33; 34; 34; 34; 43 
 
x = 30,4ºC x = 30,0 ºC outlier 
Mediana 
 
Supondo que o valor de 43ºC seja agora 80ºC (um outlier 
maior). 
 
Rol: 
x = 25; 25; 26; 26; 27; 28; 29; 30; 30; 32; 33; 34; 34; 34; 80 
 
x = 32,9ºC x = 30,0 ºC outlier 
Mediana 
 
Desvio entre a média e a mediana de uma população 
Considerando as seguintes distribuições populacionais: 
Analogamente à mediana, divide um conjunto de dados, 
organizados em ordem crescente, em subdivisões mais 
detalhadas. 
 
Seja uma amostra contendo 100 observações: 
 
 
 
Percentis 
x1 , x2 , x3 , x4 , …, x98 , x99 , x100 
 98o percentil 
Separa os 2% superiores dos restantes 
Média aparada 
A média aparada consiste no cálculo da média de um 
conjunto de dados, organizados em forma crescente, 
eliminando-se iguais quantidades de dados dos dois 
extremos. 
Consiste em uma medida de localização que apresenta as 
características da média e da mediana. 
 
Seja uma amostra contendo 100 observações: 
 
 
 
 
x1 , x2 , x3 , x4 , …, x98 , x99 , x100 
A média aparada de 2% resulta em: 
x3 + x4 + … + x98 
96 
x = 
(2) 
Medidas de dispersão 
A soma dos desvios pode refletir o grau da dispersão: 
 
 
 
 
 Zero?? Mas a dispersão existe! 
 
Então, a soma dos quadrados dos desvios é: 
Variância e desvio padrão 
Desvio padrão, bem como a variância, são medidas de 
dispersão. Elas medem o quanto cada elemento de uma 
distribuição se desviou de um valor central. No caso, este 
valor central é a média. 
 
Variância amostral (S2) 
 
 
 Unidade de S2 unidade da média2 
 
Desvio padrão amostral (S) 
 
 
 Unidade de S unidade da média 
 
 
Variância da população (2) 
 
 
 
 
 
Desvio padrão população () 
 
 
 
 
Exemplo 
Dado o seguinte conjunto de valores de uma amostra: 
 
2, 3, 4, 5, 7, 9 
 
Calcule a média, variância e o desvio padrão 
O box Plot (Diagrama de Caixa) exibe 
simultaneamente vários aspectos: tendência 
central ou posição, dispersão ou variabilidade e 
afastamento da simetria. 
 
Ele é especialmente útil quando trabalhamos 
com conjuntos limitados de dados para os 
quais outras ferramentas (tais como 
histogramas, que requerem 25 – 400 pontos) 
podem ser inválidas ou insuficientes. 
 
Box Plot 
 
 
Box Plot 
Através da disposição dos valores em ordem crescente 
tem-se uma idéia clara sobre a localização e a dispersão 
dos dados. Para o gráfico box plot precisamos calcular: 
limite da haste inferior, limite da haste superior, primeiro 
quartil, terceiro quartil e a mediana. 
 
 
Quartis 
Quartis - outra forma de caracterizar 
quantitativamente a distribuição de uma 
variável. Consiste em encontrar os valores 
abaixo dos quais estão 25% dos dados 
(Primeiro Quartil), 50% dos dados (Mediana) e 
75% dos dados (Terceiro Quartil). 
 
 
 
Exemplo 
Dados brutos: 
200 11 2,5 5 5 5,5 3 3,5 3 0,4 3,2 5 3 3,2 7,4 6 
 
Dados ordenados (Rol): 
0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 11 200 
 
 25% dos dados estão abaixo de 3, assim, o Primeiro Quartil é 
Q1=3; 
 50% dos dados estão abaixo de 4,25, assim, o Segundo 
Quartil, que também é a Mediana é Q2=M=4,25; 
 75% dos dados estão abaixo de 5,75, assim, o Terceiro Quartil 
é Q3=5,75 
 
 
 
O box plot é um gráfico construído com base no 
resumo dos cinco números, constituído por: 
 
 Valor mínimo 
 Primeiro quartil (Q1) 
 Mediana (segundo quartil Q2) 
 Terceiro quartil (Q3) 
 Valor máximo 
 
 
 
 
 
 
 
 
 
 
 
 
Supondo (genérico): 
Q1 = 5; Q2 = 7; Q3 = 8. 
v v v v v v v v v v v v v v v v v v v v 
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 
 
 
 
 
 
 
 
 
 
 
 
 
Supondo ainda: 
Mínimo = 3; Máximo = 15 
v v v v v v v v v v v v v v v v v v v v 
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 
 
 
 
 
 
 
 
 
 
 
 
 
Os valores atípicos, são valores muito afastados da 
grande maioria dos dados. Supondo que todas as 
observações sejam menores que ou iguais a 10, e 
apenas uma observação seja igual a 15. Então 15 é 
um valor atípico ou outliers. 
v v v v v v v v v v v v v v v v v v v v 
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 
 
 
Consideremos o conjunto de dados que gerou o 
boxplot ; há 18 observações. 
A mediana divide o conjunto em duas partes, cada 
uma com 9 observações. 
A mediana será, então, a média dos dois valores centrais: 
 
 
O cálculo do primeiro e do terceiro quartis é feito calculando-
se as medianas das duas metades – o primeiro quartil é a 
mediana da metade inferior e o terceiro quartil é a mediana da 
metade superior. 
Para os dados anteriores, cada metade tem 9 observações. 
Logo, a mediana deixará 4 observações abaixo e 4 
observações acima, ou seja, a mediana de cada uma dessas 
partes será a quinta observação: 
 
 
Consideremos outro conjunto de dados como exemplo: 
Como há um número ímpar de observações (13), a 
mediana deixará 6 observações abaixo e 6 observações 
acima dela. Logo, a mediana é a 7ª observação. 
 
 
Q1 Q3 
Q2 
 
Neste caso, considera-se o valor da mediana para calcular 
o Q1=19 e Q3=28 
 
 
Determinação de valores atípicos 
A regra que adotamos para identificação dos 
valores atípicos se baseia na amplitude 
interquartil AIQ, definida como a distância entre o 
primeiro e o terceiro quartis: 
 
AIQ = Q3 – Q1 
 
Note queAIQ é o comprimento da caixa. 
Quaisquer valores abaixo de Q1 ou acima de Q3 
por mais de 1,5×AIQ serão considerados valores 
atípicos e terão tratamento especial no box plot. 
 
 
Assim, serão valores atípicos os valores x tais que 
 
x < Q1 – 1,5×AIQ ou x > Q3 + 1,5×AIQ 
 
Para o nosso primeiro exemplo, com 18 observações, 
obtemos: 
 
Q1 – 1,5×AIQ = 5 – 1,5×(8 – 5) = 0,5 
 
Q3 + 1,5×AIQ = 8 + 1,5×(8 – 5) =12,5 
 
 
 
 
 
 
 
 
 
 
v v v v v v v v v v v v v v v v v v v v 
 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Continue navegando