APOSTILA_I_-_ESTATÍSTICA (1)

•

UCPEL

Luis Fernando da Silva Martinez

21/11/2015

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 161 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 161 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 161 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Probabilidade e Estatística

30.025 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

AULA 1 - INTRODUÇÃO
Estatística
1
CONSIDERAÇÕES GERAIS
A Estatística exerce um papel crescente na atividade
humana (científica, comercial ou governamental):
• áreas econômicas (públicas ou privadas) → decisões
importantes dependem do significado e da precisão de
indicadores como taxas de desemprego, de
crescimento econômico, de preços ao consumidor;
• área agrícola → a adoção de novas técnicas depende
de complexos esquemas de coleta e análise de dados;
• área médica → a avaliação do sucesso da
administração de tratamentos clínicos (vacinação)
obedece a critérios estatísticos;
2
• estudos demográficos (crescimento
populacional, migração) → contam com a
fundamental contribuição dos métodos
estatísticos;
• estudos sociológicos ou políticos → só são
possíveis porque a Estatística dispõem de
métodos que possibilitam o estudo de
populações enormes a partir de pequenos
grupos.
3
• POPULAÇÃO – conjunto de todos os
elementos com uma ou mais características
em comum.
• AMOSTRA – é uma parte representativa da
população.
Estatística ⇒ ferramenta necessária à
compreensão dos fenômenos que ocorrem
nas mais diferentes áreas.
4
SÍNTESE HISTÓRICA
ORIGEM necessidade que o Estado 
Político tinha de conhecer os seus domínios. 
A Estatística é tão antiga quanto a humanidade
Os fatos mais antigos de aplicação da 
Estatística datam:
5
− do antigo Egito → anualmente, efetuavam-se
levantamentos cadastrais e censitários que
permitiam conhecer a repartição de
propriedades e dos bens para que fossem
restituídos após as inundações do rio Nilo.
6
− da época do Império Romano →
periodicamente eram feitos levantamentos dos
bens para cobrança de impostos.
7
Metade do século XIX, a palavra estatística,
derivada da palavra latina “status” (= estado), era
utilizada basicamente para designar informações a
respeito do Estado.
O avanço no estudo do cálculo de
probabilidades permitiu, contudo,
que a Estatística fosse estruturada e
ampliasse o seu campo de ação.
8
Um marco significativo no
desenvolvimento da Estatística
foram as publicações dos ingleses
Graunt (1666) e Petty (1683) que
deram início ao que hoje se chama
demografia.
Na mesma época, iniciou-se o cálculo das probabilidades a partir do
interesse do matemático e filósofo francês Blaise Pascal em resolver
jogos de azar.
Em 1708, foi organizado o primeiro
curso de estatística na Universidade de
Yena na Alemanha.
9
Século XVIII, destacaram-se impulsionando o
estudo das probabilidades: o suíço Bernoulli, os
franceses Moivre e Laplace, o alemão Gauss, o
astrônomo belga Quételet e os ingleses Galton e
Pearson.
10
1920 à 1940 - foi ainda muito fecundo, contando com os
estudos do inglês Fisher, que, entre as muitas
contribuições que trouxe à estatística, criou a técnica da
Análise da Variação, até hoje uma das mais importantes
utilizadas na estatística.
11
Outro marco decisivo no desenvolvimento dos métodos
estatísticos foi o advento da computação eletrônica,
ferramenta que permitiu que a estatística alargasse ainda
mais os seus horizontes.
12
ESTATÍSTICA NO BRASIL
Início → com o domínio português→ saber dos recursos disponíveis, no Brasil,
para exploração conveniente.
Séculos XVII e XVIII → diversos levantamentos, principalmente em Minas
Gerais, com relação a existência e a exploração de ouro.
1854→ fundação da 1a Sociedade Brasileira de Estatística.
1871 → criação da Diretoria Geral de Estatística, encarregada de fazer
levantamentos da população brasileira.
1872→ 1o recenseamento geral do país.
Instituto Brasileiro de Geografia e Estatística (IBGE) promove
estudos de natureza estatística, visando permitir o conhecimento da
realidade física, econômica e social do país, possibilitando assim, o
planejamento econômico e social e a segurança nacional.
13
CONCEITO E DIVISÃO
Estatística moderna é o conjunto de conceitos e métodos, fundamentados na
matemática, que se preocupa com o processo de descrição e inferência,
particularmente com:
a eficiente sumarização dos dados;
o planejamento e a análise de experimentos e levantamentos;
a natureza dos erros de observação e outras causas que provocam variação em um
conjunto de dados.
Estatística é a matemática aplicada a dados de observação, na
organização, descrição, análise e interpretação desses dados.
� dados numéricos apresentados em tabelas e gráficos incluindo médias,
porcentagens, etc.
� parte do método científico instrumento auxiliar de real importância na
pesquisa científica.
14
A Estatística pode ser dividida em duas partes principais:
Estatística Descritiva ou Dedutiva: que tem como
objetivo o resumo, a apresentação e a descrição dos
dados de observação por meio de tabelas, de gráficos e
de medidas, dentre as quais se destacam as medidas
de posição e de dispersão.
Estatística Analítica ou Inferência Estatística: que tem
como objetivo fornecer métodos que proporcionem a
realização de inferência sobre populações a partir de
amostras dela provenientes, tendo por base o cálculo
de probabilidades. Compreende basicamente dois
grandes tópicos: a estimação de parâmetros e os testes
de hipóteses. Conhecimento da população através de
uma amostra.
15
LIMITAÇÕES DA ESTATÍSTICA
� a estatística não serve para corrigir erros
grosseiros, nem técnicas defeituosas;
� a estatística não substitui o julgamento crítico;
� os testes estatísticos não devem ser empregados
para verificar hipóteses sugeridas apenas pela
inspeção dos dados;
� o emprego da estatística requer concordância
satisfatória entre o modelo matemático utilizado e
os dados reais obtidos.
16
AULA 2 – SÉRIES, TABELAS E 
GRÁFICOS
Estatística
17
SÉRIES ESTATÍSTICAS - CONSIDERAÇÕES GERAIS
Dado Estatístico: é a representação numérica de um fenômeno.
a) dados de enumeração: dados obtidos através de contagem.
Geralmente são números inteiros.
b) dados de mensuração: referem-se à intensidade de uma
grandeza contínua como peso, altura, tempo, volume, etc., são
dados obtidos através de medições, dependem da precisão do
instrumento de medida.
SÉRIE ESTATÍSTICA: é o conjunto de dados estatísticos dispostos
de acordo com o tempo, o local ou a espécie.
18
Estes3 fatores fundamentais se referem a:
Tempo – data ou época que o assunto foi
investigado.
Local (ou espaço) – espaço geográfico ou região
onde o fato ocorreu.
Espécie – fato ou fenômeno que foi investigado
e cujos valores numéricos estão sendo
apresentados na tabela.
19
Série Temporal (Histórica, Cronológica ou 
Evolutiva) – varia o tempo, permanecendo 
fixos o local e a espécie do fenômeno 
estudado. 
Anos Número de casos
2000 61.435
2001 45.532
2002 7.934
2003 5.849
Tabela 1 – Casos notificados de sarampo no Brasil, de 2000 à 2003
Fonte: Anuários Estatísticos – IBGE.
20
Série Geográfica (Territorial ou de Localização) 
– varia o local, permanecendo fixos o tempo e 
a espécie do fenômeno estudado. 
Países Número de anos
Itália 7,5
Alemanha 7,0
França 7,0
Holanda 5,9
Inglaterra 4,0
Tabela 2 – Duração média dos estudos superiores, 2004
Fonte: Revista Veja.
21
Série Especificativa (Qualitativa ou Categórica)
– varia o fenômeno estudado, permanecendo 
fixos o local e o tempo. 
Alimentos Número de crianças
Leite Artificial 25
Sucos 40
Sopas 46
Caldo de Feijão 56
Ovo 51
Tabela 3 – Introdução de novos alimentos à crianças de 3 a 6 meses de
idade, em 2007
Fonte: Trabalho de alunos do Curso de Nutrição
22
Séries Mistas – varia mais de um fator. Receberá 
o nome de acordo com os fatores que variam, 
por exemplo, se variam o tempo e o local, a 
série será Temporal Geográfica ou Geográfica 
Temporal.
Regiões Anos
1991 1992 1993Norte 342.938 375.658 403.494
Nordeste 1.287.813 1.379.101 1.486.649
Sudeste 6.234.501 6.729.467 7.231.634
Sul 1.497.315 1.608.989 1.746.232
Centro-oeste 713.357 778.925 884.822
Tabela 4 - Efetivo do rebanho bovino nas regiões do Brasil
Fonte: Ministério das Comunicações
23
Causas
Anos
1996 1997 1998
Doenças Infecciosas 17,9 16,8 16,4
Pneumonia 12,0 10,8 11,4
Causas perinatais 45,3 48,0 47,1
Tabela 5 – Mortalidade proporcional (%) em menores de 1 ano, segundo
as três principais causas, no Brasil, de 1996-98.
Fonte: Informe Epidemiológico SUS
24
Distribuição de Frequências – são séries onde não
variam nenhum dos 3 fatores (tempo, local e
espécie). Os dados são agrupados em classes com
limites pré-estabelecidos.
Classes Frequência
155 | 160 39
160 | 165 30
165 | 170 10
170 | 175 1
Total 80
Tabela 6 – Estatura de 80 alunos da Escola X,
1995
Fonte: dados fictícios
25
TABELAS
Forma não discursiva de apresentar informações
Dado numérico se destaca como informação central
Finalidade: apresentar os dados numéricos de modo
ordenado, simples e de fácil interpretação, fornecendo
o máximo de informação num mínimo de espaço.
Construção: deve obedecer uma série de normas
técnicas (do IBGE - "Normas de Apresentação Tabular“
- orienta a apresentação racional e uniforme de dados
estatísticos na forma tabular.
26
Elementos da tabela
elementos essenciais
Tabela Estatística 
elementos complementares
ELEMENTOS ESSENCIAIS:
* Título: é a indicação que precede a tabela contendo a designação
do fato observado, do local e da época em que foi registrado.
* Corpo: é conjunto de linhas e colunas onde estão inseridos os
dados numéricos.
* Cabeçalho: é a parte superior da tabela que indica o conteúdo
das colunas.
* Coluna indicadora: é a parte da tabela que indica o conteúdo das
linhas. 27
Tabela: modelo IBGE
Corpo
Cabeçalho
Título
Rodapé
28
ELEMENTOS COMPLEMENTARES:
* Fonte: entidade que fornece os dados ou elabora a
tabela.
* Notas: informações de natureza geral, destinadas a
esclarecer o conteúdo das tabelas.
* Chamadas: informações específicas destinadas a
esclarecer ou conceituar dados numa parte da tabela.
Deverão estar indicadas no corpo da tabela, em números
arábicos entre parênteses.
Os elementos complementares devem situar-se no rodapé da 
tabela, na mesma ordem em que foram descritos.
29
NÚMERO DA TABELA
Uma tabela deve ter número para identificá-la,
sempre que o documento apresentar uma ou
mais tabelas, permitindo assim, a sua localização.
A identificação da tabela deve ser feita em números
arábicos, de modo crescente, precedidos da
palavra Tabela, podendo ou não ser subordinada
a capítulos ou seções de um documento.
Exemplos: Tabela 5, Tabela 10.4
30
APRESENTAÇÃO DE DADOS NUMÉRICOS
Toda tabela deve ter dado numérico para informar a quantificação
de um fato específico observado, o qual deve ser apresentado
em números arábicos.
A parte inteira dos dados numéricos deve ser separada por pontos
ou espaços de três em três algarismos, da direita para a
esquerda.
A separação da parte inteira da decimal deve ser feita por vírgula.
Obs.: No sistema inglês, a separação da parte inteira é feita por
vírgula, e a separação da parte inteira da decimal é feita por
ponto, ou seja, é o inverso do sistema brasileiro.
Algarismos romanos devem ser evitados, inclusive em datas
31
SINAIS CONVENCIONAIS
Sempre que um dado numérico não puder ser apresentado, o 
mesmo deve ser substituído por um sinal convencional, como: 
a) - (traço): indica dado numérico igual a zero;
b) ... (três pontos): indica dado numérico não disponível
c) 0; 0,0 ou 0,00: indica dado numérico igual a zero resultante de
arredondamento
d) ?: quando há dúvida sobre a veracidade da informação
Os sinais convencionais deverão ser apresentados em 
nota geral com seus respectivos significados.
32
ARREDONDAMENTO
Quando o primeiro algarismo a
ser abandonado for menor que
5, fica inalterado o último
algarismo a permanecer.
Quando o primeiro algarismo a
ser abandonado for maior ou
igual a 5, aumenta-se de uma
unidade o último algarismo a
permanecer.
< 5
≥ 5
33
UNIDADE DE MEDIDA 
TABELA unidade de medida, inscrita no cabeçalho ou nas colunas indicadoras,
sempre que houver necessidade de se indicar, complementarmente
ao título, a expressão quantitativa ou metrológica dos dados numéricos.
INDICAÇÃO com símbolos ou palavras, entre parênteses.
Exemplos: (m) ou (metros), (t) ou (toneladas), (R$) ou {reais).
Dados numéricos divididos por uma CONSTANTE indicar por
algarismos arábicos, símbolos ou palavras, entre parênteses, precedendo a unidade de 
medida, quando for o caso. 
Exemplos:
(1.000 t): indica dados numéricos em toneladas que devem ser multiplicados por mil;
(1.000 R$): indica dados numéricos em reais que devem ser multiplicados por mil;
(%) ou (percentual): indica dados numéricos proporcionais a cem;
(t/ 1.000): indica dados numéricos em toneladas divididos por 1.000.
34
CLASSE DE FREQUÊNCIA 
A classe de frequência é cada um dos intervalos não
superpostos em que se divide uma distribuição de
frequências.
Toda classe deve ser apresentada, por extenso ou com
notação.
Toda classe que inclui o limite inferior do intervalo (Li) e
exclui o limite superior (Ls), deve ser apresentada de uma
destas duas formas:
Li | Ls ou [Li; Ls)
35
Apresentação de tempo
Série histórica consecutiva deve ser apresentada por seus pontos inicial e
final, ligados por hífen (-).
Exemplos:
1892-912: quando varia o século;
1960-65: quando variam os anos dentro do século;
out 1991 - mar 1992: quando variam os meses dentro de anos.
Série histórica não consecutiva deve ser apresentada por seus pontos inicial
e final, ligados por barra (/).
Exemplos:
1981 / 85: indica dados não apresentados para pelo menos um ano do intervalo;
out 1991/ mar 1992: indica dados não apresentados para pelo menos um mês do
intervalo.
36
Apresentação da tabela
�O corpo da tabela deve ser delimitado, no mínimo, por 
três traços horizontais.
� Recomenda-se não delimitar as tabelas a direita e à esquerda
por traços verticais.
�Quando, por excessiva altura, a tabela tiver que ocupar mais
de uma página, não deve ser delimitada inferiormente,
repetindo-se o cabeçalho na página seguinte. Deve-se usar no
alto do cabeçalho a palavra continuação ou conclusão,
conforme o caso.
�A disposição da tabela deve estar na posição normal de
leitura. Caso isso não seja possível, a apresentação será feita
de forma que a rotação da página seja no sentido horário.
37
Unidade da Federação Total de estabelecimentos Pessoal ocupado
Valor da produção1
(1.000 Cr$)
Valor da transformação 
industrial (1.000 Cr$)
Rondônia 1 x x X
Acre 2 x x X
Amapá
- - - -
Rio Grande do Sul 706 30.103 156.680 74.316
Mato Grosso do Sul 29 485 1.643 623
Paraná 449 11.118 43.797 22.014
Santa Catarina 305 10.816 84.294 41.894
São Paulo 4.699 272.983 2.531.363 939.0322
Rio de Janeiro 847 40.768 635.731 177.358
Tabela 7 – Total de estabelecimentos, pessoal ocupado, valor da produção e valor da transformação
industrial das indústrias metalúrgicas, em algumas Unidade da Federação, em 1982
Fonte: Pesquisa Industrial, 1982-84. Dados gerais, Brasil, Rio de Janeiro: IBGE, v.9., 410 p.
Nota: Sinal convencional utilizado:
x dado numérico omitido
- dado numérico igual a zero
(1) Em 31.12.1982
(2) Inclui o valor dos serviços prestados a terceiros e a estabelecimentos da mesma empresa.
38
GRÁFICOS
GRÁFICOS constituem-se numa das mais eficientes 
formas ilustradas de apresentação de dados estatísticos.
GRÁFICO - FIGURA construída a partir de uma tabela; 
TABELA fornece uma idéiamais precisa e possibilita uma 
inspeção mais rigorosa aos dados;
GRÁFICO mais indicado para situações que visem 
proporcionar uma impressão mais rápida e maior 
facilidade de compreensão do comportamento do 
fenômeno em estudo. 
Os gráficos e as tabelas se prestam, portanto, a 
objetivos distintos, de modo que a utilização de uma 
forma de apresentação não exclui a outra. 39
NORMAS GERAIS PARA REPRESENTAÇÃO GRÁFICA
1) os gráficos devem ser claros, simples e verídicos;
2) os gráficos, geralmente, são construídos num sistema de eixos
chamado sistema cartesiano ortogonal. A variável independente é
localizada no eixo horizontal (abcissas), enquanto a variável dependente
é colocada no eixo vertical (ordenadas). O início da escala deverá ser
sempre zero, ponto de encontro dos eixos;
3) Iguais intervalos para as medidas deverão corresponder a iguais
intervalos para as escalas. As unidades utilizadas devem estar expressas
no desenho;
4) o gráfico deverá possuir título, fonte, notas e legenda, ou seja, toda a
informação necessária à sua compreensão, sem auxílio do texto.
5) o gráfico deverá possuir formato, aproximadamente, quadrado para
evitar que problemas de escala interfiram na sua correta interpretação.
40
Tipos de 
gráficos
ESTEREOGRAMAS
CARTOGRAMAS
PICTOGRAMAS
DIAGRAMAS
41
ESTEREOGRAMAS
São gráficos onde as grandezas são representadas por 
volumes. Geralmente, são construídos num sistema de 
eixos bidimensional, mas podem ser construídos num 
sistema tridimensional para ilustrar a relação entre três 
variáveis.
42
CARTOGRAMAS
Representações em cartas geográficas (mapas). 
43
PICTOGRAMAS OU GRÁFICOS PICTÓRICOS
São gráficos puramente ilustrativos, construídos de modo
a ter grande apelo visual, dirigidos a um público muito
grande e heterogêneo. Não devem ser utilizados em
situações que exijam maior precisão.
44
DIAGRAMAS
São gráficos geométricos de duas ou três dimensões, de
fácil elaboração e grande utilização. Podem ser ainda
subdivididos em gráficos de:
Colunas
Barras
Linhas
Setores
Pirâmides
45
Gráfico de colunas 
Grandezas são comparadas através de retângulos de mesma
largura, dispostos verticalmente e com alturas proporcionais às
grandezas.
Distância entre os retângulos deve ser, no mínimo, igual a
1/2 e, no máximo, 2/3 da largura da base dos mesmos (para não dar
aspecto de continuidade).
Fator que varia for o tempo - retângulos devem ser dispostos
na ordem cronológica e, quando não for o tempo - devem ser
dispostos na ordem de grandeza, para facilitar a leitura e a
comparação dos valores.
Gráficos de coluna são mais utilizados quando as inscrições 
a serem inseridas sob os retângulos forem curtas. 46
0
2
4
6
8
10
12
Japão Rússia China Perú
Maiores pescadores mundiais em 1975 
(em milhões de toneladas)
0
100
200
300
400
500
600
700
1991 1992 1993 1994 1995 1996
Lucros totais, dividendos e lucros retidos de uma empresa, 1991/96 
(US$ milhões)
Lucros Dividendos Lucros Retidos 47
Gráfico de barras
⌦Mesmas instruções que o gráfico de colunas.
⌦ Diferença é que os retângulos são dispostos
horizontalmente.
⌦ Usado quando as inscrições dos retângulos
forem maiores que a base dos mesmos.
⌦ Mais utilizados para representar séries
especificativas e geográficas.
48
49
Gráfico de linhas
� Os pontos são dispostos no plano de acordo
com suas coordenadas
� São ligados por segmentos de retas
� Utilizado em séries históricas e em séries
mistas quando um dos fatores de variação é o
tempo, como instrumento de comparação.
50
51
52
Gráfico de setores (ou de pizza)
� Recomendado para situações em que se deseja
evidenciar o quanto cada informação representa do
total.
� A figura consiste num círculo onde o total (100%)
representa 360°, subdividido em tantas partes quantas
forem necessárias à representação.
53
Etapas para a construção de um gráfico de setores:
1. Calcular o percentual correspondente a cada
valor observado, por meio de uma regra de três
simples;
2. Calcular o ângulo correspondente ao percentual
de cada valor observado;
3. Construir uma circunferência de raio qualquer;
4. Efetuar a marcação dos ângulos correspondentes
a cada divisão, com o auxílio de um transferidor,
no sentido horário.
54
55
Outros tipos de gráficos podem ser feitos
através de programas gráficos como o Excel ou
de planilhas eletrônicas.
56
GRÁFICO DE ÁREAS
57
GRÁFICO DE CILINDROS
58
GRÁFICO DE ROSCA
75%
18%
7%
Hopitalizações pagas pelo SUS, segundo a natureza do prestador de serviço, em 1993
Privado
Público
Universitário
59
GRÁFICO DE CONES
60
GRÁFICO EM BARRAS FLUTUANTES
61
GRÁFICO EM PIRÂMIDES
62
GRÁFICO EM LINHAS COLORIDAS
63
AULA 3 – MEDIDAS DESCRITIVAS
Estatística
64
MEDIDAS DESCRITIVAS OU ESTATÍSTICAS
Em muitas situações são exigidas medidas que
caracterizem mais precisamente um conjunto
de dados.
As medidas descritivas têm como objetivo a
redução dos dados a um pequeno número de
valores chamado estatísticas fornecendo
informações com referência à população.
65
Uma estatística deverá ter as seguintes características:
a) ser representativa;
b) ser de fácil interpretação;
c) prestar-se a um tratamento estatístico mais
elaborado, em etapas posteriores;
d) ter qualidades que a credencie a ser a melhor
representante do parâmetro, ou seja, do valor
correspondente na população, geralmente
desconhecido.
66
As MEDIDAS DESCRITIVAS dividem-se em 
4 grupos: 
�medidas de posição
� medidas de dispersão
� assimetria
� curtose
67
MEDIDAS DE POSIÇÃO E DE DISPERSÃO
68
MEDIDAS DE POSIÇÃO
Em um conjunto de dados, os valores são mais 
numerosos em torno de um valor central e 
mais raros nos extremos. 
Essa maior concentração em torno de um valor 
central sugere que se calcule medidas de 
posição ou de tendência central que são: a 
MÉDIA ARITMÉTICA, a MEDIANA e a MODA.
69
As medidas de posição ou de tendência central 
tem como objetivo representar o ponto de 
equilíbrio ou o centro de uma distribuição.
70
Notação de somatório
Às vezes, precisamos escrever expressões que
envolvem somas com muitos termos. Por exemplo a
soma dos 100 primeiros números naturais: 1, 2, 3, 4,
..., 100.
Simbolizando por xi o i-ésimo termo da soma e n o
número total de termos, temos que:
Ex: Calcular o somatório do conjunto de valores: 
{20; 30; 15; 40; 10; 25}
∑
=
++++=
n
1i
n321i x...xxxx
71
Propriedades dos somatórios
1ª) Se cada elemento da série é multiplicado por
uma constante, os elementos podem ser
somados e a soma multiplicada pela
constante.
∑∑
==
=
n
i
i
n
i
i xcxc
11
..
( ) ∑∑
==
=++++=++++=
n
1i
in321n32
n
1i
1i x.cx...xxxcx.c...x.cx.cx.cx.c
72
2ª) A soma de uma constante sobre n termos é 
igual a n vezes a constante.
∑
=
=
n
ni
c.nc
3ª) O somatório da soma (ou da diferença) é
igual a soma (ou a diferença) de somatórios.
∑∑∑
===
+=+
n
1i
i
n
1i
i
n
1i
ii yx)yx(
73
MEDIDAS DE POSIÇÃO 
dados não agrupados
74
MÉDIA ARITMÉTICA ( )
É a medida mais conhecida pela facilidade de uso, de
cálculo e de compreensão.
Utiliza para o seu cálculo todos os valores do conjunto
de observações.
Existe somente uma média aritmética para cada
conjunto de observações.
X
n
x
X
n
1i
i∑
=
=
Ex: Calcule a média aritmética 
para o conjunto de valores: 
{9; 7; 5; 10; 4}
75
Propriedades da média aritmética
1ª) A soma algébrica dos desvios de um conjunto de
valores em relação a suamédia aritmética é nula, ou
seja:
∑
=
=−
n
1i
i 0)Xx(
2ª) A soma dos quadrados dos desvios de um
conjunto de valores em relação a sua média
aritmética é mínima, ou seja:
∑∑
==
−<−
n
1i
2
i
n
1i
2
i )Kx()Xx( para qualquer K ≠X
76
MÉDIA ARITMÉTICA PONDERADA ( )
Quando as observações x1, x2, x3, ..., xn foram
associadas à pesos p1, p2, p3, ..., pn, a média
aritmética ponderada será dada por:
pX
∑
∑
=
=
=
++++
++++
=
n
1i
i
n
1i
ii
n321
nn332211
p
p
px
p...ppp
px...pxpxpx
X
∑
∑
=
=
=
n
1i
i
n
1i
ii
p
p
px
X
Ex: Um aluno de Matemática recebeu notas
6; 7; 6; 8; 7,5 em 5 avaliações durante o
semestre cujos pesos são, respectivamente:
25 %; 12,5 %; 25 %; 12,5 % e 25 %.
Pergunta-se qual a média final deste aluno?
77
MEDIANA (Md)
A mediana de um conjunto de valores
“ordenados” será o valor que se encontra no
centro, ou seja, que é precedido ou sucedido
pelo mesmo número de valores.
Devemos considerar 2 casos
n par n ímpar
78
Quando n (número de observações) é ÍMPAR,
então: é a posição que ocupa a
mediana no conjunto de valores ordenados.
Ex: Calcular a mediana para o conjunto de 
valores {9; 7; 5; 10; 4}
2
1nP +=
79
Quando n (número de observações) é PAR, 
calcula-se uma posição P1 e outra P2:
A mediana será a média aritmética dos valores 
que se encontram nas duas posições:
2
PnaestáquevalorPnaestáquevalor
Md 21 +=
Ex: Calcular a mediana para o conjunto de valores {3; 5; 4; 8; 3; 9}
2
nP1 = 2
2nP2
+
=
80
MODA (Mo)
É o valor mais frequente, ou seja, é o que ocorre mais
vezes em um conjunto de dados.
É a única medida que pode não existir, ser única ou
pode existir mais de uma moda.
Ex:
� 2; 3; 7; 5; 7; 5; 8; 7; 9 � 5, 7, 8, 3, 9, 1, 4
� 1, 3, 4, 4, 5, 1, 3, 5 � 1, 3, 4, 5, 4, 8, 6, 8
81
QUARTIS (Q)
Os quartis são medidas separatrizes. 
Conjunto de dados “ordenados” é ÷ em 4 partes iguais.
Existem 2 quartis.
Q1 (primeiro quartil) – é o valor que antecede 25 % da
freqüência abaixo dele e sucede 75 %.
Q2 (segundo quartil) – é o valor que divide o conjunto de
dados em duas partes iguais. É igual ao valor mediano.
Q3 (terceiro quartil) – é o valor que antecede 75 % da
freqüência abaixo dele e sucede 25 %.
82
n par:
n ímpar:
Ex: Calcular os quartis para os conjuntos de valores
a) {185; 196; 207; 305; 574; 597; 612}
b) {10; 12; 12; 16; 20; 23; 25; 28}
4
2n3P3
+
=
4
2nP1
+
=
4
2n2P2
+
=
4
1nP1
+
=
4
)1n(2P2
+
=
4
)1n(3P3
+
=
83
DECÍS (D)
Conjunto de dados “ordenados” é ÷ em 10
partes iguais.
Simbolizadas por: D1, D2, ..., D9
...
10
1nD1
+
=
10
)1n(2D2
+
=
10
)1n(9D9
+
=
84
CENTÍS ou PERCENTÍS (P)
Conjunto de dados “ordenados” é ÷ em 100 
partes iguais.
Simbolizadas por: P1, P2, ..., P9
...100
1nP1
+
=
100
)1n(2P2
+
=
100
)1n(99P99
+
=
85
MEDIDAS DE DISPERSÃO
dados não agrupados
Complementam as informações fornecidas pelas
medidas de posição.
Servem para indicar o quanto os dados se
apresentam dispersos em torno da região central
de um conjunto de valores, o que caracteriza o
grau de variação desse conjunto.
86
AMPLITUDE TOTAL (At)
⌦ É uma medida de variação muito simples
⌦ Diferença entre o maior e o menor valor de um
conjunto de observações.
⌦ Dá uma ideia da variação, visto que utiliza só dois
valores de todo o conjunto de observações para ser
calculada.
mínmáx xxAt −=
Ex: Calcular a amplitude total
para o conjunto de valores:
{10; 13; 9; 5; 7; 6}
87
Média do quadrado dos desvios de um conjunto 
de valores em relação a sua média aritmética
Fórmula de definição
∴
Fórmula prática
VARIÂNCIA (s2)
1
)(
1
2
2
−
−
=
∑
=
n
Xx
s
n
i
i
1n
n
)x(
x
s
n
1i
2
in
1i
2
i
2
−
−
=
∑
∑ =
=
88
1n
)XXx2x(
1n
)Xx(
s
2
ii
2
i2
−
+−
=
−
−
=
∑∑
1n
XXx2x
2
i
2
i
−
+−
=
∑ ∑ ∑
1n
1
n
x
nx
n
x
2x
2
i
i
i2
i
−
⋅
















+







−= ∑ ∑ ∑∑
( )
1n
1
n
x
xx
n
2
x
2
i
iii
−
⋅








+−= ∑ ∑ ∑ ∑
( ) ( )
1n
1
n
x
n
x
2x
2
i
2
i2
i
−
⋅








+−= ∑ ∑∑ 1n
n
)x(
x
s
2
i2
i
2
−
−
=
∑ ∑
∴
1n
XnxX2x
2
i
2
i
−
+−
=
∑ ∑
2
2
89
Ex.: Calcular a variância para o conjunto de 
observações, utilizando as duas fórmulas: 
{5; 8; 10; 12; 15}
1
)(
1
2
2
−
−
=
∑
=
n
Xx
s
n
i
i
1n
n
)x(
x
s
n
1i
2
in
1i
2
i
2
−
−
=
∑
∑ =
=
90
DESVIO PADRÃO (S)
☺ É a raiz quadrada da variância.
☺ Utiliza-se o desvio padrão para interpretar os
resultados, visto que, as unidades ficam elevadas ao
quadrado na variância.
2ss =
Ex.: Para o conjunto de observações, 
calcule o desvio padrão
{5; 8; 10; 12; 15}
91
92
COEFICIENTE DE VARIAÇÃO (CV)
É definido como a razão percentual entre o 
desvio padrão (s) e a média aritmética ( ).X
100.
X
sCV =É expresso em porcentagem,portanto, independe da unidade de
medida, sendo assim, é muito útil
para comparar grupos de valores
expressos em unidades de medida
diferentes ou que tenham médias
diferentes.
É uma medida adequada para
comparação entre conjuntos de
valores.
Ex.: Duas turmas A e B de uma
mesma disciplina apresentaram:
turma A, média 68 e turma B,
média 85. As variâncias foram
225 e 235, respectivamente,
para as turmas A e B. Qual é a
turma mais homogênea?
93
94
OBSERVAÇÃO
Tanto as medidas de posição quanto as 
de variação devem ser expressas na 
mesma unidade dos valores originais (kg, 
m, h, L, alunos, ...). 
Somente a variância possui a unidade 
elevada ao quadrado.
95
AULA 4 - DISTRIBUIÇÃO DE FREQUÊNCIAS
Estatística
96
CONCEITOS FUNDAMENTAIS
Variável – característica ou fator a ser estudado,
representado por letras maiúsculas: X, Y, Z...
Dado ou observação – representação numérica de uma
variável, representado por letras minúsculas: x1, x2,
x3, ..., xn
As variáveis podem ser divididas em dois grupos:
variáveis quantitativas e variáveis qualitativas
97
1º) Variáveis quantitativas – são as que descrevem
quantidades, magnitudes mensuráveis. Podem ser
divididas em contínuas ou discretas.
Variáveis contínuas – são aquelas usadas para descrever
dados contínuos, isto é, aquelas que podem teoricamente
assumir qualquer valor de um subconjunto dos números
reais. Dependem da precisão do instrumento de medida.
Ex.: Z = {quantidade de leite, em kg, em duas 
ordenhas, de 5 vacas holandesas, aos 6 anos} 
X = {teor de gordura no leite}
98
Variáveis discretas – são aquelas que assumem
apenas determinados valores no campo dos
reais. Se forem originadas de processo de
contagem assumirão valores inteiros.
Ex.: Z = {número de semente germinadas, por vaso,
após 2 semanas de plantio}
Y = {número de medicamentos com prazo
de validade vencido}
99
2º) Variáveis qualitativas – são utilizadas para
descrever qualidades, categorias, atributos, etc.
Podem ser classificadas em ordinais e nominais.
Variáveis ordinais – quando houver um sentido de
ordenação em seus valores.
Ex.: X = {conceito obtido pelos alunos em Estatística}= 
{ruim, médio, bom, ótimo}
T = {classe de renda dos operários do bairro B} = 
{baixa, média baixa, média, média alta, alta}100
Variáveis nominais – quando não houver sentido 
de ordenação.
Ex.: 
Y = {sexo} ={masculino, feminino}
Z = {raça de bovinos da estância E} = 
{holandês, nelore, zebu}
101
DISTRIBUIÇÃO DE FREQUÊNCIAS
☺ É utilizada para organizar dados provenientes de medições,
onde os mesmos serão distribuídos em classes pré-
estabelecidas, com limites bem definidos.
A distribuição de frequências é uma série estatística onde
permanecem fixos o tempo, o local e a espécie.
É um arranjo dos valores observados em uma tabela com suas
respectivas frequências.
A organização dos dados estatísticos em classes tem como
objetivo diminuir o tamanho da tabela e facilitar a
visualização da variação do fenômeno em estudo.
☺
☺
☺
102
Ex: Trinta estudantes foram submetidos a uma
prova de Estatística, obtendo as seguintes
notas:
Agrupe os dados em intervalos de classe,
determinando as frequências absoluta ( Fj ),
absoluta acumulada ( ), relativa ( fj ) e relativa
acumulada ( ) e represente-os graficamente.
84 93 83 89 70 81 83 90 94 90
95 77 99 91 80 98 77 81 88 83
92 94 86 86 87 78 76 92 76 87
'
jF
'
jf
103
CONSTRUÇÃO DE UMA DISTRIBUIÇÃO 
DE FREQUÊNCIAS
Primeiro, nós temos os DADOS BRUTOS, ou seja, 
os dados desorganizados conforme foram 
coletados na pesquisa. 
Para construir uma distribuição de frequências 
devemos seguir os seguintes passos:
104
1º) Organizar o ROL, ou seja, colocar os dados 
em ordem crescente de grandeza;
70 76 76 77 77 78 80 81 81 83
83 83 84 86 86 87 87 88 89 90
90 91 92 92 93 94 94 95 98 99
105
2º) Determinar o número de classes (nc) que
será função do tamanho da amostra. O nc não
deve ser muito pequeno ao ponto de
perdemos informações, nem muito grande
para que não sejamos repetitivos. Para
calcular o nc usamos a Fórmula de Sturges:
nc = 1 + 3,32 log n
Onde: n é o número de observações (tamanho da amostra)
Se nc não for inteiro ⇒ arredondar para o inteiro MAIOR
106
3º) Calcular o intervalo de classe (i) que é a
diferença entre os limites inferior e superior
de cada classe:
Se i não for inteiro ⇒ arredondar para o inteiro MAIOR
nc
LL
nc
Ati is
−
==
107
8,4
6
29
6
7099
nc
LiLs
nc
Ati ==−=−==
nc = 1 + 3,32 log n
= 1 + 3,32 log 30
= 1 + (3,32 x 1,48) = 5,9
nc = 6
i = 5
108
4º) Montar a tabela de distribuição de frequências:
� o limite inferior da 1ª classe deve coincidir com o
limite inferior do ROL;
� o limite superior da 1ª classe será igual ao limite
inferior mais o intervalo de classe (Ls = Li + i);
� o limite inferior da 2ª classe será igual ao limite
superior da 1ª classe e assim, sucessivamente;
� as classes devem apresentar intervalo fechado à
esquerda e aberto à direita ( | ) para evitar que um
dado esteja em duas classes ao mesmo tempo.
109
j Classes
1 70 | 75
2 75 | 80
3 80 | 85
4 85 | 90
5 90 | 95
6 95 | 100
Σ
Tabela 1 – Distribuição de frequências das notas de 30 estudantes em uma prova de
Estatística
110
5º) Após elaborarmos as classes, vamos colocar na 
tabela as seguintes colunas: 
a) Centro de classe (cj) – é o ponto médio entre o Li e o Ls da
classe j, ou seja, é a média aritmética entre Li e Ls:
b) Frequência absoluta (Fj) – conta-se no ROL, o número de
observações que existem entre os limites da classe j.
c) Frequência absoluta acumulada ( ) – soma-se a frequência
absoluta da classe j com as frequências absolutas das classes
anteriores.
2
LL
c isj
+
=
'
jF
111
d) Frequência relativa (fj) – obtida pela divisão da frequência
absoluta da classe “j” pelo número total de observações, ou
seja:
É bom observar que:
- a frequência relativa representa a proporção de observações de
um valor ou de uma classe em relação ao número total de
observações;
- a soma das frequências relativas é igual a 1 ou 100 %.
e) Frequência relativa acumulada ( ) – soma-se a frequência
relativa da classe “j” com as frequências relativas das classes
anteriores.
n
F
f jj =
'
jf
112
j Classes cj Fj F’j f j f’j
1 70 | 75 72,5 1 1 0,03 0,03
2 75 | 80 77,5 5 6 0,17 0,20
3 80 | 85 82,5 7 13 0,23 0,43
4 85 | 90 87,5 6 19 0,20 0,63
5 90 | 95 92,5 8 27 0,27 0,90
6 95 | 100 97,5 3 30 0,10 1,00
Σ − 30 − 1,00 −
Tabela 1 – Distribuição de frequências das notas de 30 estudantes em uma prova de
Estatística
113
GRÁFICOS DA DISTRIBUIÇÃO DE 
FREQUÊNCIAS
a) Histograma
⌦ utiliza um sistema de coordenadas cartesianas onde
as grandezas são representadas por retângulos
contíguos (um ao lado do outro).
⌦ as bases dos retângulos são proporcionais ao
intervalo de classe e as alturas proporcionais as
frequências absolutas.
⌦ pode representar de forma gráfica a frequência
relativa e as frequências absolutas e relativas
acumuladas. 114
0
1
2
3
4
5
6
7
8
9
70-75 75-80 80-85 85-90 90-95 95-100
Notas de 30 estudantes em uma prova de Estatística
Limites de classe
Fj
115
116
b) Polígono de frequências
� utiliza um sistema de coordenadas cartesianas
� definido como uma linha poligonal fechada em
relação ao eixo das abscissas
� é a união dos pontos médios das bases superiores
dos retângulos que compõem o histograma.
117
0
1
2
3
4
5
6
7
8
9
67,5 72,5 77,5 82,5 87,5 92,5 97,5 102,5
Fj
Centros de classe
Notas de 30 estudantes em uma prova de Estatística
118
Medidas de posição para dados 
agrupados em classes
a) Média aritmética ponderada ( )pX
n
cF
X
k
1j
jj
p
∑
=
=
onde: 
k – número de classes 
n – número de observações
=pX 50,8630
00,595.2
=
119
b) Mediana (Md)
onde:
Li – limite inferior da classe mediana
P – é o ponto central do Rol, ou seja: 
F’ – é a frequência absoluta acumulada da classe imediatamente 
anterior à classe mediana
Fmed – é a frequência absoluta da classe mediana
i – intervalo de classe
CLASSE MEDIANA – é a classe que deverá conter o elemento
central do ROL (onde a frequência relativa acumulada é de
50 %).
i.
F
FPLMd
med
'
i 





−
+=
2
1nP +=
120
Mediana (Md)
i.
F
FPLMd
med
'
i 





−
+= 08,8708,2855.
6
135,1585 =+=




 −
+=
2
1nP += 5,152
130
=
+
=
Classe mediana = 4ª 
121
c) Moda (Mo)
onde:
Li – limite inferior da classe modal
∆1 – diferença entre a frequência absoluta da classe modal e a
frequência absoluta da classe imediatamente anterior
∆2 - diferença entre a frequência absoluta da classe modal e a
frequência absoluta da classe imediatamente posterior
i – intervalo de classe
CLASSE MODAL – é a classe de maior frequência absoluta.
i.LMo
21
1
i 





∆+∆
∆
+=
122
Moda (Mo)
=





∆+∆
∆
+= iLMo i .
21
1
Classe modal = 5ª 
43,9143,1905.)38()68(
)68(90 =+=





−+−
−
+
123
a) Variância (s2)
(Temos duas fórmulas como no caso dos dados isolados)
Definição Prática
1n
n
)cF(
cF
s
k
1j
2
jjk
1j
2
jj
2
−
−
=
∑
∑
=
=
Medidas de variação para dados 
agrupados em classes
1n
)Xc(F
s
k
1j
2
pjj
2
−
−
=
∑
=
onde: 
k – número de classes
n – número de observações 124
b) Desvio padrão (s)
c) Coeficiente de variação (CV)
2ss =
100.
X
sCV
p
=
Ex.: Para a distribuição de frequências construída, calcule todas as
medidas de posição e de dispersão.
125
j Classes cj Fj Fjcj Fjcj2
1 70 | 75 72,5 1 72,5 5.256,25 196,00
2 75 | 80 77,5 5 387,5 30.031,25 405,00
3 80 | 85 82,57 577,5 47.643,75 112,00
4 85 | 90 87,5 6 525,0 45.937,50 6,00
5 90 | 95 92,5 8 740,0 68.450,00 288,00
6 95 | 100 97,5 3 292,5 28.518,75 363,00
Σ
− 30 2.595,0 225.837,50 1.370,00
Tabela 1 – Distribuição de frequências das notas de 30 estudantes em uma prova de
Estatística
2
jj )( xcF −
pX
s2
126
Variância (s2)
1n
)Xc(F
s
k
1j
2
pjj
2
−
−
=
∑
= 24,47
29
370.1
== OU
1n
n
)cF(
cF
s
k
1j
2
jjk
1j
2
jj
2
−
−
=
∑
∑
=
= 24,47
29
370.1
130
30
)0,595.2(50,837.225
2
==
−
−
=
127
Desvio padrão (s)
Coeficiente de variação (CV)
2ss = 87,624,47 ==
100.
X
sCV
p
= %95,7100.50,86
87,6
==
128
ASSIMETRIA
indica se existem mais observações à
esquerda, à direita ou se a distribuição das
observações se processa mais uniformemente
à esquerda ou à direita da posição de
referência, normalmente a média aritmética.
indica o grau e a direção do afastamento da
simetria.
129
Momentos são quantidades calculadas com o
propósito de se estudar a distribuição. O
momento de ordem r centrado num valor a é
dado por:
n
)ax(
m
n
1i
r
i
r
∑
=
−
=
n
)ac(F
m
n
1i
r
jj
r
∑
=
−
=Distribuição de frequências
130
Dois valores geram MOMENTOS importantes em 
um conjunto de valores:
a=0→momentos centrados na origem 
chamados ORDINÁRIOS de ordem r ( ) 
a= →momentos centrados na média chamados 
momentos de ordem r (mr)
'
rm
X
131
O coeficiente de assimetria (a3) utiliza o segundo e 
o terceiro momento centrados na média:
22
3
3
mm
m
a =
n
)Xc(F
m
2
pjj
2
∑ −
=
n
)Xc(F
m
3
pjj
3
∑ −
=
132
Classificação
1º) |a3| ≤ 0,5 – a distribuição é simétrica, não havendo
predominância de valores nem à direita, nem à
esquerda da média.
= Md = MoX
133
2º) a3 > 0 – a distribuição é assimétrica positiva
ou há predominância dos valores à esquerda
da média.
a3 < 0 – a distribuição é assimétrica negativa
ou há predominância dos valores à direita da
média.
<Md < Mo>Md > MoX X
134
j Classes cj
1 70 | 75 72,5 1 196,00 - 2.744,00 38.416,00
2 75 | 80 77,5 5 405,00 - 3.645,00 32.805,00
3 80 | 85 82,5 7 112,00 -448,00 1.792,00
4 85 | 90 87,5 6 6,00 6,00 6,00
5 90 | 95 92,5 8 288,00 1.728,00 10.368,00
6 95 | 100 97,5 3 363,00 3.993,00 43.923,00
Σ − 30 1.370,00 -1.110,00 127.310,00
2
jj )( xcF −jF 3jj )( xcF − 4jj )( xcF − ppp
Tabela 1 – Distribuição de frequências das notas de 30 estudantes em uma prova de
Estatística
135
Assimetria (a3)
22
3
3
mm
m
a = 12,0
73,308
00,37
76,667,45
00,37
30
370.1
30
370.1
30
00,110.1
−=
−
=
−
=
−
=
x
a3 = - 0,12 SIMÉTRICA
136
CURTOSE
É o grau de achatamento de uma distribuição.
Uma curva pode apresentar-se mais achatada
ou mais afilada em relação à curva padrão ou
normal.
137
O coeficiente de curtose é definido por:
2
2
4
4
m
m
a =
n
)Xc(F
m
2
pjj
2
∑ −
=
n
)Xc(F
m
4
pjj
4
∑ −
=
138
As distribuições são classificadas em:
a4 < 3 – distribuição platicúrtica (c)
a4 = 3 – distribuição mesocúrtica (b)
a4 > 3 – distribuição leptocúrtica (a)
139
2
2
4
4
m
m
a =
Curtose (a4)
03,2
75,085.2
67,243.4
30
370.1
30
00,310.127
2 ==






=
a4 = 2,03 PLATICÚRTICA 
140
Ex.: Calcule os coeficientes de assimetria e de
curtose para a distribuição de frequências das
notas de 30 estudantes na prova de Estatística
(exemplo anterior).
“A curva normal padrão é simétrica e mesocúrtica”
141
AULA 5 – CORRELAÇÃO E 
REGRESSÃO LINEAR
Estatística
142
CORRELAÇÃO LINEAR SIMPLES
* É o estudo do grau de relação entre duas variáveis X e Y
* Ao verificar a inter-relação queremos verificar também, se ao
variar uma das variáveis a outra varia e, se varia, é no mesmo
sentido ou no sentido inverso.
Exemplos:
- aumento de peso de cobaias e quantidade de ração consumida; 
- temperatura e pressão de um gás; 
- quantidade de adubo e produtividade de lavouras; 
- peso e altura de pessoas adultas.
143
Correlação Simples - quando se trata de duas variáveis
� Correlação positiva – se X e Y variam no mesmo
sentido (X↑ Y ↑ )
� Correlação negativa – se T e Z variam em sentido
contrário (T↑Z↓ ou T↓ Z↑)
Correlação Múltipla – mais de duas variáveis
Correlação Linear - se ao localizarmos os pontos em
um diagrama de dispersão, observarmos a tendência
de proximidade de uma RETA.
144
( ) ( )








−








−
−
=
∑ ∑∑ ∑
∑ ∑ ∑
n
y
y
n
x
x
n
yx
yx
r
i
i
i
i
ii
ii
2
2
2
2
A correlação pode ser medida por um
coeficiente “r”, chamado COEFICIENTE DE
CORRELAÇÃO LINEAR DE PEARSON e
independe das unidades de medida, cuja
expressão é:
onde:
x e y são os valores das variáveis consideradas
n é igual ao número de pares de variáveis
145
Propriedades de r
1º) r deve satisfazer a desigualdade: ;
2º) r será igual a –1 ou +1, se, e somente se, todos os
pontos da dispersão estiverem numa linha reta;
1r1 +≤≤−
146
3º) se r for maior que zero (r > 0), a relação
entre X e Y é direta, isto é, à medida que X
cresce, Y cresce;
4º) se r for menor que zero (r < 0), a relação
entre X e Y é inversa, isto é, à medida que X
cresce, Y decresce.
147
r < 0
r >0
r ≅ 0
148
Ex.: Ao final do primeiro período letivo de um
curso universitário, as seguintes médias de
notas foram obtidas por 12 alunos e
comparadas com o teste de QI que também
estão na Tabela 1. Calcule o Coeficiente de
Correlação Linear de Pearson para esses dados.
149
Alunos Notas (x) QI (y)
1 2,1 116 243,6 4,41 13.456
2 2,2 129 283,8 4,84 16.641
3 3,1 123 381,3 9,61 15.129
4 2,3 121 278,3 5,29 14.641
5 3,4 131 445,4 11,56 17.161
6 2,9 134 388,6 8,41 17.956
7 2,9 126 365,4 8,41 15.876
8 2,7 122 329,4 7,29 14.884
9 2,1 114 239,4 4,41 12.996
10 1,7 118 200,6 2,89 13.924
11 3,3 132 435,6 10,89 17.424
12 3,5 129 451,5 12,25 16.641
Σ 32,2 1.495 4.042,9 90,26 186.729
iiyx 2ix
2
iy
Tabela 1 - Notas foram obtidas por 12 alunos de um Curso Universitário comparadas 
com o teste de QI no primeiro período letivo
150
( ) ( ) 73,09,47686,3
32,31
12
1495729.186
12
2,3226,90
12
495.12,329,042.4
22
==






−





−
−
=
x
x
r
r = 0,73
r > 0 a relação entre X e Y é direta, isto é,
à medida que X cresce, Y cresce
( ) ( )








−








−
−
=
∑ ∑∑ ∑
∑ ∑ ∑
n
y
y
n
x
x
n
yx
yx
r
i
i
i
i
ii
ii
2
2
2
2
151
O chamado coeficiente de determinação, mede o
modo de associação de duas variáveis.
CD = (R²).100 
Quanto maior o CD em termos percentuais, maior é a
relação existente entre as variáveis estudadas.
Voltando ao exemplo anterior, o CD = 53,29 % (% de
correlação entre as variáveis estudadas.
COEFICIENTE DE DETERMINAÇÃO (CD)
152
REGRESSÃO LINEAR SIMPLES
É o estudo da relação linear entre duas variáveis X e Y
X é a variável independente, fixa, sem erro experimental 
Y é a variável dependente, aleatória, sujeita a erro experimental
A Regressão mede as relações de causa e efeito 
Em um sistema de coordenadas cartesianas é possível
visualizar a tendência dos dados, para que verifiquemos se
essa tendência pode ser representada por uma CURVA ou
uma RETA.
153
Se a relação for expressa por uma função
linear chama-seREGRESSÃO LINEAR :
Uma variável independente 
(REGRESSÃO LINEAR SIMPLES) 
Mais de uma variável independente
(REGRESSÃO LINEAR MÚLTIPLA)
21
2
2
2
1 3341740)( xxxxYE −−−=
154
O estudo da relação entre X e Y é expresso pelo modelo
matemático (EQUAÇÃO DA RETA):
onde: 
Yi observação da variável dependente Y no i-ésimo par (xi, yi);
Xi é a i-ésima observação da variável independente X do par (xi,,
yi);
A é o coeficiente linear, isto é, a altura em que a reta corta o
eixo do Y;
B é o coeficiente angular, que é o aumento ou decréscimo que
sofre a variável Y quando acrescentamos a variável X de uma
unidade;
ei é o erro experimental associado a cada observação Yi.
iii eBXAY ++=
155
onde:
e são as estimativas dos parâmetros A e B,
obtidas através do Método dos Mínimos Quadrados,
que torna mínima a soma de quadrados dos desvios,
ou seja:
deve ser mínima.2ii
2
i )YˆY(eˆ ∑∑ −=
A e B são os parâmetros do modelo matemático. A
função linear estimada é dada pela equação:
ii XBˆAˆYˆ +=
Aˆ Bˆ
156
MÉTODO DOS MÍNIMOS QUADRADOS
∑
∑
∑
∑ ∑
−
−
=
n
)x(
x
n
yx
yx
Bˆ 2
i2
i
ii
ii
onde: 
n é o número de pares (xi, yi)
XBˆYAˆ −=
157
Ex.: Considere o seguinte conjunto de pares
de valores (xi, yi) onde X=pH e Y=notas (x 10),
atribuídas a um determinado produto:
X Y
(valores ajustados)
4,0 33 132,0 16,00 35,321
4,5 42 189,0 20,25 40,071
5,0 45 225,0 25,00 44,821
5,5 51 280,5 30,25 49,571
6,0 53 318,0 36,00 54,321
6,5 61 396,5 42,25 59,071
7,0 62 434,0 49,00 63,821
38,5 347 1.975,0 218,75
iiyx 2ix Y
ˆ
158
5,9
7
)5,38(75,218
7
3475,38975.1
ˆ
2 =
−
−
=
x
B
5,5
7
5,38X == 57,49
7
347Y i ==
68,2)5,5x5,9(57,49Aˆ −=−=
ii X5,968,2Yˆ +−=Equação de regressão
∑
∑
∑
∑ ∑
−
−
=
n
)x(
x
n
yx
yx
Bˆ 2
i2
i
ii
ii
XBˆYAˆ −=
159
Com a equação da reta calculamos os valores
ajustados :iYˆ
321,35)0,4x5,9(68,2Yˆ 1 =+−=
071,40)5,4x5,9(68,2Yˆ 2 =+−=
821,63)0,7x5,9(68,2Yˆ 7 =+−=
.
.
.
Como o valor do coeficiente angular é positivo, 
a reta é crescente.
Com dois pontos 
estimados 
traçamos a reta 
160
y = 9,5x - 2,679
R² = 1
0
10
20
30
40
50
60
70
3 4 5 6 7 8
pH
pH
Notas (x 10)
Notas (x 10)
MÉTODO DOS 
MÍNIMOS 
QUADRADOS
y = 9,5x - 2,6786
R² = 0,9694
0
10
20
30
40
50
60
70
3 4 5 6 7 8
161