Buscar

Organização dados discretos e contínuos_21_22

Prévia do material em texto

Análise, representação e redução de dados
INTRODUÇÃO
Já vimos, que o objetivo da Estatística é o estudo de
Populações, isto é, conjunto de indivíduos (não
necessariamente pessoas) com características comuns.
A uma característica comum, que assume valores diferentes de
indivíduo para indivíduo, chamamos variável.
Já vimos que um dos conceitos fundamentais em Estatística é o
de amostra. Quando falamos em amostras, entendemos
conjuntos de dados, que representam convenientemente as
Populações.
Como organizar os dados?
Os dados são organizados na forma de uma tabela de
frequências. No entanto convém fazer distinção
entre os dados discretos e contínuos, já que a
construção da tabela de frequências se processa, de
um modo geral, de forma diferente.
TABELA DE FREQUÊNCIAS
A tabela de frequências, apresenta o número de
elementos – frequência absoluta de cada uma das
categorias e a frequência relativa, onde:
Frequência relativa =
n – dimensão da amostra
nᵢ - frequência absoluta
n
Ni
Organização de dados discretos
Exemplo – Numa turma do curso de EISC, os alunos registaram o
nº de UC realizadas com aproveitamento no 1º semestre, tendo-se
obtido a seguinte amostra:
2 3 3 2 4 1 1 2 2 3
2 2 2 1 1 4 5 4 2 3
A tabela de frequências correspondente à amostra anterior é a seguinte:
Classes F. A. F.R. F.A.A. F.R.A.
1 4 0,20 4 0,20
2 8 0,40 12 0,60
3 4 0,20 16 0,80
4 3 0,15 19 0,95
5 1 0,05 20 1,00
Total 20 1,00 ----- -----
Representação gráfica de dados
❖Variáveis discretas – diagrama de barras
Uma representação gráfica adequada para dados discretos,
é o diagrama de barras.
Diagrama de barras – representação gráfica que consiste
em marcar num sistema de eixos coordenados, no eixo dos
xx, o valor das classes e nesses pontos barras verticais de
altura igual à frequência absoluta ou frequência relativa.
Representação gráfica de dados
4
8
4
3
1
0
1
2
3
4
5
6
7
8
9
1 2 3 4 5
fr
e
q
. 
A
b
s
o
lu
ta
 (
a
lu
n
o
s
)
(nº de UC …)
Diagrama de barras
DIAGRAMA CIRCULAR
O gráfico circular , também conhecido como gráfico de sectores
é um diagrama circular onde os valores de cada categoria
estatística representada são proporcionais às respectivas
frequências.
✓Este gráfico pode vir acompanhado de suas respectivas
percentagens.
✓É utilizado essencialmente para dados qualitativos.
DIAGRAMA CIRCULAR
Obs.: Os ângulos dos sectores são proporcionais às frequências
das classes.
Por exemplo uma classe com uma frequência relativa igual a 0.10,
terá no diagrama circular um sector com um ângulo igual a
360x0.10 = 36 graus.
Características:
✓a área do gráfico equivale á totalidade de casos (100%).
✓cada sector representa a percentagem de cada categoria.
DIAGRAMA CIRCULAR
Exemplo: tipo de sangue de 50 alunos:
DIAGRAMA CIRCULAR
ETAPAS
1. Definição das classes
a) Determinar a amplitude da amostra (R), isto é, a diferença
entre o valor máximo e o mínimo da amostra;
b) Dividir esta amplitude pelo número de classes, k ( a definir
posteriormente);
c) Tomar para amplitude de classe, h, um valor aproximado
por excesso, do valor obtido em b);
d) Construir as classes de modo a que tenham todas a mesma
amplitude e cuja união contenha todos os elementos da amostra.
ETAPAS
2. Contagem do número de elementos de cada classe:
➢ Conta-se o número de elementos da amostra, que pertencem
a cada classe. Analogamente ao que foi considerado no caso
dos dados discretos, esses valores serão as frequências
absolutas das classes.
NÚMERO DE CLASSES A CONSIDERAR (K)
Existe uma regra empírica, que nos dá um valor aproximado para
o número de classes que se devem considerar e que é a seguinte:
➢ Para uma amostra de dimensão n, o número de classes é dado
pelo menor inteiro k tal que .n
k 2
NÚMERO DE CLASSES A CONSIDERAR (K)
Observações:
1) A regra enunciada anteriormente para determinar o número
de classes, é uma de várias regras existentes.
2) A metodologia utilizada para a construção de classes não é
única. Pode-se, por exemplo, decidir construir as classes
fechadas à direita e abertas à esquerda.
Organização de dados contínuos
Ex.: Consideremos a amostra constituída pelas notas obtidas num
exame de P.E., em uma determinada turma de EISC:
12.1 8.9 16.2 8.2 9.8 15.1
14.5 13.4 14.7 7.5 8.8 12.4
16.1 15.2 13.5 13.8 14.6 15.5
7.8 12.5 13.2 11.0 10.5
Organização de dados contínuos
De acordo com a metodologia apresentada anteriormente, temos:
❖ Amplitude da amostra:
❖ Valor de k:
O número de classes é dado pelo menor inteiro k, tal que
7,85,72,16 =−=R
nk 2
5=k
Organização de dados contínuos
❖ Amplitude de classe - h
valor aproximado por excesso
8,174,1
5
7,8
→=== h
k
R
h
Organização de dados contínuos
Tabela de frequências
Classes Freq. Abs. Freq. Rel.
[7.5 - 9.3[ 5 0.2174
[9.3 – 11.1[ 3 0.1304
[11.1 – 12.9[ 3 0.1304
[12.9 – 14.7[ 6 0.2609
[14.7 – 16.5[ 6 0.2609
TOTAL 23 1
Representação gráfica de dados
❖Variáveis contínuas – Histograma
Ao contrário do caso discreto, agora as classes já
não são pontos isolados, mas sim intervalos.
Assim, a representação gráfica já não pode ser
diagrama de barras, mas sim histograma.
Histograma – para representação gráfica de dados
contínuos, usa-se um histograma, formado por
uma sucessão de rectângulos adjacentes, tendo
cada um por base um intervalo de classe e por área
a frequência relativa (ou frequência absoluta).
Representação gráfica de dados
0
5
3 3
6 6
0
1
2
3
4
5
6
7
[5.7 - 7.5[ [7.5 - 9.3[ [9.3 - 11.1[ [11.1 - 12.9[ [12.9 - 14.7[ [14.7 - 16.5[
fr
eq
u
ên
ci
a
 a
b
so
lu
ta
classes
Notas do teste de P.E.
Aspectos apresentados por um histograma
As distribuições mais comuns apresentados pelos
dados são:
❖Distribuições simétricas
❖Distribuições enviesadas
❖Distribuições com caudas longas
❖Distribuições com vários “picos” ou modas
Distribuições simétricas – a distribuição de frequências faz-se de
forma aproximadamente simétrica, relativamente a uma classe
média
Distribuições enviesadas- a distribuição das frequências
faz-se de forma acentuadamente assimétrica,
apresentando valores substancialmente mais pequenos
num dos lados, relativamente ao outro.
Distribuições com caudas longas – a distribuição das
frequências faz-se de tal forma que existe um grande número
de classes nos extremos, cujas frequências são pequenas,
relativamente às classes centrais.
Distribuições com vários “picos” ou modas – a distribuição das
frequências apresenta 2 ou mais “picos” a que chamamos moda
Dados bivariados
Por vezes a População que se pretende estudar
aparece sobre a forma de pares de valores, isto é
cada indivíduo ou resultado experimental
contribui com um conjunto de dois valores.
A representação gráfica utilizada é o diagrama de
dispersão ou de pontos.
Diagrama de dispersão – é uma representação
gráfica para os dados bivariados, em que cada par
de dados (x, y) é representado por um ponto de
coordenadas (x, y), num sistema de eixos
coordenados.
Dados bivariados
Exemplo 1 – Considere os seguintes dados, que representam
o número de faltas não autorizadas por ano e a distância (em
km) a que os empregados de determinada fábrica estão de
casa.
distância (x) nº faltas (y)
1 8
3 5
4 8
6 7
8 6
10 3
12 5
14 2
16 4
18 2
Diagrama de dispersão ou de pontos
0
1
2
3
4
5
6
7
8
9
0 2 4 6 8 10 12 14 16 18 20
n
º 
fa
lt
a
s 
(y
)
distância (x)
distância vs nº faltas
Comentário 
O gráfico mostra uma ligeira associação, de sentido
contrário, entre o nº de faltas e a distância. Assim,
quanto maior é a distância, menor é a tendência para
faltar!
Dados bivariados
Exemplo 2 – Considere os seguintes dados que representam as
medidas em mm, de ossos do braço e da perna, de 5 espécies de
animais.
ESPÉCIE Braço (Úmero) Perna (Fémur)
A 312 430
B 335 458
C 286 407
D 312 440
E 305 422
Diagrama de dispersão
A
B
C
D
E
400
410
420
430
440
450
460
470
280 290 300 310 320330 340
p
er
n
a
 (
fé
m
u
r)
braço (úmero)
medidas (em mm) do braço vs perna 
Comentário
Verifica-se uma associação linear entre as medidas
dos ossos do braço e da perna, isto é, aos maiores
valores de x (braço) correspondem os maiores
valores de y (perna).
Esta conclusão seria de esperar, pois de um modo
geral se as pessoas são grandes, são-no de braços e
pernas!
Dados bivariados
Exemplo 3 – Considere os seguintes dados, que representam as notas obtidas 
por 10 alunos nas disciplinas de Estatística e Inglês.
Estatística (x) Inglês (y)
12 14
13 15
10 10
11 17
18 16
16 12
12 15
14 12
18 14
18 12
Diagrama de dispersão
0
2
4
6
8
10
12
14
16
18
0 2 4 6 8 10 12 14 16 18 20
In
g
lê
s
Estatística
Estatística vs Inglês
Comentário
Aparentemente não existe nenhuma associação
linear entre as notas obtidas nas duas disciplinas,
uma vez que os pontos se encontram dispersos.

Mais conteúdos dessa disciplina