Capítulo 1

•

UFRJ

Rafaella Rodrigues

20.08.2014

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Bioestatística I

12.311 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1
ANÁLISE EXPLORATÓRIA
O que é analisar dados?
CAPÍTULO 1 - ANÁLISE 
EXPLORATÓRIA PARA UMA VARIÁVEL
� Conceitos a serem introduzidos neste capítulo:
� População e Amostra
� Observações e Variáveis
� Variável qualitativa x Variável quantitativa
� Tabela de freqüências
� Gráfico de barras e Gráfico de setores
� Histograma e Gráfico Ramo-folha
� Média, mediana e moda
� Variância, Desvio Padrão, Coeficiente de variação e Distância 
Interquartil
� Resistência de uma medida
� Valores discrepantes (Outliers)
� Box plot
2
Diego e Walter trabalhavam, havia muitos anos, na fábrica de 
camisas masculinas Colarinho Branco. Um dia, o Gerente de 
Produção pediu demissão para ir trabalhar numa empresa 
multinacional do ramo. O dono da Colarinho Branco, Sr. Paulo, 
chamou então seus dois experientes empregados para comunicar-
lhes que um deles seria o novo Gerente de Produção. Contudo, 
disse-lhes que essa escolha dependeria de um pequeno teste ao qual 
ambos seriam submetidos. Ele pediu a cada um dos dois que: 
•selecionasse amostras de 200 homens adultos; 
•medisse a circunferência do pescoço de cada indivíduo dessas 
amostras; 
•apresentasse por escrito um relatório com as suas conclusões.
Logo no segundo dia após ter começado as medições, Walter 
compareceu sorridente perante o Sr. Paulo para apresentar o seu 
trabalho. Ele não tinha mais dúvidas de que seria o escolhido. 
Passaram-se mais um, dois, três dias, e somente quatro dias depois 
é que Diego entregou o seu trabalho. No quinto dia, o dono da 
empresa anunciou: Diego será o novo Gerente de Produção. 
Walter não conseguia entender o porquê da escolha, que ele 
considerava injusta, e foi interpelar o Sr. Paulo. Expôs os seus 
motivos e lembrou que tinha entregue o seu trabalho quatro dias 
antes de Diego. 
O Sr. Paulo então, calmamente, o chamou ao seu lado e 
mostrou-lhe os dois trabalhos. O relatório de Walter estava 
caprichado sim, com as pessoas ordenadas alfabeticamente e seus 
respectivos tamanhos de colarinho. “Bonito o teu trabalho”, falou o 
Sr. Paulo, “só que de nada me serve.” A seguir mostrou o 
relatório que Diego tinha apresentado. As pessoas não estavam 
ordenadas alfabeticamente, mas por tamanho de colarinho. “Você 
vê”, falou o dono, “agora eu sei quais são os tamanhos extremos, o 
menor e o maior.” “Além disso”, e mostrou-lhe uma tabela de 
freqüências apresentada por Diego, “eu posso ver imediatamente 
qual o tamanho de colarinho que tenho de fabricar em maior 
quantidade e as proporções correspondentes aos outros tamanhos.” 
A seguir mostrou um histograma onde claramente podia ser 
vista a distribuição dos diversos tamanhos de colarinhos. 
3
E ainda tinha mais. No seu trabalho, Diego tinha calculado o 
tamanho médio dos colarinhos, o seu desvio padrão, e tinha feito 
um gráfico de caixas (Box-plot), onde sobressaíam nitidamente os 
quartis inferior e superior e a mediana para a amostra de colarinhos. 
Walter ficou admirado com o trabalho de Diego. Percebeu 
que todas as informações apresentadas por ele eram de fato 
relevantes para a produção de camisas. Diante de tantas evidências, 
ele aceitou as explicações do Sr. Paulo e foi cumprimentar o colega 
recém-promovido. No dia seguinte inscreveu-se em um treinamento 
em Métodos Estatísticos que em breve seria oferecido por uma 
conceituada universidade.
No caso relatado, Diego apresentou um trabalho muito mais 
completo que o de Walter, graças ao seu conhecimento das técnicas 
de Análise Exploratória de Dados, como as que serão apresentadas 
nesta obra.
Analisar dados é...
� ...identificar comportamentos médios, comportamentos
discrepantes, comparar comportamentos, investigar a
interdependência entre variáveis, revelar tendências,
etc.
� ... a partir de uma massa de dados, e com o auxílio
dos recursos computacionais, separar o que é
essencial (estrutura) do que é eventual (ruído).
� ... resumir, de forma inteligente, a informação contida
nos dados e assim, permitir que, através desse
conhecimento, as decisões sejam tomadas de forma
mais consciente.
4
Identificar comportamentos médios
Procurar o centro da informação. Ex:
� Uma turma com 300 alunos gostaríamos de
saber o desempenho geral, não olhando
individualmente cada aluno e sim a média
que é um número que resume o desempenho
da turma.
Comportamentos discrepantes
 Rondonia
 Para
 Amazonas
 Distrito Federal
 Bahia
200
400
600
800
1000
5
Comparar comportamentos
Comparação de dois grupos:
� Placebo
� Remédio
Verificar, através de duas amostras, uma de
cada grupo tomando remédio e outra não, se
existe diferença no aumento médio da
pressão sistólica.
Investigar a Interdependência 
entre Variáveis
Sexo
Curso
M F
M - Matemática 40 60 100
E - Estatística 30 20 50
I - Informática 30 70 100
100 150 250
Curso Sexo
1 I M
2 I M
3 E F
4 E M
5 I F
6 E F
7 I M
. . .
. . .
. . .
250 I M
6
Revelar Tendências
X = Rendimento 
Y = Consumo 
Y = a + bx + e
Recursos Computacionais
� R - www.r-project.org (Splus)
� SPSS
� SAS - Statistical Analysis System
� Statistica
� Minitab
� Systat
� Microsoft Exel
7
Estrutura & Ruído
Nem toda família com a mesma renda reage 
igual com relação ao consumo: 
� Logo incorpora-se o Ruído (e) ao modelo.
� Sendo a + bx a Estrutura.
X = Rendimento
Y = Consumo Y = a + bx + e
Estrutura Ruído
O que é Análise Exploratória?
Trata-se de um conjunto de técnicas de tratamento
de dados que, sem implicar em uma fundamentação
matemática mais rigorosa, nos ajuda a tomar um primeiro
contacto com a informação disponível.
Essas técnicas freqüentemente nos levarão à
construção de tabelas e, sobretudo, de gráficos que
pretendem facilitar a nossa compreensão do fenômeno
em estudo apelando para o poder de visualização do ser
humano.
8
O que vem depois da Análise 
Exploratória?
Uma vez de posse das “pistas” a respeito do tema em
estudo, que nos foram fornecidas pela Análise
Exploratória, podemos partir para a chamada Inferência,
onde serão aplicados aos dados métodos estatísticos
mais sofisticados, cuja fundamentação matemática está
no Cálculo de Probabilidades.
Tipologia das variáveis
Quando é feito um levantamento de dados a respeito
de um determinado assunto, esses dados costumam ser
representados como na Tabela 1.1, onde cada linha
corresponde a uma observação e cada coluna
corresponde a uma variável.
Qualitativa
Quantitativa
Nominal
Ordinal
Discreta
Continua
Variável
9
No da Obs. Bairro Tipo N
o de quartos Preço (*)
1 Barra Apto. 2 165
2 Barra Apto. 3 240
3 Barra Cobt. - 158
4 Barra Sala - 150
5 Botafogo Apto. 2 59
6 Catete Apto. 1 54
7 Centro Sala - 35
8 Copacabana Apto. 2 83
9 Copacabana Apto. 3 180
10 Copacabana Apto. 4+ 85
11 Flamengo Apto. 1 58
12 Flamengo Cobt. - 120
13 Gávea Apto. 4+ 250
14 Ipanema Apto. 3 130
15 Jacarepaguá Apto. 3 90
16 Lagoa Apto. 2 130
17 Laranjeiras Apto. 2 68
18 Laranjeiras Apto. 4+ 360
19 Leblon Apto. 3 300
20 Leblon Apto. 4+ 600
21 Maracanã Apto. 3 137
22 Recreio Cobt. - 240
23 São Conrado Casa 4+ 650
24 Tijuca Apto. 2 49
25 Tijuca Apto. 2 95
26 Tijuca Casa 4+ 170
27 Vila Isabel Apto. 2 57
Tabela 1.1 - Amostra sistemática, de 20 em 20, dos imóveis anunciados para venda
no Jornal do Brasil num sábado
(*) em milhares de reais - Fonte: Caderno Achei Imóveis do Jornal do Brasil
Nos exemplos abaixo, imaginemos que estamos considerando
sempre um conjunto de dados onde cada observação é uma pessoa.
Uma variável é dita qualitativa nominal ou categórica quando osseus valores possíveis são diferentes categorias não ordenadas, em
que cada observação pode ser classificada. Alguns exemplos seriam:
Raça, Nacionalidade, Área de Atividade.
Uma variável é dita qualitativa ordinal quando os seus valores
possíveis são diferentes categorias ordenadas, em que cada
observação pode ser classificada. Alguns exemplos seriam: Classe
social, Nível de Instrução.
Uma variável é dita quantitativa discreta quando os seus valores
possíveis são resultados de um processo de contagem. Alguns
exemplos seriam: Número de filhos, Idade em anos.
Uma variável é dita quantitativa contínua quando os seus
valores possíveis podem ser expressos através de números reais.
Alguns exemplos seriam: Renda mensal, Peso, Altura.
10
Distribuições de Freqüências. 
Tabelas e Gráficos.
Variáveis Qualitativas e 
Variáveis Quantitativas Discretas
Tabela 1.2 - Freqüências e Percentuais dos 1230 respondentes
da Pesquisa junto à população do Estado do RJ em 1986,
segundo o“problema mais grave do Estado”
Problema mais grave do Estado Freqüências Percentuais
Segurança / Violência 360 29,27
Educação 160 13,01
Saúde 152 12,36
Saneamento 118 9,59
Alimentação / Fome / Pobreza 73 5,93
Transporte 63 5,12
Outros 304 24,72
Total 1230 100,00
Fonte: Pesquisa de Opinião sobre as Eleições do Rio de Janeiro 1986 - IBASE / SERPRO / IM-UFRJ
11
Figura 1.1 - Gráfico de barras correspondente aos
percentuais dos 1230 respondentes da Pesquisa junto à
população do Estado do RJ em 1986, segundo o
“problema mais grave do Estado”
S/V Educ Saude Saneam A/F/P Transp Outros
0
5
10
15
20
25
30
Fonte: Pesquisa de Opinião sobre as Eleições do Rio de Janeiro 1986 - IBASE / SERPRO / IM-UFRJ
Figura 1.2 - Gráfico de setores correspondente aos
percentuais dos 1230 respondentes da Pesquisa junto à
população do Estado do RJ em 1986, segundo o
“problema mais grave do Estado”
Fonte: Pesquisa de Opinião sobre as Eleições do Rio de Janeiro 1986 - IBASE / SERPRO / IM-UFRJ
Segurança.
Violência
Educ
Saúde
Outros
12
Variáveis Quantitativas 
Contínuas
Tabela 1.8. Telefonia fixa per capita em cada estado do brasil em 2001 
(em linhas telefônicas por 1.000 habitantes)
Fonte: Almanaque Abril 2002 
Acre 183,8 Maranhão 86,1 Rio de Janeiro 347,5
Alagoas 125,4 M. Grosso 199,6 R. G. Norte 150,1
Amapá 193,3 M. G. Sul 235,3 R. G. Sul 236,9
Amazonas 162,0 M. Gerais 218,6 Rondônia 214,6
Bahia 142,3 Pará 128,0 Roraima 214,1
Ceará 140,6 Paraíba 125,4 S. Catarina 257,3
D. Federal 456,8 Paraná 244,2 S. Paulo 362,8
E.S. 228,7 Pernambuco 147,8 Sergipe 140,7
Goiás 231,4 Piauí 118,2 Tocantins 113,8
Tabela 1.9-Tabela de freqüências para a telefonia fixa per capita em 2001
(em linhas telefônicas por 1.000 habitantes)
No que se refere ao exemplo aqui considerado, vamos dividir o
intervalo [50, 500], que contem todos os valores observados da variável
considerada, em sub-intervalos de amplitude 50 (fechados à esquerda e
abertos à direita) e contar o número de ocorrências em cada um deles.
Fonte: Almanaque Abril 2002
Classe Frequência Ponto Médio Percentual
50 a 99 1 75 3,70
100 a 149 9 125 33,33
150 a 199 5 175 18,52
200 a 249 8 225 29,63
250 a 299 1 275 3,70
300 a 349 1 325 3,70
350 a 399 1 375 3,70
400 a 449 0 425 0,00
450 a 499 1 475 3,70
Total 27 100,00
13
Figura 1.3 - Histograma do número de linhas 
telefônicas por 1.000 habitantes.
183,183,
Gráfico Ramo-Folha
125, 193, 142, 140, 456, 228, 231, 86, 199, 235, 218, 128, 125,
244, 147, 118, 347, 150, 236, 214, 214, 257, 362, 140 113
125, 193,162,162, 142, 140, 456, 228, 231, 86, 199, 235, 218, 128, 125,
244, 147, 118, 347, 150, 236, 214, 214, 257, 362, 140,113
Dados da Tabela 1.8
14
Medidas de Centralidade para 
Variáveis Quantitativas
Sejam x1, x2, ..., xn os valores observados da
variável considerada. A média aritmética dos dados é
definida por:
n
x
n
x...xx
x in21
∑
=
+++
=
Medidas de Centralidade para 
Variáveis Quantitativas
A moda dos dados é aquele valor da amostra
que ocorre com maior freqüência.
Sejam x(1) ≤ x(2) ≤ ... ≤ x(n) os mesmos
valores que compõem a amostra, porém dispostos
em ordem crescente. Amediana dos dados é :
~
X =
Valor da observação de posição central, se n é impar;
Média dos valores das observações de posição central, se n é par;
15
EXEMPLO
Exemplo 1:
Voltando ao caso da variável no de linhas
telefônicas por 1.000 habitantes nos estados do Brasil, a
média é
188,200
27
8,113...4,1258,183
=
+++
=x
Como n = 27 é ímpar, a mediana neste caso é a
observação de ordem 14 na amostra ordenada, a saber,
~
X = 193,3.
Exemplo 2:
Considere agora o exemplo dos dados da tabela
1.1. A moda da variável no de quartos é igual a 2, o valor
mais freqüente.
Medidas de Dispersão para 
Variáveis Quantitativas
Sejam x1, x2, ..., xn os dados observados. O
Desvio Padrão (S) dos dados é calculado por :
S
(x x)
n 1
i
2
i 1
n
=
−
−
=
∑
=
− ⋅
−
∑ x n x
n 1
i
2 2
16
Medidas de Dispersão para 
Variáveis Quantitativas
Uma medida de dispersão para uma variável quantitativa é um indicador 
do grau de espalhamento dos valores da amostra em torno da medida de 
centralidade.
Exemplo 1.14: O que é a dispersão de uma variável quantitativa?
Vamos comparar os seguintes conjuntos de dados:
Tabela 1.11 - Quatro conjuntos de dados hipotéticos
Conjunto 1 : 4 4 4 10 16 16 16
Conjunto 2 : 4 6 8 10 12 14 16
Conjunto 3 : 7 8 9 10 11 12 13
Conjunto 4 : 10 10 10 10 10 10 10
Medidas de Dispersão para 
Variáveis Quantitativas
O coeficiente de variação (CV) é o quociente entre o desvio
padrão e a média, o CV é uma medida de dispersão relativa:
x
S
VC =
Exemplo 1.17 : Mães e seus filhos recém-nascidos
Os dados abaixo representam o peso em kg de 5 mães e de 
seus respectivos bebês recém nascidos 
Peso da mãe : 52,3 52,5 53 53,5 54
Peso do recém-
nascido :
2,3 2,5 3 3,5 4
Médi-
a
Vari-
ância
Desvio 
padrão
53,06 0,493 0,702
3,06 0,493 0,702
CV
0,009
0,161
17
Medidas de Dispersão para 
Variáveis Quantitativas
Seja x(1) ≤ x(2) ≤ ... ≤ x(n) a amostra ordenada em
ordem crescente.
Já vimos que a mediana é um valor tal que metade dos
dados é menor que ele e metade dos dados é maior que ele.
Analogamente, os 3º quartis são valores que dividem os
dados em 4 grupos, cada um deles contendo 1/4 do tamanho
total da amostra. O primeiro quartil Q1 tem 1/4 dos dados
abaixo dele e 3/4 dos dados acima dele. O terceiro quartil Q3
tem 3/4 dos dados abaixo dele e 1/4 dos dados acima dele. O
segundo quartil Q2 é a própria mediana. O Intervalo
Interquartil é dado por:
IIQ = Q 3 −−−− Q1
EXEMPLO 
Voltando ao exemplo dos dados da Tabela 1.3 ,
temos:
127
)19,002(114...)19,002(125)19,002(184
S
222
−
−++−+−
= = 84,437
A mediana é a observação de ordem 14 na amostra
ordenada.
O 1o quartil Q1 está a meio caminho entre as
observações de ordem 1 e 14.
Como , Q1 é a média aritmética entre
X(7) =140,6 e X(8) = 140,7. Logo Q1 = 140,65.
Analogamente, Q3 = 1/2 [ X (20) + X(21) ] =
½ [ 231,4 + 235,3 ] = 233,35.
Logo IIQ = 233,35 −−−− 140,65 = 92,70.
1 1 4
2
7 ,5
+
=
18
Medidas Resistentes para 
Variáveis Quantitativas 
Diz-se que uma medida de centralidade ou de
dispersão é resistente quando ela é pouco afetada
pela presença de observações discrepantes.
Entre as medidas de centralidade, a média
aritmética é bem menos resistente que a mediana. Por
outro lado, entre as medidas de dispersão, o desvio
padrão é bem menos resistente que o intervalo
interquartil.
EXEMPLO 
(No de linhas telefônicas por 1.000 habitantes – Tabela 1.8)
Para comprovarmos as afirmações acima, vamos
eliminar dos dadoso valor 456,8 correspondente ao Distrito
Federal e então recalcularemos os valores das 4 medidas
acima mencionadas.
Medida
Amostra 
Completa
Amostra 
Expurgada
Média 200,19 190,32
Mediana 193,3 188,6
Desvio Padrão 84,44 68,41
Intervalo Interquartil 92,7 90,2
19
Identificação de Observações Discrepantes 
em Variáveis Quantitativas
Por que isto é importante?
Um critério bastante utilizado para a
identificação de observações discrepantes que se
baseia em medidas pouco resistentes é apontar toda
observação que estiver fora do intervalo:
onde α é uma constante positiva arbitrariamente
fixada (usualmente α = 2 ou α = 3).
( X – αααα * S ; X + αααα * S )
EXEMPLO 
Como = 200,19 e S = 84,44 ,
para α = 2 o intervalo é ( 31,31 ; 369,06 ) e
para α = 3 o intervalo é ( - 53,12 ; 453,50 ).
Em ambos os casos o valor 456,8, correspondente
ao Distrito Federal, seria apontado como discrepante.
Um outro critério também muito usado, que se
baseia em medidas mais resistentes para a identificação
de observações discrepantes é apontar qualquer valor
inferior a Q1 - 3/2 IIQ ou superior a Q3 + 3/2 IIQ.
20
Esquema dos cinco números
� É uma lista de informações da distribuição 
que inclui cinco medidas, a saber, x(1), Q1, 
Q2, Q3 e x(n).
� Estes cinco valores são importantes para se 
ter uma boa idéia da assimetria dos dados.
Esquema dos cinco números
� Para uma distribuição 
simétrica ou 
aproximadamente 
simétrica, deveríamos ter: 
� (a) Q2- x(1) ≅ x(n)-Q2;
� (b) Q2-Q1 ≅ Q3-Q2; 
� (c) Q1- x(1) ≅ x(n)-Q3; 
� (d) Q2 - Q1 << Q1- x(1)
Q3 – Q2 << x(n)-Q3
21
Desenho Esquemático (Box Plots)
A informação contida 
no esquema dos cinco 
números pode ser 
traduzida graficamente 
num diagrama, 
conhecido como box 
plot (também chamado 
de gráfico-caixa).
Box Plot para Variáveis 
Quantitativas
Como construí-lo?
a) Inicialmente é traçado um eixo vertical onde serão
representados os valores da variável considerada.
b) Depois se desenha um retângulo cuja base inferior corresponde
à posição do 1o quartil Q1 e cuja base superior corresponde à
posição do 3o quartil Q3.
c) Em seguida são traçados dois segmentos de reta verticais que
vão, um desde o ponto médio da base inferior do retângulo até a
posição da menor observação não discrepante, e o outro desde
o ponto médio da base superior do retângulo até a posição da
maior observação não discrepante.
d) Cada uma das observações discrepante s tem a sua posição
explicitada no gráfico.
22
� As observações que 
estiverem acima de 
CS=Q3+(1,5)IIQ 
ou abaixo de 
CI=Q1-(1,5)IIQ são 
chamadas pontos 
discrepantes e representadas 
por asteriscos.
� Essa observações destoantes 
das demais podem ser o que 
chamamos de outliers ou 
valores atípicos.
23
Observação
� Não necessariamente 
haverá a presença de 
pontos exteriores num 
boxplot. 
� Quando for este o caso, 
o esquema terá a 
seguinte aparência:
EXEMPLO
Voltando ao mesmo exemplo, temos:
Q1 = 140,6 , Q3 = 233,3 e IIQ = 92,7.
Logo Q1 - 3/2 IIQ = 1,5 e Q3 + 3/2 IIQ = 372,5.
Novamente aqui o valor correspondente ao
Distrito Federal (456,8) seria considerado suspeito.
Obs.: Convém observar que ambos os critérios aqui
apresentados pressupõem que a distribuição de
freqüências (que pode ser representada pelo
Histograma ou pelo Gráfico Ramo Folha) dos dados
é simétrica com relação à medida de centralidade
adotada (média ou mediana).
E se isto não for válido para o nosso conjunto de
dados?