Buscar

17ª Aula EB I

Prévia do material em texto

Prof.: José Rodrigo de Moraes (GET/UFF)
Prof.: José Rodrigo de Moraes (GET/UFF) 1
1
Estatística Básica I
(17ª Aula)
Prof.: José Rodrigo de Moraes
2
Transformação de Dados:
Vários procedimentos estatísticos são baseados na 
suposição de que os dados seguem pelo menos uma 
distribuição aproximadamente normal, ou então, mais ou 
menos simétrica. Mas, em muitas situações de interesse 
prático, a distribuição dos dados da amostra é assimétrica e 
pode conter valores discrepantes (atípicos).
Se quisermos usar utilizar tais procedimentos, o que 
se propõe é efetuar uma transformação dos dados, 
de modo a se obter uma distribuição mais simétrica 
e, portanto, mas próxima da normal.
3
Transformação dos dados:
Suponhamos que a distribuição dos dados é assimétrica, 
como é o caso de muitas variáveis que são estritamente 
positivas e cuja distribuição é muito desigual, como, por 
exemplo, a variável renda. Entre as transformações 
y=ψ(x) mais comumente utilizadas para simetrizar os 
dados com assimetria à direita, estão:
y=√√√√x y=ln(x) y=-1/√√√√x y=-1/x y=-1/x2
Todas as transformações acima preservam a ordem dos 
dados originais.
4
Transformação dos dados:
Como determinar qual a transformação mais adequada a 
um certo conjunto de dados ?
Procure a transformação ψ que minimiza a expressão 
abaixo:
� Devido a propriedade de preservação dos dados, a ordem 
da mediana (md) e dos quartis (Q1 e Q3) também é
preservada.
( ) ( )
( ) ( ) 2
1
QQ
mdQ
13
3 −
−
−
=
ψψ
ψψ
η
5
Transformação dos dados:
� Se a distribuição dos dados for perfeitamente simétrica 
temos que:
onde:
(Q3-md)/(Q3-Q1) é uma expressão adimensional e, 
portanto, não é afetada pela escala de medida, além de 
ser neutra com relação a transformação adotada.
2
1
QQ
mdQ
2
QQ
md
13
331 =
−
−
⇒
+
=
6
Exemplo: A tabela abaixo fornece o número total de 
alunos e professores em 1982 para as principais 
universidades dos quatro maiores estados do Brasil (MG, 
RJ, RS e SP). Deseja-se estudar o comportamento do
indicador educacional “Razão aluno-professor“, isto é:
sprofessoredeNº
alunosdeNº
Prof.: José Rodrigo de Moraes (GET/UFF)
Prof.: José Rodrigo de Moraes (GET/UFF) 2
7
Dados originais: Razão aluno-professor
Universidade
 Nº de 
alunos 
 Nº de 
profesores 
 Razão 
alunos/professores 
PUC de Minas Gerais 13.147 713 18,44 
Federal de Juiz de Fora 6.606 781 8,46 
Federal de Minas Gerais 23.759 2.194 10,83 
Federal de Ouro Preto 1.106 178 6,21 
Federal de Urbelândia 6.651 765 8,69 
Federal de Viçosa 5.842 667 8,76 
PUC do Rio Grande do Sul 23.045 1.459 15,80 
Católica de Pelotas 5.711 381 14,99 
Universidade de Caxias do Sul 9.196 497 18,50 
Federal de Pelotas 4.877 903 5,40 
Federal do Rio Grande do Sul 16.985 2.451 6,93 
Federal de Santa Maria 9.693 1.362 7,12 
Universidade de Passo Fundo 7.450 530 14,06 
Universidade do Rio Grande 3.476 490 7,09 
Universidade do Vale do Rio dos Sinos 21.000 650 32,31 
PUC do Rio de Janeiro 8.232 788 10,45 
Católica de Petrópolis 4.200 298 14,09 
Estadual do Rio de Janeiro 11.000 1.750 6,29 
Federal Fluminense 21.775 2.415 9,02 
Federal do Rio de Janeiro 30.000 3.580 8,38 
Federal Rural do Rio de Janeiro 3.686 611 6,03 
Gama Filho 26.000 1.541 16,87 
PUC de Campinas 18.132 1.157 15,67 
PUC de São Paulo 15.296 1.526 10,02 
Estadual de Campinas 9.843 1.474 6,68 
UNESP Júlio de Mesquita Filho 14.204 2.395 5,93 
Federal de São Carlos 2.566 463 5,54 
Mackenzie 14.022 121 115,88 
Universidade de Mogi das Cruzes 15.088 924 16,33 
Estadual de São Paulo 44.159 4.461 9,90 
Metodista de Piracicaba 6.600 500 13,20 
Fonte: Almanaque Abril de 1985
8
Ramo-e-folhas: Razão aluno-professor
5 40 93 54
6 21 93 29 03 68
7 12 09
8 46 69 76 38
9 02 90
10 83 45 02
11
12
13 20
14 99 06 09
15 80 67
16 87 33
17
18 44 50
...
32 31
.....
115 88
9
Box-Plot (ou Gráfico-Caixa) para os valores originais:
0 20 40 60 80 100 120
10
Aplicação das transformações:
0,1470,000-0,004-0,010-0,021-0,034-1/x2
0,037-0,009-0,064-0,101-0,144-0,185-1/x
0,012-0,093-0,253-0,318-0,380-0,430-1/√x
0,0624,7532,7522,2931,9361,686ln(x)
0,11310,7653,9593,1462,6322,324√x
0,160115,8815,679,906,935,40x
ηηηη
maxQ3mdQ1min
Esquema de Cinco númerosTransf
ψ(x)
2
1
QQ
mdQ
13
3 −
−
−
=η
Feita a transformação podemos considerar ηηηη, para fins de 
simplificação, por: 
11
Qual transformação escolher ?
A que fornecer um ηηηη mais próximo de zero, isto é, a 
transformação mais adequada é y=ψ(x)= -1/√x, cujos 
valores variam de –0,430 (min) a -0,093 (max);
A seguir é construído o box-plot para os dados 
transformados.
12
-0,45 -0,40 -0,35 -0,30 -0,25 -0,20 -0,15 -0,10 -0,05 0,00
Box-Plot (ou Gráfico-Caixa) para os valores 
transformados: y=ψψψψ(x)= -1/√√√√x
Prof.: José Rodrigo de Moraes (GET/UFF)
Prof.: José Rodrigo de Moraes (GET/UFF) 3
13
Exercício: Para cada ramo do setor industrial foi 
calculado um índice de variação de evasão fiscal de IRPJ 
(Imposto de Renda - Pessoa Jurídica) entre 1975 e 1980.
a) Faça o ramo-e-folha para os dados originais.
b) Construa o esquema de cinco-números para os dados 
originais.
c) Procure uma transformação adequada para os dados. 
Justifique a escolha da transformação utilizada.
d) Construa o esquema de cinco-números e o box-plot 
para os dados transformados, e julgue quanto a 
simetrização dos dados. 14
Dados originais: IRPJ
OBS: Quanto maior o índice, maior o aumento de evasão
Fonte: SERPRO
Ramo do setor industrial Índice
Extração e tratamento de minérios 131
Tranformação de produtos minerais não metálicos 96
Metalúrgica 70
Mecânica 81
Material elétrico e de comunicação 83
Material de transporte 43
Madeira 106
Mobiliário 71
Papel e Papelão 81
Borracha 235
Couros e peles 120
Química 90
Famacêutica e veterinária 221
Produtos de matérias plásticas 103
Têxtil 103
Vestuário, calçado e artefatos de tecidos 46
Produtos alimentares 84
Fumo 323
Editorial e gráfica 84
Diversas 97
15
Respostas das letras (b) e (c) do exercício anterior:
b) 
c)
0,0034-1/x2
0,0444-1/x0,0648-1/√x
0,0851ln(x)
0,1052√x
0,1250x
ηηηηTransf
ψψψψ(x)
93
81 113
43 323
Esquema de cinco números

Continue navegando