Baixe o app para aproveitar ainda mais
Prévia do material em texto
Prof.: José Rodrigo de Moraes (GET/UFF) Prof.: José Rodrigo de Moraes (GET/UFF) 1 1 Estatística Básica I (17ª Aula) Prof.: José Rodrigo de Moraes 2 Transformação de Dados: Vários procedimentos estatísticos são baseados na suposição de que os dados seguem pelo menos uma distribuição aproximadamente normal, ou então, mais ou menos simétrica. Mas, em muitas situações de interesse prático, a distribuição dos dados da amostra é assimétrica e pode conter valores discrepantes (atípicos). Se quisermos usar utilizar tais procedimentos, o que se propõe é efetuar uma transformação dos dados, de modo a se obter uma distribuição mais simétrica e, portanto, mas próxima da normal. 3 Transformação dos dados: Suponhamos que a distribuição dos dados é assimétrica, como é o caso de muitas variáveis que são estritamente positivas e cuja distribuição é muito desigual, como, por exemplo, a variável renda. Entre as transformações y=ψ(x) mais comumente utilizadas para simetrizar os dados com assimetria à direita, estão: y=√√√√x y=ln(x) y=-1/√√√√x y=-1/x y=-1/x2 Todas as transformações acima preservam a ordem dos dados originais. 4 Transformação dos dados: Como determinar qual a transformação mais adequada a um certo conjunto de dados ? Procure a transformação ψ que minimiza a expressão abaixo: � Devido a propriedade de preservação dos dados, a ordem da mediana (md) e dos quartis (Q1 e Q3) também é preservada. ( ) ( ) ( ) ( ) 2 1 QQ mdQ 13 3 − − − = ψψ ψψ η 5 Transformação dos dados: � Se a distribuição dos dados for perfeitamente simétrica temos que: onde: (Q3-md)/(Q3-Q1) é uma expressão adimensional e, portanto, não é afetada pela escala de medida, além de ser neutra com relação a transformação adotada. 2 1 QQ mdQ 2 QQ md 13 331 = − − ⇒ + = 6 Exemplo: A tabela abaixo fornece o número total de alunos e professores em 1982 para as principais universidades dos quatro maiores estados do Brasil (MG, RJ, RS e SP). Deseja-se estudar o comportamento do indicador educacional “Razão aluno-professor“, isto é: sprofessoredeNº alunosdeNº Prof.: José Rodrigo de Moraes (GET/UFF) Prof.: José Rodrigo de Moraes (GET/UFF) 2 7 Dados originais: Razão aluno-professor Universidade Nº de alunos Nº de profesores Razão alunos/professores PUC de Minas Gerais 13.147 713 18,44 Federal de Juiz de Fora 6.606 781 8,46 Federal de Minas Gerais 23.759 2.194 10,83 Federal de Ouro Preto 1.106 178 6,21 Federal de Urbelândia 6.651 765 8,69 Federal de Viçosa 5.842 667 8,76 PUC do Rio Grande do Sul 23.045 1.459 15,80 Católica de Pelotas 5.711 381 14,99 Universidade de Caxias do Sul 9.196 497 18,50 Federal de Pelotas 4.877 903 5,40 Federal do Rio Grande do Sul 16.985 2.451 6,93 Federal de Santa Maria 9.693 1.362 7,12 Universidade de Passo Fundo 7.450 530 14,06 Universidade do Rio Grande 3.476 490 7,09 Universidade do Vale do Rio dos Sinos 21.000 650 32,31 PUC do Rio de Janeiro 8.232 788 10,45 Católica de Petrópolis 4.200 298 14,09 Estadual do Rio de Janeiro 11.000 1.750 6,29 Federal Fluminense 21.775 2.415 9,02 Federal do Rio de Janeiro 30.000 3.580 8,38 Federal Rural do Rio de Janeiro 3.686 611 6,03 Gama Filho 26.000 1.541 16,87 PUC de Campinas 18.132 1.157 15,67 PUC de São Paulo 15.296 1.526 10,02 Estadual de Campinas 9.843 1.474 6,68 UNESP Júlio de Mesquita Filho 14.204 2.395 5,93 Federal de São Carlos 2.566 463 5,54 Mackenzie 14.022 121 115,88 Universidade de Mogi das Cruzes 15.088 924 16,33 Estadual de São Paulo 44.159 4.461 9,90 Metodista de Piracicaba 6.600 500 13,20 Fonte: Almanaque Abril de 1985 8 Ramo-e-folhas: Razão aluno-professor 5 40 93 54 6 21 93 29 03 68 7 12 09 8 46 69 76 38 9 02 90 10 83 45 02 11 12 13 20 14 99 06 09 15 80 67 16 87 33 17 18 44 50 ... 32 31 ..... 115 88 9 Box-Plot (ou Gráfico-Caixa) para os valores originais: 0 20 40 60 80 100 120 10 Aplicação das transformações: 0,1470,000-0,004-0,010-0,021-0,034-1/x2 0,037-0,009-0,064-0,101-0,144-0,185-1/x 0,012-0,093-0,253-0,318-0,380-0,430-1/√x 0,0624,7532,7522,2931,9361,686ln(x) 0,11310,7653,9593,1462,6322,324√x 0,160115,8815,679,906,935,40x ηηηη maxQ3mdQ1min Esquema de Cinco númerosTransf ψ(x) 2 1 QQ mdQ 13 3 − − − =η Feita a transformação podemos considerar ηηηη, para fins de simplificação, por: 11 Qual transformação escolher ? A que fornecer um ηηηη mais próximo de zero, isto é, a transformação mais adequada é y=ψ(x)= -1/√x, cujos valores variam de –0,430 (min) a -0,093 (max); A seguir é construído o box-plot para os dados transformados. 12 -0,45 -0,40 -0,35 -0,30 -0,25 -0,20 -0,15 -0,10 -0,05 0,00 Box-Plot (ou Gráfico-Caixa) para os valores transformados: y=ψψψψ(x)= -1/√√√√x Prof.: José Rodrigo de Moraes (GET/UFF) Prof.: José Rodrigo de Moraes (GET/UFF) 3 13 Exercício: Para cada ramo do setor industrial foi calculado um índice de variação de evasão fiscal de IRPJ (Imposto de Renda - Pessoa Jurídica) entre 1975 e 1980. a) Faça o ramo-e-folha para os dados originais. b) Construa o esquema de cinco-números para os dados originais. c) Procure uma transformação adequada para os dados. Justifique a escolha da transformação utilizada. d) Construa o esquema de cinco-números e o box-plot para os dados transformados, e julgue quanto a simetrização dos dados. 14 Dados originais: IRPJ OBS: Quanto maior o índice, maior o aumento de evasão Fonte: SERPRO Ramo do setor industrial Índice Extração e tratamento de minérios 131 Tranformação de produtos minerais não metálicos 96 Metalúrgica 70 Mecânica 81 Material elétrico e de comunicação 83 Material de transporte 43 Madeira 106 Mobiliário 71 Papel e Papelão 81 Borracha 235 Couros e peles 120 Química 90 Famacêutica e veterinária 221 Produtos de matérias plásticas 103 Têxtil 103 Vestuário, calçado e artefatos de tecidos 46 Produtos alimentares 84 Fumo 323 Editorial e gráfica 84 Diversas 97 15 Respostas das letras (b) e (c) do exercício anterior: b) c) 0,0034-1/x2 0,0444-1/x0,0648-1/√x 0,0851ln(x) 0,1052√x 0,1250x ηηηηTransf ψψψψ(x) 93 81 113 43 323 Esquema de cinco números
Compartilhar