Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 ANÁLISE EXPLORATÓRIA O que é analisar dados? CAPÍTULO 1 - ANÁLISE EXPLORATÓRIA PARA UMA VARIÁVEL � Conceitos a serem introduzidos neste capítulo: � População e Amostra � Observações e Variáveis � Variável qualitativa x Variável quantitativa � Tabela de freqüências � Gráfico de barras e Gráfico de setores � Histograma e Gráfico Ramo-folha � Média, mediana e moda � Variância, Desvio Padrão, Coeficiente de variação e Distância Interquartil � Resistência de uma medida � Valores discrepantes (Outliers) � Box plot 2 Diego e Walter trabalhavam, havia muitos anos, na fábrica de camisas masculinas Colarinho Branco. Um dia, o Gerente de Produção pediu demissão para ir trabalhar numa empresa multinacional do ramo. O dono da Colarinho Branco, Sr. Paulo, chamou então seus dois experientes empregados para comunicar- lhes que um deles seria o novo Gerente de Produção. Contudo, disse-lhes que essa escolha dependeria de um pequeno teste ao qual ambos seriam submetidos. Ele pediu a cada um dos dois que: •selecionasse amostras de 200 homens adultos; •medisse a circunferência do pescoço de cada indivíduo dessas amostras; •apresentasse por escrito um relatório com as suas conclusões. Logo no segundo dia após ter começado as medições, Walter compareceu sorridente perante o Sr. Paulo para apresentar o seu trabalho. Ele não tinha mais dúvidas de que seria o escolhido. Passaram-se mais um, dois, três dias, e somente quatro dias depois é que Diego entregou o seu trabalho. No quinto dia, o dono da empresa anunciou: Diego será o novo Gerente de Produção. Walter não conseguia entender o porquê da escolha, que ele considerava injusta, e foi interpelar o Sr. Paulo. Expôs os seus motivos e lembrou que tinha entregue o seu trabalho quatro dias antes de Diego. O Sr. Paulo então, calmamente, o chamou ao seu lado e mostrou-lhe os dois trabalhos. O relatório de Walter estava caprichado sim, com as pessoas ordenadas alfabeticamente e seus respectivos tamanhos de colarinho. “Bonito o teu trabalho”, falou o Sr. Paulo, “só que de nada me serve.” A seguir mostrou o relatório que Diego tinha apresentado. As pessoas não estavam ordenadas alfabeticamente, mas por tamanho de colarinho. “Você vê”, falou o dono, “agora eu sei quais são os tamanhos extremos, o menor e o maior.” “Além disso”, e mostrou-lhe uma tabela de freqüências apresentada por Diego, “eu posso ver imediatamente qual o tamanho de colarinho que tenho de fabricar em maior quantidade e as proporções correspondentes aos outros tamanhos.” A seguir mostrou um histograma onde claramente podia ser vista a distribuição dos diversos tamanhos de colarinhos. 3 E ainda tinha mais. No seu trabalho, Diego tinha calculado o tamanho médio dos colarinhos, o seu desvio padrão, e tinha feito um gráfico de caixas (Box-plot), onde sobressaíam nitidamente os quartis inferior e superior e a mediana para a amostra de colarinhos. Walter ficou admirado com o trabalho de Diego. Percebeu que todas as informações apresentadas por ele eram de fato relevantes para a produção de camisas. Diante de tantas evidências, ele aceitou as explicações do Sr. Paulo e foi cumprimentar o colega recém-promovido. No dia seguinte inscreveu-se em um treinamento em Métodos Estatísticos que em breve seria oferecido por uma conceituada universidade. No caso relatado, Diego apresentou um trabalho muito mais completo que o de Walter, graças ao seu conhecimento das técnicas de Análise Exploratória de Dados, como as que serão apresentadas nesta obra. Analisar dados é... � ...identificar comportamentos médios, comportamentos discrepantes, comparar comportamentos, investigar a interdependência entre variáveis, revelar tendências, etc. � ... a partir de uma massa de dados, e com o auxílio dos recursos computacionais, separar o que é essencial (estrutura) do que é eventual (ruído). � ... resumir, de forma inteligente, a informação contida nos dados e assim, permitir que, através desse conhecimento, as decisões sejam tomadas de forma mais consciente. 4 Identificar comportamentos médios Procurar o centro da informação. Ex: � Uma turma com 300 alunos gostaríamos de saber o desempenho geral, não olhando individualmente cada aluno e sim a média que é um número que resume o desempenho da turma. Comportamentos discrepantes Rondonia Para Amazonas Distrito Federal Bahia 200 400 600 800 1000 5 Comparar comportamentos Comparação de dois grupos: � Placebo � Remédio Verificar, através de duas amostras, uma de cada grupo tomando remédio e outra não, se existe diferença no aumento médio da pressão sistólica. Investigar a Interdependência entre Variáveis Sexo Curso M F M - Matemática 40 60 100 E - Estatística 30 20 50 I - Informática 30 70 100 100 150 250 Curso Sexo 1 I M 2 I M 3 E F 4 E M 5 I F 6 E F 7 I M . . . . . . . . . 250 I M 6 Revelar Tendências X = Rendimento Y = Consumo Y = a + bx + e Recursos Computacionais � R - www.r-project.org (Splus) � SPSS � SAS - Statistical Analysis System � Statistica � Minitab � Systat � Microsoft Exel 7 Estrutura & Ruído Nem toda família com a mesma renda reage igual com relação ao consumo: � Logo incorpora-se o Ruído (e) ao modelo. � Sendo a + bx a Estrutura. X = Rendimento Y = Consumo Y = a + bx + e Estrutura Ruído O que é Análise Exploratória? Trata-se de um conjunto de técnicas de tratamento de dados que, sem implicar em uma fundamentação matemática mais rigorosa, nos ajuda a tomar um primeiro contacto com a informação disponível. Essas técnicas freqüentemente nos levarão à construção de tabelas e, sobretudo, de gráficos que pretendem facilitar a nossa compreensão do fenômeno em estudo apelando para o poder de visualização do ser humano. 8 O que vem depois da Análise Exploratória? Uma vez de posse das “pistas” a respeito do tema em estudo, que nos foram fornecidas pela Análise Exploratória, podemos partir para a chamada Inferência, onde serão aplicados aos dados métodos estatísticos mais sofisticados, cuja fundamentação matemática está no Cálculo de Probabilidades. Tipologia das variáveis Quando é feito um levantamento de dados a respeito de um determinado assunto, esses dados costumam ser representados como na Tabela 1.1, onde cada linha corresponde a uma observação e cada coluna corresponde a uma variável. Qualitativa Quantitativa Nominal Ordinal Discreta Continua Variável 9 No da Obs. Bairro Tipo N o de quartos Preço (*) 1 Barra Apto. 2 165 2 Barra Apto. 3 240 3 Barra Cobt. - 158 4 Barra Sala - 150 5 Botafogo Apto. 2 59 6 Catete Apto. 1 54 7 Centro Sala - 35 8 Copacabana Apto. 2 83 9 Copacabana Apto. 3 180 10 Copacabana Apto. 4+ 85 11 Flamengo Apto. 1 58 12 Flamengo Cobt. - 120 13 Gávea Apto. 4+ 250 14 Ipanema Apto. 3 130 15 Jacarepaguá Apto. 3 90 16 Lagoa Apto. 2 130 17 Laranjeiras Apto. 2 68 18 Laranjeiras Apto. 4+ 360 19 Leblon Apto. 3 300 20 Leblon Apto. 4+ 600 21 Maracanã Apto. 3 137 22 Recreio Cobt. - 240 23 São Conrado Casa 4+ 650 24 Tijuca Apto. 2 49 25 Tijuca Apto. 2 95 26 Tijuca Casa 4+ 170 27 Vila Isabel Apto. 2 57 Tabela 1.1 - Amostra sistemática, de 20 em 20, dos imóveis anunciados para venda no Jornal do Brasil num sábado (*) em milhares de reais - Fonte: Caderno Achei Imóveis do Jornal do Brasil Nos exemplos abaixo, imaginemos que estamos considerando sempre um conjunto de dados onde cada observação é uma pessoa. Uma variável é dita qualitativa nominal ou categórica quando osseus valores possíveis são diferentes categorias não ordenadas, em que cada observação pode ser classificada. Alguns exemplos seriam: Raça, Nacionalidade, Área de Atividade. Uma variável é dita qualitativa ordinal quando os seus valores possíveis são diferentes categorias ordenadas, em que cada observação pode ser classificada. Alguns exemplos seriam: Classe social, Nível de Instrução. Uma variável é dita quantitativa discreta quando os seus valores possíveis são resultados de um processo de contagem. Alguns exemplos seriam: Número de filhos, Idade em anos. Uma variável é dita quantitativa contínua quando os seus valores possíveis podem ser expressos através de números reais. Alguns exemplos seriam: Renda mensal, Peso, Altura. 10 Distribuições de Freqüências. Tabelas e Gráficos. Variáveis Qualitativas e Variáveis Quantitativas Discretas Tabela 1.2 - Freqüências e Percentuais dos 1230 respondentes da Pesquisa junto à população do Estado do RJ em 1986, segundo o“problema mais grave do Estado” Problema mais grave do Estado Freqüências Percentuais Segurança / Violência 360 29,27 Educação 160 13,01 Saúde 152 12,36 Saneamento 118 9,59 Alimentação / Fome / Pobreza 73 5,93 Transporte 63 5,12 Outros 304 24,72 Total 1230 100,00 Fonte: Pesquisa de Opinião sobre as Eleições do Rio de Janeiro 1986 - IBASE / SERPRO / IM-UFRJ 11 Figura 1.1 - Gráfico de barras correspondente aos percentuais dos 1230 respondentes da Pesquisa junto à população do Estado do RJ em 1986, segundo o “problema mais grave do Estado” S/V Educ Saude Saneam A/F/P Transp Outros 0 5 10 15 20 25 30 Fonte: Pesquisa de Opinião sobre as Eleições do Rio de Janeiro 1986 - IBASE / SERPRO / IM-UFRJ Figura 1.2 - Gráfico de setores correspondente aos percentuais dos 1230 respondentes da Pesquisa junto à população do Estado do RJ em 1986, segundo o “problema mais grave do Estado” Fonte: Pesquisa de Opinião sobre as Eleições do Rio de Janeiro 1986 - IBASE / SERPRO / IM-UFRJ Segurança. Violência Educ Saúde Outros 12 Variáveis Quantitativas Contínuas Tabela 1.8. Telefonia fixa per capita em cada estado do brasil em 2001 (em linhas telefônicas por 1.000 habitantes) Fonte: Almanaque Abril 2002 Acre 183,8 Maranhão 86,1 Rio de Janeiro 347,5 Alagoas 125,4 M. Grosso 199,6 R. G. Norte 150,1 Amapá 193,3 M. G. Sul 235,3 R. G. Sul 236,9 Amazonas 162,0 M. Gerais 218,6 Rondônia 214,6 Bahia 142,3 Pará 128,0 Roraima 214,1 Ceará 140,6 Paraíba 125,4 S. Catarina 257,3 D. Federal 456,8 Paraná 244,2 S. Paulo 362,8 E.S. 228,7 Pernambuco 147,8 Sergipe 140,7 Goiás 231,4 Piauí 118,2 Tocantins 113,8 Tabela 1.9-Tabela de freqüências para a telefonia fixa per capita em 2001 (em linhas telefônicas por 1.000 habitantes) No que se refere ao exemplo aqui considerado, vamos dividir o intervalo [50, 500], que contem todos os valores observados da variável considerada, em sub-intervalos de amplitude 50 (fechados à esquerda e abertos à direita) e contar o número de ocorrências em cada um deles. Fonte: Almanaque Abril 2002 Classe Frequência Ponto Médio Percentual 50 a 99 1 75 3,70 100 a 149 9 125 33,33 150 a 199 5 175 18,52 200 a 249 8 225 29,63 250 a 299 1 275 3,70 300 a 349 1 325 3,70 350 a 399 1 375 3,70 400 a 449 0 425 0,00 450 a 499 1 475 3,70 Total 27 100,00 13 Figura 1.3 - Histograma do número de linhas telefônicas por 1.000 habitantes. 183,183, Gráfico Ramo-Folha 125, 193, 142, 140, 456, 228, 231, 86, 199, 235, 218, 128, 125, 244, 147, 118, 347, 150, 236, 214, 214, 257, 362, 140 113 125, 193,162,162, 142, 140, 456, 228, 231, 86, 199, 235, 218, 128, 125, 244, 147, 118, 347, 150, 236, 214, 214, 257, 362, 140,113 Dados da Tabela 1.8 14 Medidas de Centralidade para Variáveis Quantitativas Sejam x1, x2, ..., xn os valores observados da variável considerada. A média aritmética dos dados é definida por: n x n x...xx x in21 ∑ = +++ = Medidas de Centralidade para Variáveis Quantitativas A moda dos dados é aquele valor da amostra que ocorre com maior freqüência. Sejam x(1) ≤ x(2) ≤ ... ≤ x(n) os mesmos valores que compõem a amostra, porém dispostos em ordem crescente. Amediana dos dados é : ~ X = Valor da observação de posição central, se n é impar; Média dos valores das observações de posição central, se n é par; 15 EXEMPLO Exemplo 1: Voltando ao caso da variável no de linhas telefônicas por 1.000 habitantes nos estados do Brasil, a média é 188,200 27 8,113...4,1258,183 = +++ =x Como n = 27 é ímpar, a mediana neste caso é a observação de ordem 14 na amostra ordenada, a saber, ~ X = 193,3. Exemplo 2: Considere agora o exemplo dos dados da tabela 1.1. A moda da variável no de quartos é igual a 2, o valor mais freqüente. Medidas de Dispersão para Variáveis Quantitativas Sejam x1, x2, ..., xn os dados observados. O Desvio Padrão (S) dos dados é calculado por : S (x x) n 1 i 2 i 1 n = − − = ∑ = − ⋅ − ∑ x n x n 1 i 2 2 16 Medidas de Dispersão para Variáveis Quantitativas Uma medida de dispersão para uma variável quantitativa é um indicador do grau de espalhamento dos valores da amostra em torno da medida de centralidade. Exemplo 1.14: O que é a dispersão de uma variável quantitativa? Vamos comparar os seguintes conjuntos de dados: Tabela 1.11 - Quatro conjuntos de dados hipotéticos Conjunto 1 : 4 4 4 10 16 16 16 Conjunto 2 : 4 6 8 10 12 14 16 Conjunto 3 : 7 8 9 10 11 12 13 Conjunto 4 : 10 10 10 10 10 10 10 Medidas de Dispersão para Variáveis Quantitativas O coeficiente de variação (CV) é o quociente entre o desvio padrão e a média, o CV é uma medida de dispersão relativa: x S VC = Exemplo 1.17 : Mães e seus filhos recém-nascidos Os dados abaixo representam o peso em kg de 5 mães e de seus respectivos bebês recém nascidos Peso da mãe : 52,3 52,5 53 53,5 54 Peso do recém- nascido : 2,3 2,5 3 3,5 4 Médi- a Vari- ância Desvio padrão 53,06 0,493 0,702 3,06 0,493 0,702 CV 0,009 0,161 17 Medidas de Dispersão para Variáveis Quantitativas Seja x(1) ≤ x(2) ≤ ... ≤ x(n) a amostra ordenada em ordem crescente. Já vimos que a mediana é um valor tal que metade dos dados é menor que ele e metade dos dados é maior que ele. Analogamente, os 3º quartis são valores que dividem os dados em 4 grupos, cada um deles contendo 1/4 do tamanho total da amostra. O primeiro quartil Q1 tem 1/4 dos dados abaixo dele e 3/4 dos dados acima dele. O terceiro quartil Q3 tem 3/4 dos dados abaixo dele e 1/4 dos dados acima dele. O segundo quartil Q2 é a própria mediana. O Intervalo Interquartil é dado por: IIQ = Q 3 −−−− Q1 EXEMPLO Voltando ao exemplo dos dados da Tabela 1.3 , temos: 127 )19,002(114...)19,002(125)19,002(184 S 222 − −++−+− = = 84,437 A mediana é a observação de ordem 14 na amostra ordenada. O 1o quartil Q1 está a meio caminho entre as observações de ordem 1 e 14. Como , Q1 é a média aritmética entre X(7) =140,6 e X(8) = 140,7. Logo Q1 = 140,65. Analogamente, Q3 = 1/2 [ X (20) + X(21) ] = ½ [ 231,4 + 235,3 ] = 233,35. Logo IIQ = 233,35 −−−− 140,65 = 92,70. 1 1 4 2 7 ,5 + = 18 Medidas Resistentes para Variáveis Quantitativas Diz-se que uma medida de centralidade ou de dispersão é resistente quando ela é pouco afetada pela presença de observações discrepantes. Entre as medidas de centralidade, a média aritmética é bem menos resistente que a mediana. Por outro lado, entre as medidas de dispersão, o desvio padrão é bem menos resistente que o intervalo interquartil. EXEMPLO (No de linhas telefônicas por 1.000 habitantes – Tabela 1.8) Para comprovarmos as afirmações acima, vamos eliminar dos dadoso valor 456,8 correspondente ao Distrito Federal e então recalcularemos os valores das 4 medidas acima mencionadas. Medida Amostra Completa Amostra Expurgada Média 200,19 190,32 Mediana 193,3 188,6 Desvio Padrão 84,44 68,41 Intervalo Interquartil 92,7 90,2 19 Identificação de Observações Discrepantes em Variáveis Quantitativas Por que isto é importante? Um critério bastante utilizado para a identificação de observações discrepantes que se baseia em medidas pouco resistentes é apontar toda observação que estiver fora do intervalo: onde α é uma constante positiva arbitrariamente fixada (usualmente α = 2 ou α = 3). ( X – αααα * S ; X + αααα * S ) EXEMPLO Como = 200,19 e S = 84,44 , para α = 2 o intervalo é ( 31,31 ; 369,06 ) e para α = 3 o intervalo é ( - 53,12 ; 453,50 ). Em ambos os casos o valor 456,8, correspondente ao Distrito Federal, seria apontado como discrepante. Um outro critério também muito usado, que se baseia em medidas mais resistentes para a identificação de observações discrepantes é apontar qualquer valor inferior a Q1 - 3/2 IIQ ou superior a Q3 + 3/2 IIQ. 20 Esquema dos cinco números � É uma lista de informações da distribuição que inclui cinco medidas, a saber, x(1), Q1, Q2, Q3 e x(n). � Estes cinco valores são importantes para se ter uma boa idéia da assimetria dos dados. Esquema dos cinco números � Para uma distribuição simétrica ou aproximadamente simétrica, deveríamos ter: � (a) Q2- x(1) ≅ x(n)-Q2; � (b) Q2-Q1 ≅ Q3-Q2; � (c) Q1- x(1) ≅ x(n)-Q3; � (d) Q2 - Q1 << Q1- x(1) Q3 – Q2 << x(n)-Q3 21 Desenho Esquemático (Box Plots) A informação contida no esquema dos cinco números pode ser traduzida graficamente num diagrama, conhecido como box plot (também chamado de gráfico-caixa). Box Plot para Variáveis Quantitativas Como construí-lo? a) Inicialmente é traçado um eixo vertical onde serão representados os valores da variável considerada. b) Depois se desenha um retângulo cuja base inferior corresponde à posição do 1o quartil Q1 e cuja base superior corresponde à posição do 3o quartil Q3. c) Em seguida são traçados dois segmentos de reta verticais que vão, um desde o ponto médio da base inferior do retângulo até a posição da menor observação não discrepante, e o outro desde o ponto médio da base superior do retângulo até a posição da maior observação não discrepante. d) Cada uma das observações discrepante s tem a sua posição explicitada no gráfico. 22 � As observações que estiverem acima de CS=Q3+(1,5)IIQ ou abaixo de CI=Q1-(1,5)IIQ são chamadas pontos discrepantes e representadas por asteriscos. � Essa observações destoantes das demais podem ser o que chamamos de outliers ou valores atípicos. 23 Observação � Não necessariamente haverá a presença de pontos exteriores num boxplot. � Quando for este o caso, o esquema terá a seguinte aparência: EXEMPLO Voltando ao mesmo exemplo, temos: Q1 = 140,6 , Q3 = 233,3 e IIQ = 92,7. Logo Q1 - 3/2 IIQ = 1,5 e Q3 + 3/2 IIQ = 372,5. Novamente aqui o valor correspondente ao Distrito Federal (456,8) seria considerado suspeito. Obs.: Convém observar que ambos os critérios aqui apresentados pressupõem que a distribuição de freqüências (que pode ser representada pelo Histograma ou pelo Gráfico Ramo Folha) dos dados é simétrica com relação à medida de centralidade adotada (média ou mediana). E se isto não for válido para o nosso conjunto de dados?
Compartilhar