Prévia do material em texto
BOX PLOT 1 Box Plot O box plot (gráfico de caixa) é uma ferramenta exploratória de análise de dados; O propósito deste gráfico é dar ao analista um método eficiente de examinar um conjunto de dados, para se ter uma primeira idéia da distribuição desses dados 2 Utilização O box plot é especialmente útil quando trabalhamos com conjuntos limitados de dados para os quais outras ferramentas como histogramas, que requerem dados com 50 – 200 pontos onde o estudo pode ficar inválido ou insuficiente para se ter uma conclusão. 3 Através da disposição dos valores em ordem crescente tem-se uma idéia clara sobre a localização e a dispersão dos dados. Para o gráfico box plot precisamos calcular: Limite da haste inferior; Limite da haste superior; Primeiro quartil; Terceiro quartil; Mediana. Estas 5 medidas são denominadas de estatística de ordem. 4 5 As informações dadas pelo resumo destes cinco números são apresentadas na forma de um gráfico de caixa que agrega uma série de informações sobre a distribuição Posição; Dispersão; Assimetria; Caudas; Dados discrepantes. *outliers 6 7 8 A posição central dos valores é dada pela mediana e a dispersão pela amplitude interquartílica. As posições relativas da mediana e dos quartis e o formato dos bigodes dão uma noção da simetria e do tamanho das caudas da distribuição. Quando a distribuição dos dados é simétrica, a linha que representa a mediana estará localizada mais ou menos no centro do retângulo e as duas linhas que partem das extremidades do retângulo terão aproximadamente os mesmos comprimentos; Quando a distribuição dos dados é assimétrica à direita, a linha que representa a mediana estará mais próxima de Q1 do que de Q3; Quando a distribuição dos dados é assimétrica à esquerda, a linha que representa a mediana estará mais próxima de Q3 do que de Q1. 9 Interpretação de Box Plot Exemplos 10 11 Exemplo O box plot também pode ser desenhado na posição vertical e horizontal. Pode ser utilizado na comparação de dois ou mais conjuntos de dados e na comparação com outras ferramentas. 12 Como montar um Box Plot 13 1. Colete “n” dados referentes à variável de interesse; 2. Disponha os dados em ordem crescente. Calcule a mediana, Q1 e Q3; 3. Identifique o valor (MIN) e o valor (MAX) da amostra. 4. Trace um eixo horizontal e marque este eixo com uma escala adequada e de fácil leitura; 5. Sobre o eixo horizontal, desenhe um retângulo da seguinte forma: Posicione a extremidade esquerda do retângulo em Q1; Posicione a extremidade direita do retângulo em Q3 no interior do retângulo trace. 14 6. Desenhe uma linha a partir da extremidade esquerda do retângulo até a menor observação encontrada na faixa à distância de 0 a 1,5 (Q3-Q1) da extremidade esquerda do retângulo; 7. Desenhe uma linha a partir da extremidade direita do retângulo até a maior observação encontrada na faixa à distância de 0 a 1,5 (Q3-Q1) da extremidade direita do retângulo; 8. Desenhe asteriscos para marcar as observações localizadas a uma distância de 1,5 (Q3-Q1) a 3 (Q3- Q1) de cada extremidade do retângulo. * Possíveis “outliers” 9. Desenhe círculos para marcar as observações localizadas a uma distância superior a 3 (Q3-Q1) de cada extremidade do retângulo. *Prováveis “outliers” 10.Registre as informações importantes que devam constar no gráfico Título Período coleta de dados Tamanho da amostra Identificação dos eixos 15 16 Cálculo dos limites das hastes Se um conjunto de dados é organizado em ordem crescente, o valor central é a mediana; Valores que dividem o conjunto em quatro partes iguais são representados por Q1, Q2, Q3 e denominan-se primeiro, segundo e terceiro quartis, respectivamente; O segundo quartil (Q2) é a mediana; O primeiro e o terceiro quartis são calculados usando a forma do próximo slide 17 Quartis Cálculo do primeiro quartis Partindo de uma amostra de tamanho n, colocar os valores em ordem crescente e identificar a ordem i (1, 2, 3, …, n) e o percentil p(i) = (i- 0,5)/n associado a cada valor; Identificar os valores associados aos percentis imediatamente acima e abaixo de 0,25; esses valores são chamados respectivamente de x (inf), associado ao percentil p (inf), e x (sup), associado ao percentil p (sup) e então calcular o primeiro quartil usando: 18 Similarmente, para o terceiro quartil, identifica-se os valores associados aos percentis imediatamente acima e abaixo de 0,75; esses valores são chamados respectivamente de x(inf), associado ao percentil p(inf), e x(sup), associado ao percentil p(sup). E então calcula-se o terceiro quartil usando: 19 Cálculo do terceiro quartis 20 Exemplo Valores imediatamente acima e abaixo de 0,25: x(inf)= 11,5 x(sup)= 11,8 p(inf)= 0,233 p(sup)= 0,300 21 Valores imediatamente acima e abaixo de 0,75: x(inf)= 13,9 x(sup)= 14,7 p(inf)= 0,700 p(sup) = 0,767 22 Os valores que estiverem acima do limite superior (haste superior) ou abaixo do limite inferior (haste inferior) do box plot serão considerados outliers; Estes valores são considerados discrepantes, ou seja, não fazem parte do comportamento esperado do grupo em estudo. Obs: nem sempre o valor máximo será aquele correspondente à haste no gráfico, mas pode ser o valor outlier. 23 Outliers 24 Obs: nem sempre o valor máximo será aquele correspondente à haste no gráfico, mas pode ser o valor outlier, conforme figura abaixo. 25 DIAGRAMA RAMOS E FOLHAS Usado para representar Distribuições de Freqüências; Utilizado para conjunto pequeno de dados; Possibilita a visualização completa das observações; Na sua construção, cada observação é dividida em duas partes: • Ramo • Folha 26 Observando os dados coletados e girando esta representação 90 tem-se um diagrama semelhante ao histograma. Esta representação possui duas vantagem em relação ao histograma: • Seus valores são reais; • Fácil de construir; 27 Distribuição dos valores de tempo de empresa de alguns funcionários de uma determinada empresa. Os 20 valores de tempo (em meses) disponíveis, já ordenados são: 8, 9, 11, 17, 17, 19, 20, 44, 45, 53, 57, 57, 57, 58, 70, 81, 82, 83, 100, 104. Podemos organizar os dados, separando-os pela dezenas, uma em cada linha: 8, 9 11, 17, 17, 19 20 44, 45 53, 57, 57, 57, 58 70 81, 82, 83 28 Exemplos Como muitos valores em cada linha tem as dezenas em comum, podemos colocar as dezenas em evidência, separando-as das unidades por um traço. Ao dispor os dados dessa maneira, estamos construindo um diagrama de ramo-e-folhas. O lado com as dezenas é chamado de ramo, no qual estão dependuradas as unidades, chamadas folhas. 29 Exemplos 0 8 9 1 1 7 7 9 2 0 3 - 4 4 5 5 3 7 7 7 8 6 - 7 0 8 1 2 3 9 - 10 0 4 Legenda: 5 3 = 53 meses 10 0 = 100 meses RAMO FOLHAS Para sabermos o que está sendo representado, um ramo-de- folhas deve ter sempre uma legenda, indicando o que significam os ramos e as folhas; Se o tempo de empresa dos funcionários estivesse medido em dias, por exemplo, usando esse mesmo ramo de folhas, poderíamos estabelecer que o ramo representaria as centenas e as folhas, as dezenas. Assim, 0|8 seria igual a 80 dias e 10|4 seria igual a 1040 dias; Analisando o ramo-e-folhas para o tempo de empresa dos funcionários, percebemos a existência de três grupos: os recém contratados (até 20 meses) os que já tem algum tempo de empresa (de 44 a 58 meses) e um grupo com os mais velhos (mais de 70 meses), com destaque para dois funcionários que já estão na empresa desde sua fundação. 30 O ramo-e-folhas também pode ser usado para comparar duas distribuições de valores. Aproveitando o mesmo ramo do diagrama do tempo de empresa, podemos fazer o diagrama das mulheres que trabalham nesta empresa, utilizando o lado esquerdo. Observe que as folhas das mulheres são dependuradas de modo espelhado, assim como explica a legenda,que agora deve ser dupla. 31 Observando a figura, notamos que as mulheres tem menos tempo de empresa do que os homens, embora possuam dois funcionários com mais tempo de casa, pois começaram a trabalhar desde sua fundação. 32 Exemplo 9 9 8 0 8 9 9 9 8 7 6 6 1 0 0 0 1 1 7 7 3 1 1 1 2 0 5 4 4 4 3 2 2 3 - 5 5 4 4 5 8 6 5 1 5 3 7 7 8 6 - 0 7 0 3 1 8 1 2 3 9 - 10 0 4 5 11 12 13 14 15 16 7 17 Legenda: 5 5 = Para homens 5 4 = Para mulheres