Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 DESCRIÇÃO, EXPLORAÇÃO E COMPARAÇÃO DE DADOS RESUMO DE DADOS EM UMA TABELA DE FREQÜÊNCIAS Ao estudarmos grandes conjuntos de dados, é conveniente organizá-los e resumi-los, construindo uma tabela de freqüências. A princípio, podemos construir uma tabela sem que seus elementos estejam numericamente organizados. Denotamos esta tabela por tabela primitiva. Se ordenarmos os elementos da tabela primitiva de forma crescente ou decrescente, a mesma passará a se chamar rol. Uma tabela de freqüências relaciona categorias (ou classes) de valores, juntamente com contagens (ou freqüências) do número de valores que se enquadram em cada categoria. Exemplos de tabelas de freqüência: Apresentaremos agora alguns termos-padrão no estudo de tabelas de freqüência: Classes de freqüência ou, simplesmente, classes são intervalos de variação da variável. O intervalo 151-158 da tabela I é um exemplo de classe. O intervalo 151 ├ 159 da tabela II também é um intervalo de classe. Limites de classe são os extremos de cada classe. O menor número é o limite inferior da classe (li) e o maior número, o limite superior da classe (Li). O valor 151 cm é o limite inferior da primeira classe da tabela I. O valor 158 cm é o limite superior da primeira classe da tabela I. Fronteiras de classe são os números usados para separar classes, mas sem as lacunas criadas pelos limites de classe. São obtidas como se segue: divide- se por dois o tamanho da lacuna entre o limite superior de uma classe e o limite inferior da classe seguinte; soma-se o valor obtido a cada limite superior e Tabela I. Alturas de 100 alunos do sexo masculino da Universidade X. 5 18 42 27 8 151-158 159-166 167-174 175-182 183-190 Número de estudantes Altura (cm) 5 18 42 27 8 151 ├ 159 159 ├ 167 167 ├ 175 175 ├ 183 183 ├ 191 Número de estudantes Altura (cm) Tabela II. Alturas de 100 alunos do sexo masculino da Universidade X. 2 subtrai-se esse valor de cada limite inferior. As fronteiras de classe para a classe 151-158 são 150,5-158,5. Amplitude de um intervalo de classe ou, simplesmente, intervalo de classe, é a medida do intervalo que define a classe. Para uma tabela de freqüências com o formato da tabela I, a amplitude de classe é a diferença entre dois limites de classe inferiores consecutivos. Para uma tabela de freqüências com o formato da tabela II, a amplitude de classe é a diferença entre os limites superior e inferior de uma classe. Observa-se que a amplitude de classe nas tabelas I e II é 8 cm. Amplitude total da distribuição (AT) é a diferença entre o limite superior da última classe (limite superior máximo) e o limite inferior da primeira classe (limite inferior mínimo). É comum calcularmos este tipo de amplitude para distribuições de freqüências com a notação usada na tabela II. AT para a tabela II é 40 cm (191 cm –151 cm). Amplitude amostral (AA) é a diferença entre o valor máximo e o valor mínimo da amostra. É também chamada de Range. Essa amplitude corresponde à amplitude total de uma distribuição de freqüência em que se utiliza a notação da tabela I. AA para as tabelas I e II é 39 cm (190 cm –151 cm). Ponto médio de uma classe (ou marca de uma classe) (xi) é, como o próprio nome indica, o ponto que divide o intervalo de classe em duas partes iguais. Xi = li + Li 2 Por exemplo, o ponto médio da classe 151-158 é 154,5 cm. O processo de construção de uma tabela de freqüências envolve os seguintes passos: 1) Decidir o número de classes. Esse número deve ficar entre 5 e 20. 2) Determinar a amplitude de classe, dividindo a amplitude amostral pelo número de classes. Arredonde o valor encontrado para mais. Caso o valor encontrado seja inteiro deve-se acrescentar 1 a este valor. Isso garante que todos os dados serão incluídos. 3) Escolher como limite inferior da primeira classe o menor valor observado ou um valor ligeiramente inferior a ele. Esse valor será o ponto de partida. 4) Some a amplitude de classe ao ponto de partida, obtendo o segundo limite inferior de classe. Adicione a amplitude de classe ao segundo limite inferior, obtendo o terceiro; e assim por diante. 5) Relacione os limites inferiores de classe em uma coluna e introduza os limites superiores. 6) Represente cada observação por um pequeno traço na classe apropriada e determine a freqüência total de cada classe. 3 Exemplo: Construir uma tabela de freqüências com os dados a seguir que representam as alturas, em polegadas, de 28 homens. Alturas (in): 70, 73, 70, 72, 71, 73, 71, 67, 68, 72, 67, 72, 71, 73, 72, 70, 72, 68, 71, 71, 71, 73, 69, 73, 71, 66, 77, 67. Solução: Vamos, inicialmente, colocar os valores em ordem crescente para facilitar. Alturas (in): 66, 67, 67, 67, 68, 68, 69, 70, 70, 70, 71, 71, 71, 71, 71, 71, 71, 72, 72, 72, 72, 72, 73, 73, 73, 73, 73, 77. Vamos escolher 5 como o número de classes. A amplitude total é 77-66=11. O intervalo de classe é 11/5=2,2=3. O valor mínimo é 66. Adotaremos 65 como primeiro limite inferior. O segundo limite inferior será 68 (65+3). Os demais limites inferiores são: 71, 74, 77. Construindo a tabela... Na construção de uma tabela de freqüências, devemos observar as seguintes diretrizes: 1) As classes devem ser mutuamente excludentes. 2) Todas as classes devem ser incluídas, mesmo as de freqüência nula. 3) Procurar utilizar a mesma amplitude para todas as classes. 4) Escolher números convenientes para limites de classes. 5) Utilizar entre 5 a 20 classes. 6) A soma das freqüências das diversas classes deve ser igual ao número de observações originais. Uma modalidade importante da tabela básica de freqüência utiliza freqüências relativas. Freqüência relativa (ogiva) de uma classe é a freqüência dessa classe dividida pela soma de todas as freqüências. Geralmente é expressa em porcentagem. A tabela de freqüências anterior pode ser rescrita na forma de tabela de freqüências relativas como a seguir: 4 6 17 0 1 65-67 68-70 71-73 74-76 77-79 Número de homens Altura (in) 4 Obtemos outra variante da tabela de freqüências quando desejamos as freqüências acumuladas. Freqüência acumulada é a freqüência total de todos os valores inferiores ao limite superior de um dado intervalo de classe até e inclusive aquele intervalo. Uma tabela apresentando esse tipo de freqüência pode ser vista abaixo. REPRESENTAÇÃO PICTÓRICA DOS DADOS Um recurso gráfico, comum e importante, para a apresentação de dados é o histograma. Este consiste em uma escala horizontal para os valores dos dados a serem representados, uma escala vertical para as freqüências e barras para representar os valores das freqüências das diversas classes. Cada barra é delimitada pela fronteira inferior de classe à esquerda e pela fronteira superior de classe à direita. Obtém-se, entretanto, melhor legibilidade tomando- se os pontos médios das classes em lugar das fronteiras de classes. Um histograma de freqüências relativas tem a mesma forma e a mesma escala horizontal que um histograma, mas a escala vertical apresenta freqüências relativas em vez de freqüências absolutas. 5% 18% 42% 27% 8% 151-158 159-166 167-174 175-182 183-190 Freqüência relativa Altura (cm) Tabela IV. Alturas de 100 alunos do sexo masculino da Universidade X. 0 5 23 65 92 100 Abaixo de 151 Abaixo de 159 Abaixo de 167 Abaixo de 175 Abaixo de 183 Abaixo de 191 Freqüência acumulada Altura (cm)Tabela III. Alturas de 100 alunos do sexo masculino da Universidade X. 5 Outro recurso é o polígono de freqüência. Este constitui um gráfico de linha em que as freqüências são locadas sobre perpendiculares levantadas nos pontos médios. Pode-se também obtê-lo, ligando se os pontos médios dos topos dos retângulos de um histograma. Uma tabela de freqüências e o correspondente histograma nos dão informações valiosas sobre a natureza da distribuição de dados, mas há a desvantagem de perdermos alguns detalhes sobre os mesmos. Existe, no entanto, um tipo de gráfico, o gráfico de ramo-e-folhas, que permite ver a distribuição dos dados sem perdas de informações. Em um gráfico desse tipo, classificamos os dados segundo um padrão que revela a distribuição subjacente. O padrão consiste em separar um número (como 257) em duas partes – ramo e folhas. Exemplos: Ramo-e-folhas Ramo Folhas 20 21 22 23 24 25 26 27 28 29 014466889 578 03358 0046 1228 01122466677899 01222223333345556778888888889999 00000000112222233333344445555666666777777778888888999 00011112222223333334444555666677899999 00011222334557 6 Ramo-e-folhas ampliado Ramo Folhas 20 20 21 21 22 22 23 23 24 24 25 25 26 26 27 27 28 28 29 29 0144 66889 578 033 58 004 6 122 8 011224 66677899 0122222333334 5556778888888889999 0000000011222223333334444 5555666666777777778888888999 00011112222223333334444 555666677899999 00011222334 557 Ramo-e-folhas reduzido 78-79 80-81 82-83 84-85 86-87 07*4 *55 9* * 79*0 Exemplo de leitura: A primeira linha deste gráfico representa os números 780, 787 e 794. Quando temos dados qualitativos uma forma conveniente de indicar suas relações é a utilização de um diagrama de Pareto. Esse diagrama consiste em um gráfico de barras com as barras ordenadas de acordo com a freqüência. 7 Outra forma de ilustrar dados qualitativos é utilizar um gráfico em setores. Às vezes temos dados emparelhados de uma forma que associa cada valor de um conjunto a um determinado valor de um segundo conjunto. Um diagrama de dispersão é um gráfico de dados emparelhados (x,y), com um eixo x horizontal e um eixo y vertical. Outra forma de representação pictórica dos dados é através de gráficos de pontos. Estes consistem em gráficos em que cada observação é representada por um ponto ao longo as escala de valores. Quando um valor ocorre mais de uma vez, são marcados como pontos em colunas verticais acima do valor correspondente na escala. 8 Outras representações... Gráfico em barras Gráfico de colunas múltiplas Pictogramas 9 Gráfico de linhas MEDIDAS DE TENDENCIA CENTRAL Uma medida de tendência central é um valor no centro ou no meio de um conjunto de dados. Há diferentes formas de definir o centro. Dessa forma, há diferentes definições de medidas de tendência central. São elas: média, mediana, moda e ponto médio. A média (aritmética) é, de modo geral, a mais importante de todas as mensurações numéricas descritivas. Obtém-se a média aritmética somando todos os valores de um conjunto e dividindo-se o total pelo número de valores. n x x ∑= 10 Exemplo: Relacionam-se a seguir os tempos (em anos) que os 10 primeiros presidentes americanos sobreviveram à posse. Calcular a média desta amostra. 10 29 26 28 15 23 17 25 0 20 Solução: 3,19 10 193 10 2002517231528262910 n x x ==+++++++++== ∑ anos A média de uma tabela de freqüências pode ser calculada como se segue: ∑ ∑= f )x.f( x , em que f é a freqüência, x é o ponto médio da classe e ∑x corresponde a n. Exemplo: Dada a tabela de freqüências a seguir com as alturas de 100 alunos de uma universidade x calcule a média das alturas. Solução: 7,171 82742185 5,186x85,178x275,170x425,162x185,154x5 f )x.f( x =++++ ++++== ∑ ∑ cm Em certas situações, os valores têm graus de importância diferentes, o que nos leva a calcular uma média ponderada. A média ponderada é calculada da seguinte forma: ∑ ∑= w )x.w( x , em que w é o peso de cada valor. Exemplo: Calcule a média de 5 notas de teste (85, 90, 75, 80, 95). Com os quatro primeiros testes valendo 15% cada um, e o último valendo 40%. Tabela V. Alturas de 100 alunos do sexo masculino da Universidade X. 5 18 42 27 8 151-158 159-166 167-174 175-182 183-190 Número de estudantes Altura (cm) 11 Solução: 5,87 4015151515 95x4080x1575x1590x1585x15 w )x.w( x =++++ ++++== ∑ ∑ A mediana x~ de um conjunto de valores é o valor do meio desse conjunto, quando os valores estão dispostos em ordem crescente ou decrescente. Se o número de valores é ímpar, a mediana é o número localizado no meio da lista. Se o número de valores é par, a mediana é a média dos dois valores do meio. Exemplo: Calcule a mediana dos conjuntos de dados a seguir: a) 10 29 26 28 15 b) 500 600 800 50.000 1000 500 Solução: a) Ordenando os dados temos: 10 15 26 28 29 Como o número de valores é ímpar (5) a mediana é o valor do meio, ou seja, a mediana é 26. b) Ordenando os dados temos: 500 500 600 800 1000 50.000 Como o número de valores é par (6) a mediana é a média dos valores do meio (3º e 4º valores). Ou seja, a mediana é (600+800)/2=700. A moda (M) de um conjunto de valores é o valor que ocorre com maior freqüência. Quando dois valores ocorrem com a mesma freqüência máxima, cada um deles é uma moda, e o conjunto se diz bimodal. Se mais de dois valores ocorrem com a mesma freqüência máxima, cada um deles é uma moda, e o conjunto é multimodal. Quando nenhum valor é repetido, o conjunto não tem moda. Exemplo: Determine a moda dos seguintes conjuntos de dados. a) 5 5 5 3 1 5 1 4 3 5 b) 1 2 2 2 3 4 5 6 6 6 7 9 c) 1 2 3 6 7 8 9 10 Solução: a) A moda é 5. b) Existem duas modas: 2 e 6. c) Não há moda. O ponto médio é o valor que está a meio caminho entre o maior e o menor valor. 2 valormenorvalormaiormédioponto += Exemplo: Determine o ponto médio do conjunto de dados abaixo: 10 29 26 28 15 23 17 25 0 20 12 Solução: O valor máximo é 29 e o valor mínimo é 0, logo o ponto médio é 5,14 2 029 2 valormenorvalormaiormédioponto =+=+= É difícil determinar qual destas medidas de tendência central é a melhor. Cada uma apresenta vantagens e desvantagens. A tabela abaixo resume algumas vantagens e desvantagens destas medidas. Medida Vantagens Desvantagens Média Existe sempre. Leva em conta todos os valores. Funciona bem com muitos métodos estatísticos. É afetada por valores extremos. Mediana Não é afetada por valores extremos. Existe sempre. Não leva em conta todos os valores. Moda É apropriada para o nível nominal de mensuração. Não é afetada por valores extremos. Pode não existir. Pode haver mais de uma moda. Não leva em conta todos os valores. Ponto médio Existe sempre Muito sensível a valores extremos. Não leva em conta todos os valores. Uma distribuição de dados é simétrica quando a metade da esquerda do seu histograma é aproximadamente a imagem-espelho da metade da direita. Quando uma distribuição tende mais para um lado do que para o outro ele é assimétrica. Os dados assimétricos para a esquerda dizem-se negativamente assimétricos; a média e a mediana estão à esquerda da moda. Os dados assimétricos para a direita dizem-se positivamente assimétricos; a médiae a mediana estão à direita da moda. MEDIDAS DE VARIAÇÃO Vamos considerar os dados situados na tabela abaixo. Eles representam os tempos de espera (em minutos) de clientes em dois bancos. 13 Banco A (Fila única) 6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7 Banco B (Fila múltipla) 4,2 5,4 5,8 6,2 6,7 7,7 7,7 8,5 9,3 10,0 Os clientes do banco A entram em uma fila única que é atendida por três caixas. Os clientes do banco B podem entrar em qualquer uma das três filas que conduzem a três guichês. A média de tempo de espera para ambos os bancos é a mesma (7,2 min), a moda também é a mesma (7,7 min) e o ponto médio também é o mesmo (7,1 min). Com base nessas medidas de tendência central, podemos admitir que os tempos de espera nos dois bancos fossem aproximadamente os mesmos. No entanto o banco A possui tempos de espera com muito menos variação que o banco B. Dessa forma, o clientes irão preferir o banco A onde não correrão o risco de entrar em uma fila muito mais lenta do que as outras. Vamos agora, conhecer algumas medidas de variação. A amplitude de um conjunto de dados é a diferença entre o maior valor e o menor valor. Para o exemplo citado acima, a amplitude dos tempos de espera no banco A é 1,2 min (7,7-6,5) e no banco B é 5,8 min (10,0-4,2). O desvio-padrão (s) de um conjunto de valores amostrais é uma medida de variação dos valores em relação à média. É calculado como se segue: 1n )xx( s 2 − −= ∑ Para o cálculo do desvio-padrão de uma população (σ) usa-se a definição: N )x( 2∑ µ−=σ , em que µ é a média dos valores da população. Exemplo: Determine o desvio-padrão dos tempos de espera em guichês dos clientes do banco A. Esses tempos são dados a seguir: 6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7 Solução: Muitas vezes, fica mais fácil calcular o desvio-padrão organizando os dados em uma tabela. 14 x xx − 2)xx( − 6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7 -0,65 -0,55 -0,45 -0,35 -0,05 0,15 0,25 0,55 0,55 0,55 0,4225 0,3025 0,2025 0,1225 0,0025 0,0225 0,0625 0,3025 0,3025 0,3025 Totais: 71,5 2,0450 min15,7 10 5,71x == min48,0 110 0450,2s =−= A variância é o quadrado do desvio-padrão. Dessa forma, temos: amostraliânciavar 1n )xx( s 2 2 − −= ∑ lpopulacinaiânciavar N )x( 22 ∑ µ−=σ Exemplo: A variância para os dados do exemplo anterior é 0,23 min2 (0,482). Outra definição através da qual o desvio-padrão pode ser calculado é a seguinte: )1n(n )x()x(n s 22 − −= ∑ ∑ Quando os dados estão dispostos em uma tabela de freqüência o desvio- padrão é calculado como se segue: [ ] ( )[ ] )1n(n x.f)x.f(n sou 1n )xx.(f s 222 − −=− −= ∑∑∑ Exemplo: Os dados da tabela a seguir representam as alturas de 100 alunos de uma universidade. Calcule o desvio-padrão dessas alturas. 15 Solução: Organizando os dados e os alguns cálculos em uma tabela temos: Altura/cm Freqüência (f) Ponto médio da classe (x) f.x f.x2 151-158 159-166 167-174 175-182 183-190 5 18 42 27 8 154,5 162,5 170,5 178,5 186,5 772,5 2925 7161 4.819,5 1492 119.351,25 475.312,5 1.220.950,5 860.280,75 278.258 Total 100 17.170 2.954.153 [ ] ( )[ ] cm3,61 )1100(100 )17170()153.954.2(100 )1n(n x.f)x.f(n s 222 =− −=− −= ∑∑ Regra prática Para conjuntos de dados típicos, a amplitude mede aproximadamente 4 desvios-padrão, de forma que podemos aproximar como segue o desvio padrão: 4 amplitudepadrãodesvio ≈ Desde que conheçamos o desvio padrão, podemos estimar os valores máximo e mínimo: )padrãodesvio(2)média(máximo )padrãodesvio(2)média(mínimo ×+≈ ×−≈ Regra empírica (ou regra 68-95-99) de dados Outra regra que auxilia a interpretação do valor de um desvio-padrão é a regra empírica, aplicável somente a conjuntos de dados com distribuição aproximadamente em forma de sino. Para uma distribuição em forma de sino: Tabela VI. Alturas de 100 alunos do sexo masculino da Universidade X. 5 18 42 27 8 151-158 159-166 167-174 175-182 183-190 Número de estudantes Altura (cm) 16 - Cerca de 68% dos valores estão a menos de 1 desvio-padrão a contar da média. - Cerca de 95% dos valores estão a menos de 2 desvios-padrão a contar da média. - Cerca de 99% dos valores estão a menos de 3 desvios-padrão a contar da média. Teorema de Thebichev A proporção (ou fração) de qualquer conjunto de dados a menos K desvios padrão a contar da média é sempre ao menos 1-1/K2, onde K é um número positivo maior do que 1. Exemplo: Ao menos ¾ (ou 75%) de todos os valores estão no intervalo que vai de 2 desvios-padrão abaixo da média a 2 desvios-padrão acima da média. MEDIDAS DE POSIÇÃO Todos nós estamos familiarizados com os QIs, e reconhecemos que um QI de 102 é bastante comum, enquanto que um QI de 170 é raro. O QI de 102 é comum porque está próximo da média (100), mas o QI de 170 é raro porque esta distante da média. Isso pode sugerir uma diferença entre os valores típicos e os valores raros com base em sua diferença em relação à média. Mas o tamanho dessa diferença depende da escala que está sendo utilizada. Por exemplo, com relação a QIs, a diferença de 2 pontos é insignificante, mas em relação a notas de alunos essa diferença é altamente significativa.Seria melhor se dispuséssemos de um padrão que não levasse em conta a escala utilizada. Obtemos esse resultado com o escore padronizado. 17 O escore padronizado ou escore (z) é o numero de desvios-padrão pelo qual um valor x dista da média (para mais ou para menos). Obtém-se como segue: amostraumapara s xxz −= populaçãoumaparaxz σ µ−= Os escores z permitem distinguir entre valores usuais e valores raros. Consideramos usuais os valores cujos escores padronizados estão entre –2,00 e 2,00. Exemplo: As alturas da população de homens têm média igual a 69,0 in., desvio-padrão igual a 2,8 in. e distribuição em forma de sino. A altura do jogador de basquete Michael Jordan é 78 in. Ele pode ser considerado excepcionalmente alto, comparado com a população geral de homens adultos? Solução: Para ser considerado excepcionalmente alto, o jogador deve ter um escore z maior do que 2. 21,3 8,2 0,690,78xz =−=σ µ−= O jogador é excepcionalmente alto. Existem outras medidas de posição úteis na comparação de valores de um mesmo conjunto de dados ou entre valores de conjuntos de dados diferentes. Essas medidas são os quartis, os decis e os percentis. Denominamos quartis os valores de uma série que a dividem em quatro partes iguais. O primeiro quartil (Q1) separa os 25% inferiores dos 75% superiores dos valores ordenados. O segundo quartil (Q2) é a mediana. O terceiro quartil (Q4) separa os 75% inferiores dos 25% superiores dos dados. Analogamente, há nove decis (D1, D2, D3...D9) que dividem os dados em 10 grupos com cerca de 10% deles em cada grupo. Há, também, 99 percentis (P1, P2, P3...P99) que dividem os dados em 100 grupos com cerca de 1% deles em cada grupo. A fim de se calcular o percentil correspondente a um valor x utiliza-se a definição a seguir: 100. valoresdetotalnúmero xaerioresinfvaloresdenúmeroxvalordopercentil = Sendo n o número total de valores e k um determinado percentil, é possível determinar a posição (L) desse percentil através da definição 18 n 100 kL ⎟⎠ ⎞⎜⎝ ⎛= Quando L não é um valor inteiro devemos arredondar seu valor para o inteiromais próximo a fim de encontrar a posição do percentil considerado. O valor do percentil será o valor que ocupar a posição L. Se L for um número inteiro, então o percentil desejado estará a meio caminho entre o Lmo valor e o próximo valor mais alto no conjunto de dados. Exemplo: A tabela a seguir relaciona as 175 cargas axiais (em libras) de latas de alumínio, colocadas em ordem crescente. Determine: a) O percentil correspondente a 241. b) O escore correspondente ao 25º percentil (P25). c) O escore correspondente ao 40º percentil (P40). 200 225 254 262 268 270 273 277 279 282 286 291 201 228 256 263 268 270 273 277 279 283 286 292 204 230 256 263 268 270 274 277 279 283 286 292 204 230 256 263 268 270 274 277 280 283 287 292 206 234 257 263 268 271 274 277 280 283 287 293 206 236 257 263 268 271 274 277 280 283 288 293 208 241 258 264 268 272 275 277 281 283 289 294 208 242 259 265 269 272 275 277 281 284 289 295 209 242 259 265 269 272 275 278 281 284 289 295 215 248 260 265 269 272 275 278 281 284 289 297 217 250 261 266 269 272 276 278 282 284 289 218 251 262 267 270 273 276 278 282 285 290 220 251 262 267 270 273 276 278 282 285 290 223 252 262 268 270 273 276 278 282 285 290 223 252 262 268 270 273 276 278 282 286 291 Solução: a) Pela tabela acima é possível perceber que há 21 valores inferiores a 241, logo 12100 175 21241depercentil 100. valoresdetotalnúmero xaerioresinfvaloresdenúmeroxvalordopercentil =×= = A carga axial de 241 é o 12º percentil. b) 4475,43175 100 25n 100 kL ==×=⎟⎠ ⎞⎜⎝ ⎛= Como o valor de L não é um número inteiro, iremos arredondá-lo (para 44). O 25º percentil é o 44º valor (ou escore) a contar do menor. Assim, P25 é igual a 262. 19 c) )exatamente(70175 100 40n 100 kL =×=⎟⎠ ⎞⎜⎝ ⎛= Como o valor de L é um número inteiro, o 40º percentil está a meio caminho entre os 70º e 71º valores. Esses ambos valores são 269, logo P40 é igual a 269 (269+269/2). Temos definições análogas para quastis e decis. ANÁLISE EXPLORATÓRIA DE DADOS (EDA) Muitas vezes podemos tirar conclusões errôneas de histogramas. Isso ocorre devido à presença de valores extremos. Nesses casos é necessária uma exploração mais profunda dos dados. O gráfico de ramo-e-folhas já estudado é um dos instrumentos muito usados na EDA. Outro instrumento é o diagrama em caixa (boxplots). Os diagramas em caixa são convenientes para revelar tendências centrais, dispersão, distribuição dos dados e a presença de outliers (valores extremos). Um diagrama em caixa (boxplot) é um gráfico de dados que consiste em uma reta que se prolonga do menor ao maior valor, e um retângulo com retas traçadas no primeiro quartil Q1, na mediana e no terceiro quartil Q3. O diagrama em caixa tem a vantagem de não ser tão sensível a valores extremos como outras mediadas baseadas na média e no desvio-padrão. No entanto, não dá informações tão detalhadas como os histogramas e gráficos de ramo-e-folhas. Observação: Algumas vezes estão presentes, nos conjuntos de dados, valores extremos (outliers) que se diferenciam muito dos demais valores. Alguns desses valores constituem erros e devem ser eliminados (por exemplo a medida da pulsação de um aluno ser 8 ou 15). Outros valores, no entanto, representam anomalias interessantes que merecem um estudo detalhado.
Compartilhar