Baixe o app para aproveitar ainda mais
Prévia do material em texto
Disciplina: Análise de dados Aula 3: Análise de dados quantitativos Apresentação Nesta aula, aprenderemos os conceitos de medidas de posição e dispersão, que serão úteis na análise e interpretação de situações como a que foi descrita aqui. Além da visualização por meio de grá�cos, podemos quanti�car a posição central e dispersão dos dados. Objetivos • Organizar e visualizar dados quantitativos por meio de tabelas e grá�cos; • Calcular e interpretar as medidas de posição central e dispersão; • Fazer uma análise exploratória dos dados por meio do resumo dos cinco números e pela análise do Box-Plot. Dados quantitativos Sabemos que dados quantitativos são provenientes de variáveis quantitativas discretas ou contínuas. Diferentemente de dados qualitativos, quando estamos analisando um conjunto de dados numéricos temos a possibilidade de explorar melhor esse conjunto, caracterizando-o por meio de sua tendência central, formato e variação .1 Mas por que há variabilidade em um conjunto de dados? Vamos pensar em empresas que fabricam qualquer tipo de produto: elas não conseguem fabricar produtos que tenham características sempre idênticas, ou seja, dois produtos nunca são exatamente iguais. Pode acontecer da variação encontrada entre os produtos ser imperceptível, mas ela pode ser grande de maneira a tornar o produto não conforme ou torná-lo defeituoso. Nesse caso, como fontes de variabilidade, podemos citar: diferenças nos materiais, diferenças no desempenho e operação dos equipamentos de manufatura e diferenças na maneira como os operadores realizam suas tarefas. qualidade é inversamente proporcional à variabilidade Fonte: MONTGOMERY (2016, p. 5). Na engenharia de qualidade, o principal objetivo é a redução sistemática da variabilidade nas características chaves da qualidade do produto. Redução da variabilidade implica em menores custos, em consequência de menos reparos dos produtos, menos reclamações dentro da garantia, etc. Antes de estudarmos as medidas de posição e dispersão, vamos aprender a organizar e apresentar dados quantitativos em distribuições de frequências e grá�cos. Distribuição de frequências A estrutura de uma distribuição de frequências para dados quantitativos é a mesma que aquela que aprendemos para dados qualitativos. Para dados discretos, apresentamos os valores em ordem crescente. Agora, para um grande conjunto de dados contínuos, organizamos os dados em intervalos de classes, pois dados contínuos se repetem em uma frequência baixa, tornado a tabela extensa. O mesmo pode ser feito para muitos dados discretos com pouca repetição. Para a organização dos dados em classes, precisamos saber qual o número de classes que vamos construir e a amplitude (tamanho) de cada classe. Não há um número de classes ideal a ser construída, mas existem fórmulas que servem como referência. Podemos utilizar a regra da raiz, sugerida por vários autores: https://estacio.webaula.com.br/cursos/go0022/aula3.html https://estacio.webaula.com.br/cursos/go0022/aula3.html https://estacio.webaula.com.br/cursos/go0022/aula3.html https://estacio.webaula.com.br/cursos/go0022/aula3.html k ≅ √n onde k indica o número de classes que vamos construir n é o número total de observações do conjunto de dados. É muito comum o valor obtido para k não ser inteiro, então, vamos aproximar para o inteiro próximo de k Para determinar a amplitude e o número de observações em cada classe, devemos: 1 Encontrar a amplitude total dos dados, ou seja, amplitude total = valor máximo - valor mínimo Atenção! Para visualização completa da fórmula utilize a rolagem horizontal 2 Dividir a amplitude total pelo número de classes, ou seja, amplitude de classe = amplitude total k Normalmente, o resultado dessa divisão não é inteiro. Podemos arredondar até o próximo número inteiro, para facilitar a construção das classes. Atenção! Para visualização completa da fórmula utilize a rolagem horizontal 3 O valor mínimo dos dados pode ser utilizado como o limite inferior da primeira classe. Caso esse número seja decimal, podemos considerar o inteiro anterior a esse número. Por exemplo, se o menor valor do conjunto de dados é 2,15, podemos considerar como limite inferior da primeira classe o número 2. 4 Após a identi�cação dos limites inferiores e superiores das classes, contamos o número de observações que pertencem a cada intervalo de classe (frequências absolutas). Também, podemos encontrar as frequências relativas (%) de cada classe. 5 Devemos deixar claro, na distribuição de frequências, se os valores iguais aos limites estão ou não incluídos na classe. Construiremos intervalos de classe fechados à esquerda. A representação deste tipo de intervalo é: Li - Ls| Por exemplo, seja o intervalo: 0 | - 2 Pertencem a este intervalo valores iguais ou superiores ao limite inferior do intervalo (neste exemplo, 0) e inferiores ao limite superior (neste exemplo, 2). Se houver o número 2 no conjunto de dados, ele entra no próximo intervalo de classe (por exemplo, 2 | - 4). Exemplo Um dos principais indicadores para a qualidade dos serviços oferecidos por qualquer organização é a velocidade com que a organização responde às reclamações dos clientes. Uma grande loja de departamentos, que comercializa mobiliário e coberturas para pisos, passou por uma grande expansão ao longo dos últimos anos. Um objetivo estratégico empresarial corresponde a reduzir o tempo entre o momento em que a reclamação é recebida e o momento em que o problema objeto da reclamação é solucionado. Durante um ano recente, a empresa recebeu 50 reclamações com relação à instalação de carpetes. Os dados a seguir representam o número de dias entre o recebimento da reclamação e a solução do problema: 1 2 4 4 5 5 5 10 11 12 13 13 14 19 20 21 22 23 26 26 26 27 27 27 28 29 29 29 30 31 31 32 33 35 35 36 52 54 61 68 74 81 94 110 110 123 126 137 152 165 Fonte: Levine et al. (2016, p. 88). Vamos apresentar os dados em uma distribuição de frequências. Usando a regra da raiz para encontrar o número de classes, temos: � ≅ √50 ≅ 7, 1 Como o resultado é um valor decimal, temos que considerar um valor inteiro próximo a esse resultado. Então, podemos escolher trabalhar com 7 classes. A amplitude de cada classe é: ��������� �� ���� ������ = (����� �á���� − ����� �í����) /7 = (165 − 1) /7 ≅ 23, 4 Vamos considerar a amplitude de cada classe 24 e o limite inferior da primeira classe 0 (começar com 1 também é possível!). Tabela 1 - Tempo (em dias) para a solução do problema Atenção! Para visualização completa da tabela utilize a rolagem horizontal Atenção! Para visualização completa da fórmula utilize a rolagem horizontal Tempo (em dias) Frequência Frequência Relativa (%) | - 24 18 36,00 24 | - 48 18 36,00 48 | - 72 4 8,00 72 | - 96 3 6,00 Atenção! Para visualização completa da tabela utilize a rolagem horizontal Observamos que 72% das reclamações precisaram de até 48 dias para serem solucionadas e que 10% delas precisaram entre 120 a 168 dias. Métodos grá�cos Os dois tipos de grá�cos frequentemente utilizados para variáveis quantitativas são o grá�co de barras, para dados discretos que não foram agrupados, e o histograma, para dados contínuos agrupados em classes. Grá�co de Barras Já utilizamos o grá�co de barras para mostrar visualmente o comportamento das categorias de uma variável qualitativa. Aqui, o procedimento é o mesmo, porém, colocaremos os valores da variável quantitativa no eixo das abscissas (eixo x) e as frequências absolutas ou porcentagens no eixo das ordenadas. Não devemos esquecer dos cuidados que devemos ter na construção de um grá�co! Exemplo Um fabricante de molas, interessado em implementar um sistema de controle de qualidade para monitorar seu processo de produção, analisou 40 lotes de produção com tamanho igual a 50 e registrou o número de molas fora da conformidade em cada um dos lotes. Os dados são apresentados no grá�co a seguir. A variável de interesse é o númerode molas fora da conformidade e ela é classi�cada como quantitativa discreta. Os valores observados para essa variável estão entre 3 e 12 molas fora da conformidade, distribuídos de acordo com as frequências apresentadas no grá�co. Grá�co 1 – Número de molas fora da conformidade nos lotes analisados Histograma Um histograma é semelhante ao diagrama de barras, porém refere-se a uma distribuição de frequências construída com intervalos de classes. Por isso, apresenta uma diferença: não há espaços entre as barras. Os intervalos de classes são colocados no eixo horizontal enquanto as frequências são colocadas no eixo vertical. O histograma é muito utilizado para visualizarmos a natureza da distribuição dos dados. Muitas técnicas estatísticas exigem que os dados amostrais sejam provenientes de uma população que tenha uma distribuição que não se afaste drasticamente de uma curva em forma de sino. Para veri�car essa exigência, podemos sempre usar o histograma. Grá�co 2 – Histograma para o perímetro torácico de homens adultos Fonte: Blog Sonia Vieira <//soniavieira.blogspot.com/2016/06/distribuicao-normal-para-nao-matematicos.html> Mas, o que é uma curva em forma de sino? As características para uma curva em forma de sino são: o aumento das frequências, que atingem um máximo e depois decrescem e a simetria (metade a esquerda do grá�co é uma imagem re�etida da metade a direita). A Figura a seguir apresenta uma curva em forma de sino ajustada ao histograma. Exemplo https://soniavieira.blogspot.com/2016/06/distribuicao-normal-para-nao-matematicos.html https://soniavieira.blogspot.com/2016/06/distribuicao-normal-para-nao-matematicos.html https://soniavieira.blogspot.com/2016/06/distribuicao-normal-para-nao-matematicos.html https://soniavieira.blogspot.com/2016/06/distribuicao-normal-para-nao-matematicos.html https://soniavieira.blogspot.com/2016/06/distribuicao-normal-para-nao-matematicos.html https://soniavieira.blogspot.com/2016/06/distribuicao-normal-para-nao-matematicos.html Os dados a seguir referem-se ao tempo de parada de um equipamento, seja por manutenção ou troca de ferramentas. Os tempos estão em minutos e foram coletados uma vez ao dia. Grá�co 3 – Histograma para o tempo (minutos) de parada de um equipamento Podemos observar que a distribuição dos dados é aproximadamente simétrica. Nesse exemplo, o histograma é o grá�co apropriado para visualizar os dados coletados, pois eles foram agrupados em classes. Medidas de posição central Depois da organização e visualização de dados quantitativos, podemos encontrar medidas que nos fornecem a localização ou tendência central dos dados, ou seja, dão a ideia do centro em torno do qual os dados se distribuem. Conheça a seguir as medidas mais utilizadas. Média Fórmula: x̄ = ∑ni=1xi n ou x̄ = ∑ki=1xi · fi n Em que: n Σ i=1 xi representa o somatório das observações; n número de observações no conjunto de dados; fifrequência com que as observações se repetem. Vantagens e desvantagens 1. É a medida de posição central mais conhecida e mais utilizada. 2. É in�uenciada pela presença de valores discrepantes (outliers) no conjunto de dados. Nessas situações, a mediana é mais representativa que a média aritmética. 3. Só pode se encontrada para variáveis quantitativas. Moda Fórmula: Não tem fórmula, basta analisar a distribuição de frequências, pois moda é a resposta que aparece com a maior frequência em um conjunto de dados. Um conjunto de dados pode: 1. Não ter moda (distribuição amodal). 2. Ter uma moda (distribuição unimodal). 3. Ter duas modas (distribuição bimodal). 4. Ter mais de duas modas (distribuição multimodal). Vantagens e desvantagens 1. A moda pode ser encontrada para variáveis qualitativas e quantitativas. 2. A limitação do uso da moda está no fato de que um conjunto de dados pode não ter moda alguma, ou pode ter mais de uma moda, ao passo que a média e a mediana são únicas. Mediana Se o número de elementos do conjunto de dados for ímpar, temos: Md = x n+1 2 Se o número de elementos do conjunto de dados for par, temos: Md = x n 2 + x n 2 +1 2 em que x n 2 , x n 2 +1 e x n+1 2 indicam as observações que ocupam as posições “do meio” do conjunto de dados. Vantagens e desvantagens 1. A mediana não é in�uenciada pela presença de valores discrepantes (outliers) no conjunto de dados, sendo, nesses casos, mais representativa que a média aritmética. 2. A mediana pode ser encontrada para variáveis qualitativas ordinais. 3. Para encontrar a mediana os dados devem estar ordenados. 4. A mediana é o valor do meio de um conjunto de dados ordenado. Metade dos valores é menor ou igual à mediana, e metade dos valores é maior ou igual ao valor da mediana. As fórmulas apresentadas são para estudos realizados com dados amostrais. Representamos o número de observações em uma amostra por n e no caso de população utilizamos N. Para dados agrupados em classes, em que não temos acesso ao conjunto de dados brutos, substituímos os valores individuais presentes em cada intervalo (que são desconhecidos) pelos respectivos pontos médios de cada classe. Exemplo Vamos utilizar os dados do Exemplo referente ao número de molas fora da conformidade para calcular as medidas de posição. Média: x̄ = ∑ki=1xi · fi n = 3×1+4×4+5×3+ … +12×4 1+4+3+ … +4 = 301 40 = 7, 525 molas Moda: A resposta que aparece com a maior frequência é o 7 (aparece 9 vezes). Portanto: mo = 7molas Mediana: x̄ = ∑ki=1xi · fi n = 3×1+4×4+5×3+ … +12×4 1+4+3+ … +4 = 301 40 = 7, 525 molas Como o número de observações é par (40 observações), temos: Md = x n 2 + x n 2 +1 2 = x 40 2 + x 40 2 +1 2 = x20+ x21 2 = 7+7 2 = 7molas Como sabemos qual é o valor que está na vigésima e vigésima primeira posições? Basta somarmos as frequências até chegar nas posições desejadas. No exemplo: 1 + 4 + 3 + 4 + 9 = 21 Isso quer dizer que precisamos ir até a barra cuja resposta da variável é 7 para chegarmos nas posições 20 e 21. Atenção! Para visualização completa da fórmula utilize a rolagem horizontal Atenção! Para visualização completa da fórmula utilize a rolagem horizontal Atenção! Para visualização completa da fórmula utilize a rolagem horizontal Atenção! Para visualização completa da fórmula utilize a rolagem horizontal Pelas medidas encontradas, concluímos que o número médio de molas fora da conformidade na amostra em estudo é 7,525 e que pelo menos metade das observações são maiores ou iguais a 7 (pelo valor encontrado para a mediana). A moda nos informa que a observação que aparece com a maior frequência é 7 molas fora da conformidade. Medidas de dispersão Você lembra do caso da peça fabricada por duas linhas de produção que deveria apresentar comprimento médio de 75 cm? E da Figura 1, lá na apresentação desta aula? Se achar melhor, reveja este exemplo. Além de caracterizar um conjunto de dados por meio das medidas de posição central, é muito importante estudar a variabilidade presente (ou não) nos dados. Como vimos na Figura 1, a Linha 1 está produzindo peças com menor variabilidade no comprimento quando comparada com a Linha 2. Sabemos que qualidade é inversamente proporcional à variabilidade e que a melhoria da qualidade é a redução da variabilidade nos processos e produtos (MONTGOMERY, 2016, p. 6). Então, vamos aprender a calcular e interpretar as medidas de dispersão mais utilizadas? Amplitude total Fórmula: x_((máximo)) - x_((mínimo)) Atenção! Para visualização completa da fórmula utilize a rolagem horizontal Vantagens e desvantagens 1. Fácil de calcular e interpretar. 2. Só leva em conta dois valores do conjunto de dados. 3. A amplitude é muito sensível a valores discrepantes. Variância Fórmula: s2 = ∑ni=1 xi - x̄ 2 n - 1 ou s2 = ∑ni=1x 2 i - ∑ni=1xi 2 n n - 1 Para dados em tabelas: s2 = ∑ni=1 xi - x̄ 2 · fi n - 1 ou s2 = ∑ni=1x 2 i · fi - ∑ni=1xi · fi 2 n n - 1 ( ) Atenção! Para visualização completa da fórmula utilize a rolagem horizontal( ) Atenção! Para visualização completa da fórmula utilize a rolagem horizontal ( ) Atenção! Para visualização completa da fórmula utilize a rolagem horizontal ( ) Atenção! Para visualização completa da fórmula utilize a rolagem horizontal Vantagens e desvantagens 1. Leva em conta todas as observações do conjunto de dados. 2. É interpretada como uma média do quadrado dos desvios, pois desvio é a distância de qualquer observação do conjunto de dados em relação à média desse conjunto: desvio = x - x̄ 3. A unidade de medida da variância é igual ao quadrado da medida dos dados, tornado difícil a interpretação do valor numérico obtido. Desvio-padrão Fórmula: � = √ (� ^ 2 ) Atenção! Para visualização completa da fórmula utilize a rolagem horizontal Vantagens e desvantagens 1. Apresenta a mesma unidade de medida dos dados. 2. Como a média, o desvio-padrão é in�uenciado pela presença de valores discrepantes (outliers) no conjunto de dados. 3. É utilizado para comparar a variabilidade de dois conjuntos de dados diferentes quando as médias forem aproximadamente iguais e quando as unidades de medidas para os dois conjuntos forem as mesmas. Coe�ciente de variação Fórmula: cv = s x̄ × 100 Atenção! Para visualização completa da fórmula utilize a rolagem horizontal Vantagens e desvantagens 1. É adimensional. 2. Serve para comparar a variabilidade de conjuntos de dados cujas variáveis em estudo são diferentes (com unidades de medidas diferentes). As medidas e dados apresentados são para dados amostrais. Exemplo Dando continuidade ao estudo sobre o número de molas fora da conformidade, vamos encontrar as medidas de dispersão. Vamos apresentar os dados contidos no grá�co em um quadro: Tempo (em dias) Frequência Frequência Relativa (%) |―24 18 36,00 24|―48 18 36,00 48|―72 4 8,00 72|―96 3 6,00 Amplitude total AT = x (máximo ) - x (mínimo )AT = 12 - 3 = 9molas A maior diferença entre quaisquer dois lotes, em termos de número de molas fora da conformidade, é 9. Variância s2 = ∑ni=1x 2 i · fi - ∑ni=1xi · fi 2 n n - 1 Precisamos das seguintes quantidades: ∑ni=1x 2 i · fi = 3 2 × 1 + 42 × 4 + ⋯ + 122 × 4 = 2. 481∑ni=1xi · fi = 3 × 1 + 4 × 4 + ⋯ + 12 × 4 = 301 Atenção! Para visualização completa da tabela utilize a rolagem horizontal Atenção! Para visualização completa da fórmula utilize a rolagem horizontal ( ) Atenção! Para visualização completa da fórmula utilize a rolagem horizontal Então: s2 = ∑ni=1x 2 i · fi - ∑ni=1xi · fi 2 n n - 1 = 2481 - ( 301 ) 2 40 39 = 2481 - 2265 , 025 39 = 5, 54molas2 Como a variância é expressa em unidades elevadas ao quadrado, vamos encontrar o desvio-padrão. Desvio-padrão s = √s2s = √5, 54 = 2, 35molas Coe�ciente de variação cv = s x̄ × 100cv = 2 , 35 7 , 525 × 100 = 31, 23 % Concluímos que o número médio de molas fora da conformidade, por lote, é 7,5, com um desvio-padrão de 2,25 molas. Com esses valores, o departamento de controle de qualidade tem como avaliar se a produção está ocorrendo de acordo com padrões estabelecidos, ou se mudanças são necessárias para atingir a qualidade requerida. Atenção! Para visualização completa da fórmula utilize a rolagem horizontal ( ) Atenção! Para visualização completa da fórmula utilize a rolagem horizontal Atenção! Para visualização completa da fórmula utilize a rolagem horizontal Atenção! Para visualização completa da fórmula utilize a rolagem horizontal Análise exploratória de dados Caracterizamos o conjunto de dados quanto a sua tendência central e a sua variabilidade. Além disso, podemos descrever dados numéricos por meio de uma análise exploratória de dados . que utiliza ferramentas estatísticas como grá�cos e medidas de posição central e de dispersão para compreender características importantes sobre o conjunto. Aprenderemos, agora, como encontrar o resumo dos 5 números e como construir e interpretar um grá�co denominado Box-Plot. Veja no Grá�co 4 algumas das medidas que vamos aprender. 2 Grá�co 4 - Dispersão da idade dos alunos matriculados em cursos de graduação, por modalidade de ensino https://estacio.webaula.com.br/cursos/go0022/aula3.html https://estacio.webaula.com.br/cursos/go0022/aula3.html https://estacio.webaula.com.br/cursos/go0022/aula3.html https://estacio.webaula.com.br/cursos/go0022/aula3.html Fonte: Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira- INEP <//download.inep.gov.br/educacao_superior/censo_superior/documentos/2010/censo_2010.pdf> . Quartis Os quartis (Q1, Q2 e Q3), como o próprio nome sugere, divide a distribuição dos dados ordenados em quatro partes, sendo que: • Primeiro quartil (Q1): no mínimo 25% dos valores ordenados são menores ou iguais a Q1 e no mínimo 75% são maiores ou iguais a Q1. • Segundo quartil (Q2): no mínimo 50% dos valores ordenados são menores ou iguais a Q2 e no mínimo 50% são maiores ou iguais a Q2. • Terceiro quartil (Q3): no mínimo 75% dos valores ordenados são menores ou iguais a Q3 e no mínimo 25% são maiores ou iguais a Q3. Com os dados ordenados, temos: Posição Q1 = n 4 Posição Q2 = n 2 Posição Q3 = 3 ·n 4 Comentário Quando fazemos estas divisões para encontrar as posições dos quartis, pode acontecer do resultado ser um número inteiro ou um número fracionário. Então, adotaremos a seguinte convenção: • Se a divisão resultar num número fracionário, arredonde-o para cima e o valor do quartil será a observação encontrada nesta posição. https://download.inep.gov.br/educacao_superior/censo_superior/documentos/2010/censo_2010.pdf https://download.inep.gov.br/educacao_superior/censo_superior/documentos/2010/censo_2010.pdf https://download.inep.gov.br/educacao_superior/censo_superior/documentos/2010/censo_2010.pdf https://download.inep.gov.br/educacao_superior/censo_superior/documentos/2010/censo_2010.pdf https://download.inep.gov.br/educacao_superior/censo_superior/documentos/2010/censo_2010.pdf https://download.inep.gov.br/educacao_superior/censo_superior/documentos/2010/censo_2010.pdf • Se a divisão for um número inteiro, o quartil será a média aritmética da observação que ocupar a posição encontrada com a observação que ocupar a posição imediatamente seguinte. Para construir o Box-Plot, precisamos encontrar: xmáximo Q1 Q2 Q3 xmínimo Exemplo Os dados a seguir representam o número de falhas, por dia, no servidor de rede de uma empresa, durante 20 dias. 1 2 0 0 3 1 2 2 3 1 4 5 5 3 6 8 1 5 16 2 Vamos encontrar o resumo dos 5 números. Para encontrar os quartis, precisamos ordenar os dados: 0 0 1 1 1 1 2 2 2 2 3 3 3 4 5 5 5 6 8 16 Posição Q1 = n 4 = 20 4 = 5. O Q1 está entre a quinta e sexta posições dos dados ordenados: Q1 = 1+1 2 = 1falha Posição Q2 = n 2 = 20 2 = 10. O Q2 está entre a décima e décima primeira posições dos dados ordenados: Atenção! Para visualização completa da tabela utilize a rolagem horizontal Atenção! Para visualização completa da tabela utilize a rolagem horizontal Q3 = 2+3 2 = 2, 5falhas Posição Q3 = 3 ·n 4 = 3 · 20 4 = 15. O Q3 está entre a décima quinta e décima sexta posições dos dados ordenados: Q3 = 5+5 2 = 5falhas Então, o resumo dos 5 números para esse conjunto de dados é: xmínimo Q1 Q2 Q3 xmáximo 0 1 2,5 5 16 Como podemos explorar informações importantes presentes nesse conjunto de dados? Podemos construir um grá�co denominado Box-Plot, que veremos a seguir. Atenção! Para visualização completa da fórmula utilize a rolagem horizontal Atenção! Para visualização completa da fórmula utilize a rolagem horizontal Atenção! Para visualização completa da tabela utilize a rolagem horizontal Box-Plot Este grá�co é construído utilizando o resumo dos cinco números. Ele informa, entre outras coisas, a posição, variabilidade e simetria dos dados. A posição central é dada pela mediana (Q2) e a dispersão pela amplitude interquartil (dq). Com as posições relativas de Q1, Q2 e Q3 temos ideia da assimetria da distribuição. Veja a seguir um exemplo de Box-Plot.Grá�co 5 – Box-Plot Fonte: BUSSAB e MORETTIN (2002, p. 48). Citação Para construir este diagrama, consideremos um retângulo onde estão representados a mediana e os quartis. A partir do retângulo, para cima, segue uma linha até o ponto mais remoto que não exceda LS = q3+(1, 5)dq, chamado limite superior. De modo similar, da parte inferior do retângulo, para baixo, segue uma linha até o ponto mais remoto que não seja menor do que LI = q1- (1, 5)dq, chamado limite inferior. Os valores compreendidos entre esses dois limites são chamados valores adjacentes. As observações que estiverem acima do limite superior ou abaixo do limite inferior estabelecidos serão chamadas pontos exteriores e representadas por asteriscos. Essas são observações destoantes das demais e podem ou não ser o que chamamos de outliers ou valores atípicos. Fonte: BUSSAB; MORETTIN, 2002, p. 48. Exemplo Vamos construir o Box-Plot para o Exemplo do número de falhas no servidor de rede. resumo dos cinco números é: xmínimo Q1 Q2 Q3 xmáximo 0 1 2,5 5 16 Para encontrar LI e LS, precisamos da distância interquartil, obtida por: dq = Q3 - Q1dq = 5 - 1 = 4 Então: LI = q1 - (1, 5)dq = 1 - (1, 5) × 4 = - 5LS = q3 + (1, 5)dq = 5 + (1, 5) × 4 = 11 Agora, temos as informações necessárias para construir o Box-Plot. Atenção! Para visualização completa da tabela utilize a rolagem horizontal Atenção! Para visualização completa da fórmula utilize a rolagem horizontal Atenção! Para visualização completa da fórmula utilize a rolagem horizontal Grá�co 6 – Box-Plot para o número de falhas diárias no servidor de rede Fonte: Elaboração do autor. O que podemos concluir do Box-Plot apresentado? Por que a observação 16 é um outlier? E, por que as linhas que saem do retângulo não vão até o valor encontrado para o limite inferior (LI) e limite superior (LS)? Para responder essas perguntas, vamos à explicação fornecida por Bussab e Morettin (2002, p. 48): • A partir do retângulo, para cima, segue uma linha até o ponto mais remoto que não exceda LS = q3 + (1, 5)dq, chamado limite superior. • O valor do limite superior é LS = 11 e, no conjunto de dados, o valor mais remoto que não exceda o número 11, é X19 = 8. • De modo similar, da parte inferior do retângulo, para baixo, segue uma linha até o ponto mais remoto que não seja menor do que LI = q1 - (1, 5)dq, chamado limite inferior. • O valor do limite inferior é LI = 5 e, no conjunto de dados, o valor mais remoto que não é menor que o número -2, é o valor mínimo Xmínimo = 0. • As observações que estiverem acima do limite superior ou abaixo do limite inferior estabelecidos serão chamadas pontos exteriores e representadas por asteriscos. Essas são observações destoantes das demais e podem ou não ser o que chamamos de outliers ou valores atípicos. • A observação 16 está acima do limite superior (LS = 11), portanto, é identi�cado como um outlier. Se tivermos certeza que o outlier é um erro (por exemplo, erro de medição ou de digitação), devemos corrigi-lo ou retirá-lo do conjunto de dados. Agora, se soubermos que o outlier é um valor correto, devemos estudar seu efeito construindo grá�cos e calculando as medidas descritivas com e sem o outlier. Atividade 1. Bernardin (Mestrado Engenharia Mecânica/UFSC, 1994) realizou um experimento que tinha o objetivo de melhorar a qualidade do processo de formulação de massa cerâmica para pavimento. Os corpos de prova eram “biscoitos” que saíam do processo de queima e a quantidade era avaliada por três variáveis, a saber: X1 = retração linear (%), X2 = resistência mecânica e X3 = absorção da água (%). O experimento foi realizado sob 8 condições diferentes (no estudo original eram 18). Foram feitos 5 ensaios em cada uma das 8 condições experimentais. Os dados são apresentados a seguir. C1 X1 X2 X3 C1 X1 X2 X3 C1 X1 X2 X3 C1 X1 X2 X3 1 8,9 41,1 5,5 3 9,4 50,0 0,8 5 13,4 60,6 0,5 7 12,9 41,1 0,2 1 9,2 39,0 4,8 3 9,9 48,3 0,6 5 13,4 60,0 0,5 7 12,4 39,0 0,4 1 8,0 36,9 6,2 3 9,6 50,1 0,6 5 13,6 68,4 0,2 7 12,6 36,9 0,5 1 8,7 39,2 5,7 3 9,2 49,9 0,7 5 13,4 60,8 0,7 7 12,6 39,2 0,4 1 8,7 35,9 5,5 3 9,4 56,2 0,5 5 12,4 51,4 1,0 7 12,9 35,9 0,3 2 12,6 52,7 0,9 4 6,6 31,2 9,0 6 9,6 41,2 3,9 8 8,2 40,8 4,4 2 13,6 53,5 0,4 4 6,4 25,3 10,2 6 10,6 53,0 4,5 8 9,2 43,8 3,9 2 11,6 47,0 1,3 4 5,9 22,8 10,5 6 8,9 37,0 3,3 8 9,2 48,6 4,0 2 10,1 31,1 1,8 4 5,9 27,5 10,6 6 7,5 30,1 3,0 8 8,5 46,9 4,3 2 12,1 50,9 1,1 4 6,8 31,9 9,3 6 8,9 41,6 3,5 8 8,7 46,2 4,1 Fonte: BARBETTA (2004, p. 88). Organize os dados da variável X2 em uma distribuição de frequências. Atenção! Para visualização completa da tabela utilize a rolagem horizontal 2. Utilizando os dados da Atividade 1, encontre a média e o desvio-padrão para a variável X1, considerando as condições 1 e 6. Em qual condição o conjunto de dados apresenta menor variabilidade? 3. Construa o Box-Plot para a variável X1. Notas Variação 1 As medidas descritivas de dispersão (variação) nos auxiliam a entender a variabilidade presente em um conjunto de dados, de maneira a nos apoiarem nos processos de tomada de decisão. Molda análise ecploratória de dados 2 Na análise exploratória de dados quantitativos, encontramos os quartis, o resumo dos cinco números e construímos o Box-Plot. Referências BARBETTA, Pedro A.; REIS, Marcelo M.; BORNIA, Antonio C. Estatística: para cursos de engenharia e informática. São Paulo: Atlas, 2004. BUSSAB, Wilton de O.; MORETTIN, Pedro A. Estatística Básica. 5. ed. São Paulo: Saraiva, 2002. LEVINE, David M.; STEPHAN, David F.; SZABAT, Kathryn A. Estatística: Teoria e Aplicações Usando Microsoft Excel em Português. 7. ed. Rio de Janeiro: LTC, 2016. MAGALHÃES, Marcos N.; LIMA, Antonio C. P de. Noções de Probabilidade e Estatística. 6. ed. São Paulo: Editora da Universidade de São Paulo, 2004. MONTGOMERY, Douglas C. Introdução ao Controle Estatístico de Qualidade. 7. ed. Rio de Janeiro: LTC, 2016. MONTGOMERY, Douglas C.; RUNGER, George C. Estatística Aplicada e Probabilidade para Engenheiros. 5. ed. Rio de Janeiro: LTC, 2014. Portal Action. MEDIDAS DE DISPERSÃO. Disponível em: <// www.portalaction.com.br/ estatistica- basica/ 22- medidas- de- dispersao <//www.portalaction.com.br/estatistica-basica/22-medidas-de-dispersao> >. Acesso em: 18 nov. 2018. Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. CENSO DA EDUCAÇÃO SUPERIOR 2010. Disponível em: <// download.inep.gov.br/ educacao_ superior/ censo_ superior/ documentos/ 2010/ censo_ 2010.pdf <//download.inep.gov.br /educacao_superior/censo_superior/documentos/2010/censo_2010.pdf> >. Acesso em: 18 nov. 2018. Blog Sonia Vieira. Distribuição normal (para não-matemáticos). Disponível em: <// soniavieira.blogspot.com/ 2016/ 06/ distribuicao- normal- para- nao- matematicos.html <//soniavieira.blogspot.com/2016/06/distribuicao-normal-para-nao- matematicos.html> >. Acesso em: 18 nov. 2018. Próxima aula • Conceito de probabilidade; • Probabilidade condicional e independência; • Teorema de Bayes. Explore mais • Boxplot <//www.portalaction.com.br/estatistica-basica/31-boxplot> - Portal Action • O que é assimetria (ou distorção) e como se mede? <//soniavieira.blogspot.com/2018/05/> - Blog Sonia Vieira https://www.portalaction.com.br/estatistica-basica/22-medidas-de-dispersao https://www.portalaction.com.br/estatistica-basica/22-medidas-de-dispersao https://www.portalaction.com.br/estatistica-basica/22-medidas-de-dispersao https://www.portalaction.com.br/estatistica-basica/22-medidas-de-dispersao https://www.portalaction.com.br/estatistica-basica/22-medidas-de-dispersao https://www.portalaction.com.br/estatistica-basica/22-medidas-de-dispersao https://www.portalaction.com.br/estatistica-basica/22-medidas-de-dispersao https://www.portalaction.com.br/estatistica-basica/22-medidas-de-dispersao https://download.inep.gov.br/educacao_superior/censo_superior/documentos/2010/censo_2010.pdf https://download.inep.gov.br/educacao_superior/censo_superior/documentos/2010/censo_2010.pdfhttps://download.inep.gov.br/educacao_superior/censo_superior/documentos/2010/censo_2010.pdf https://download.inep.gov.br/educacao_superior/censo_superior/documentos/2010/censo_2010.pdf https://download.inep.gov.br/educacao_superior/censo_superior/documentos/2010/censo_2010.pdf https://download.inep.gov.br/educacao_superior/censo_superior/documentos/2010/censo_2010.pdf https://download.inep.gov.br/educacao_superior/censo_superior/documentos/2010/censo_2010.pdf https://download.inep.gov.br/educacao_superior/censo_superior/documentos/2010/censo_2010.pdf https://download.inep.gov.br/educacao_superior/censo_superior/documentos/2010/censo_2010.pdf https://soniavieira.blogspot.com/2016/06/distribuicao-normal-para-nao-matematicos.html https://soniavieira.blogspot.com/2016/06/distribuicao-normal-para-nao-matematicos.html https://soniavieira.blogspot.com/2016/06/distribuicao-normal-para-nao-matematicos.html https://soniavieira.blogspot.com/2016/06/distribuicao-normal-para-nao-matematicos.html https://soniavieira.blogspot.com/2016/06/distribuicao-normal-para-nao-matematicos.html https://soniavieira.blogspot.com/2016/06/distribuicao-normal-para-nao-matematicos.html https://soniavieira.blogspot.com/2016/06/distribuicao-normal-para-nao-matematicos.html https://soniavieira.blogspot.com/2016/06/distribuicao-normal-para-nao-matematicos.html https://soniavieira.blogspot.com/2016/06/distribuicao-normal-para-nao-matematicos.html https://soniavieira.blogspot.com/2016/06/distribuicao-normal-para-nao-matematicos.html https://soniavieira.blogspot.com/2016/06/distribuicao-normal-para-nao-matematicos.html https://www.portalaction.com.br/estatistica-basica/31-boxplot https://www.portalaction.com.br/estatistica-basica/31-boxplot https://www.portalaction.com.br/estatistica-basica/31-boxplot https://www.portalaction.com.br/estatistica-basica/31-boxplot https://www.portalaction.com.br/estatistica-basica/31-boxplot https://www.portalaction.com.br/estatistica-basica/31-boxplot https://www.portalaction.com.br/estatistica-basica/31-boxplot https://soniavieira.blogspot.com/2018/05/ https://soniavieira.blogspot.com/2018/05/ https://soniavieira.blogspot.com/2018/05/ https://soniavieira.blogspot.com/2018/05/ https://soniavieira.blogspot.com/2018/05/ https://soniavieira.blogspot.com/2018/05/ • Avaliação tipo A da incerteza da medição <//soniavieira.blogspot.com/2016/05/> - Blog Sonia Vieira https://soniavieira.blogspot.com/2016/05/ https://soniavieira.blogspot.com/2016/05/ https://soniavieira.blogspot.com/2016/05/ https://soniavieira.blogspot.com/2016/05/ https://soniavieira.blogspot.com/2016/05/ https://soniavieira.blogspot.com/2016/05/
Compartilhar