Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 1 UNIVERSIDADE DO VALE DO RIO DOS SINOS - UNISINOS CONTROLE ESTATÍSTICO DA QUALIDADE Profa. Karla Faccio NOTAS DE AULA Material PARTE I Março, 2021 _____________________________________________________________________________________ UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 2 1. INTRODUÇÃO Estuda-se a estatística para aplicar seus conceitos como auxílio na tomada de decisão diante de incertezas, justificando cientificamente as decisões. A estatística é uma parte da matemática aplicada que fornece métodos para a coleta, organização, descrição, análise e interpretação de dados e para a utilização dos mesmos na tomada de decisões. A Estatística é a ciência que estuda os fenômenos multicausais, coletivos ou de massa e procura inferir as leis que os mesmos obedecem. Método estatístico é um processo para se obter, apresentar e analisar características ou valores numéricos para uma melhor tomada de decisão em situações de incerteza. Os passos da metodologia estatística são os seguintes: • Definição do problema; • Formulação de um planejamento para a coleta das unidades de observação. É nessa fase que será escolhido o tipo de levantamento a ser utilizado. Podem existir dois tipos de levantamentos: o censitário, quando a contagem for completa, abrangendo todo o universo (população) e o levantamento por amostragem, quando a contagem for parcial; • Coleta, resumo e apresentação das unidades de observação ou de seus valores numéricos; • Análise dos resultados; • Divulgação de um relatório com as conclusões, de tal modo que estas sejam facilmente entendidas por quem as for usar na tomada de decisões. Como as informações provêm de um conjunto menor do que a população, erros são cometidos ao se fazer uma inferência. Esses erros podem ser quantificados por um valor numérico, denominado de probabilidade. O conhecimento das probabilidades associadas a uma situação fornece a base para o desenvolvimento de técnicas para a tomada de decisão. A estatística descritiva e a probabilidade são ferramentas para a inferência estatística, a qual interpreta de duas maneiras os resultados obtidos a partir das amostras: ou fazendo uma estimação a respeito de uma característica da população cujo valor se desconhece ou realizando um teste sobre essa característica, da qual se afirma ter um determinado valor. UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 3 Em geral, a estatística divide-se em dois grupos: estatística descritiva e indutiva. Descritiva: corresponde aos procedimentos relacionados com a coleta, elaboração, tabulação, análise, interpretação e apresentação dos dados, ou seja, inclui técnicas que dizem respeito à sintetização e à descrição de dados numéricos. Tais métodos podem ser gráficos e envolvem a utilização de recursos computacionais. Indutiva (ou inferencial): parte de uma ou mais amostras (subconjuntos da população) e conclui sobre a população. Utiliza técnicas como a teoria das probabilidades, inferência estatística, amostragem. Frequentemente utiliza-se o estudo da amostra do que da população, uma vez que na maioria das vezes não se dispõe de todos os elementos da população, além das informações serem menos dispendiosas e consumirem menos tempo no processamento dos dados. Definições e conceitos úteis para o estudo da Estatística: - População (N): Conjunto de elementos com pelo menos uma característica em comum, ou seja, conjunto de todas as unidades elementares de interesse. Se a população é finita dizemos quem tem tamanho N. UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 4 - Amostra (n): Uma amostra é um subconjunto de tamanho n da população em estudo usado para obter informação acerca do todo. Obtemos uma amostra para fazer inferências de uma população. Nossas inferências são válidas somente se a amostra é representativa da população. Por que tomamos uma amostra e não utilizamos a população toda? - Custo alto para obter informação da população toda. - Tempo muito longo para obter informação da população toda. - Algumas vezes impossível, por exemplo, estudo de poluição atmosférica. - Algumas vezes é logicamente impossível, por exemplo, em ensaios destrutivos (controle de qualidade de fósforos). - Parâmetro: É uma constante que caracteriza uma população, isto é, é uma medida que descreve uma característica de uma população (Exemplo: média (µ), desvio-padrão (σ), variância (σ2), proporção (π), etc). - Estimador: Caracteriza uma amostra, isto é, é uma medida que descreve uma característica da amostra (Exemplo: média amostral )( __ X , desvio-padrão amostral (s), variância amostral (s2), proporção amostral (p), etc). Exemplos de parâmetros e seus respectivos estimadores: Parâmetros Estimadores Média populacional µ Média amostral X Desvio-padrão populacional σ Desvio-padrão amostral s Proporção populacional π Proporção amostral p - Experimento: Tudo aquilo que pode ser repetido sob idênticas condições. Tipos de experimento: - Determinístico: o resultado vai ser sempre o mesmo. - Aleatório: em cada repetição feita não tem como garantir o mesmo resultado. - Variáveis: Uma variável é uma característica de uma população que difere de um indivíduo para outro e da qual temos interesse em estudar. Desta forma, é a característica de interesse dos elementos da população. Cada unidade (membro) da população que é escolhido como parte de uma amostra fornece uma medida de uma ou mais variáveis, chamadas observações. As variáveis podem ser classificadas em Qualitativas ou Quantitativas. UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 5 Variáveis Qualitativas (ou Categóricas): são as características que não possuem valores quantitativos, mas, ao contrário, são definidas por várias categorias, ou seja, representam uma classificação dos indivíduos. Podem ser nominais ou ordinais. Variável Qualitativa Nominal: Consiste em nomes, rótulos ou categorias apenas. Os dados não podem ser ordenados. Exemplos: Tipo de defeito (Arranhão, Trinca, Quebrado, Amassado); Time preferido (Grêmio, Internacional, Flamengo); Religião (Católica, Protestante, Evangélica); Estado Civil (Casado, Solteiro, Viúvo, Divorciado); Nacionalidade; Sexo; etc. Variável Qualitativa Ordinal: As variáveis podem ser arranjadas em alguma ordem, mas diferenças entre os valores dos dados não podem ser determinadas. Exemplos: Classe Social (A, B, C, D, E); Grau de Satisfação (Satisfeito, Indiferente, Insatisfeito); Imagem da marca (Ótima, Boa, Regular, Ruim, Péssima); Classificação do Índice de Massa Corporal - IMC (baixo peso, normal, obesidade leve, obesidade severa, obesidade mórbida); Grau de importância (nenhuma, pouca, razoável, muito); Escolaridade; etc. Variáveis Quantitativas: são as características que podem ser medidasem uma escala quantitativa, ou seja, apresentam valores numéricos/quantidades. Podem ser contínuas ou discretas. Variável Quantitativa Discreta: Número de valores finitos/infinitos ou uma quantidade enumerável e não assumem valores fracionários. São variáveis expressas por números inteiros (0, 1, 2, 3, 4,...). Exemplos: Número de peças não-conformes; Número de acidentes em uma rodovia; Número de filhos; Número de produtos defeituosos; Número de assassinatos; Número de mensagens enviadas por minutos; etc. Variável Quantitativa Contínua: Infinitos valores possíveis que correspondem a alguma escala contínua que cobre um intervalo de valores sem vazios, interrupções ou saltos. Desta forma, seus resultados podem assumir qualquer valor ao longo de uma escala. São variáveis expressas por números reais. Exemplos: Diâmetro de uma peças (mm); Gasto diário de água (l); Peso (Kg); Altura (m); Temperatura (Grau Celsius); Tempo (min); etc. UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 6 2. ESTATÍSTICA DESCRITIVA Após a coleta de dados a primeira necessidade do pesquisador é a leitura das informações básicas provenientes da sua pesquisa. Essa primeira análise inicial é feita através da Análise Descritiva por meio da construção de tabelas de frequência, gráficos e o cálculo de algumas medidas estatísticas (resumos numéricos). A Estatística Descritiva pode ser estudada considerando os conjuntos de valores analisados como sendo amostras ou populações. Como o caso mais comum é a obtenção de amostras a notação apresentada será feita considerando os valores como resultados de amostragens. A diferença, considerada do ponto de vista da descrição dos dados, é apenas notacional. Assim o tamanho de uma população (quando finita) é representado, normalmente por N, enquanto que o tamanho de amostra é representado por n. Afora algumas exceções os valores calculados na amostra são representados por letras latinas enquanto que os correspondentes na população o são pelas mesmas letras só que gregas. 2.1 RESUMOS NUMÉRICOS 2.1.1 Medidas de Tendência Central ou de Posição As medidas de tendência central são usadas para indicar um valor que tende a representar melhor um conjunto de números. As três medidas mais usadas são a média, a mediana e a moda. Um conjunto de valores (amostra) será representada por: x1, x2, ..., xn, onde n é o número de elementos do conjunto, isto é, o tamanho da amostra. 2.1.1.1 A MÉDIA ARITMÉTICA (a) MÉDIA ARTIMÉTICA SIMPLES AMOSTRAL ( X ) A média aritmética é o resultado da divisão da soma de todos os valores da amostra pela quantidade total de valores. A média aritmética simples amostral do conjunto x1, x2, ..., xn é representada por X e calculada por: UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 7 ( ) n xxx n x n n i i X +++ == ∑ = ...211 ___ OBS: __ X lê-se x barra e significa Média. ∑ = n i ix 1 lê-se somatório de xi, com i variando de 1 a n. Na Estatística, é comum utilizar as letras gregas para representar parâmetros populacionais e as letras latinas para representar estimadores amostrais. A média de uma população é representada pela letra grega µ, enquanto que na amostra é representada por X . Algumas propriedades da média: • A média é afetada por todos os valores do conjunto, assim, se um número se modifica, a média também se modifica. • Multiplicando-se (ou dividindo-se) todos os valores de uma variável por uma constante, a média do conjunto fica multiplicada (ou dividida) por essa constante. • Somando-se uma constante a cada valor do conjunto, a média ficará aumentada do valor constante. Analogamente, extraindo-se um valor constante de cada valor do conjunto, a média também ficará diminuída desse valor. • A soma dos desvios dos números de um conjunto a contar da média é zero. Exemplo: 20 25 22 24 70 25 31 6 186 6 )257024222520( 6 654321 __ == +++++ = +++++ = XXXXXX X Exemplos: Calcular as médias dos seguintes conjuntos de dados: (a) 1 9 (b) 4 6 7 (c) 0,5 0,8 1,5 1,75 Para o conjunto em (a) tem-se: 5 2 )91( 2 21 __ = + = + = XX X Para o conjunto em (b) tem-se: 7,5 3 )764( 3 321 __ = ++ = ++ = XXX X Para o conjunto em (c) tem-se: ( ) 14,1 4 75,15,18,05,0 4 4321 __ = +++ = +++ = XXXX X UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 8 Exercício: Considere os seguintes gastos (em reais) que 10 pessoas tiveram com compras de supermercado no último mês. R$612,50 R$608,00 R$640,00 R$624,80 R$920,00 R$631,00 R$625,00 R$660,00 R$610,00 R$600,00 a) Qual é o gasto médio? Resolvendo no RStudio: #sintaxe: mean(dados) #Exemplo: gastos <- c(612.50,608,640,624.80,920,631,625,660,610,600) mean(gastos) [1] 653,13 UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 9 (b) MÉDIA ARIMÉTICA PONDERADA (map): A fórmula para calcular a média aritmética supõe que cada observação tenha a mesma importância. A média ponderada considera que as informações não têm a mesma importância, ou seja, deve ser levado em conta o peso (w) das informações. A média aritmética ponderada do conjunto x1, x2, ..., xn, com pesos w1, w2, ..., wn, é representada por map e calculada por: ( ) ( )n nn n i i n i ii p www xwxwxw w xw ma +++ +++ == ∑ ∑ = = ... ... 21 2211 1 1 Onde wi é o peso da observação de ordem i. Exemplo: Consideremos que um professor informe a classe de que haverá dois exames parciais, valendo cada um 30% da nota e um exame final valendo 40%. Um aluno obtém desempenho 70 na primeira avaliação, 65 na segunda e 80 no exame final. Qual é a média de desempenho deste aluno? ( ) ( ) 50,72 40,030,030,0 40,08030,06530,070 1 1 = ++ ×+×+× == ∑ ∑ = = n i i n i ii p w xw ma Exercício: Considere uma mesma pesquisa de satisfação de uma determinada empresa prestadora de serviços que foi aplicada durante cinco anos consecutivos. A variável avaliada foi a nota (de 0 a 10) atribuída à Qualidade de um serviço por clientes do mesmo. As avaliações médias de cada ano estão descritas abaixo: ANO AVALIAÇÃO MÉDIA N° de respondentes 2014 8,4 100 2015 7,2 200 2016 8,0 150 2017 8,2 100 2018 8,5 100 Qual é a avaliação média dos 5 anos? UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 10 Resolvendo no RStudio: #sintaxe: weighted.mean(variável,peso) #Exemplo: nota<-c(8.4,7.2,8.0,8.2,8.5) peso<-c(100,200,150,100,100) weighted.mean(nota,peso) [1] 7.923077 2.1.1.2 MEDIANA (me) A principal característica da mediana é dividir o conjunto de números ordenados em dois grupos iguais: a metade terá valores inferiores ou iguais à mediana e a metade terá valores superiores ou iguais à mediana. Assim, a mediana de um conjunto ordenado de valores, denotada por me, é definida como sendo o valorque separa o conjunto em dois subconjuntos do mesmo tamanho. Para calcular a mediana inicia-se ordenando os valores em ordem crescente. Para número ímpar de valores a mediana é o valor do meio. Para amostras com número par de unidades, a mediana é a média dos dois valores centrais. Como calcular a Mediana? - Se o n (tamanho da amostra) é ÍMPAR a mediana é o valor central do conjunto de dados ordenado. Tem-se: ( ) 2/1+= ne xm => Representa a posição da mediana no conjunto ordenado - Se o n (tamanho da amostra) é PAR a mediana é a média dos dois elementos centrais do conjunto de dados ordenado. Tem-se: ( ) ( )( ) 2 12/2/ ++ = nn e xx m => Representa a posição da mediana no conjunto ordenado Exemplo1: Para o conjunto: 15 18 21 32 45 46 49 A mediana é: ( ) 3242/17 === + xxme Ou seja, a mediana é o quarto valor (quarta posição) na sequência ordenada de elementos. Se o conjunto acima fosse: 15 18 21 32 45 46 Então a mediana seria: ( ) ( )( ) ( ) ( )( ) ( ) ( ) 50,26 2 3221 222 4312/62/612/2/ = + = + = + = + = ++ xxxxxx m nn e UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 11 Exemplo2: Amostra Num. de elementos Dados ordenados Mediana _______________________________________________________________________________ 3 4 4 5 3 6 2 5 6 9 elementos -> ÍMPAR 2 3 3 4 4 5 5 6 6 4 2 4 3 1 9 9 3 4 8 elementos -> PAR 1 2 3 3 4 4 9 9 3,5 4 5 3 4 2 6 4 3 7 8 4 2 6 1 3 6 2 1 _______________________________________________________________________________ Exercício: Considere os seguintes gastos (em reais) que 10 pessoas tiveram com compras de supermercado no último mês. R$612,50 R$608,00 R$640,00 R$624,80 R$920,00 R$631,00 R$625,00 R$660,00 R$610,00 R$600,00 a) Qual é o gasto mediano? Interprete. Resolvendo no RStudio: #sintaxe: median(dados) #Exemplo: gastos <- c(612.50,608,640,624.80,920,631,625,660,610,600) median(gastos) [1] 624.90 UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 12 2.1.1.3 QUARTIS e BOXPLOT Os quartis são medidas separatrizes que dividem o conjunto em 4 partes iguais. O primeiro quartil (Q1) é o valor do conjunto que delimita os 25% menores valores: 25% dos valores são menores do que Q1 e 75% são maiores do que Q1. O segundo quartil (Q2) é a própria mediana (me), que separa os 50% menores dos 50% maiores valores. O terceiro quartil (Q3) é o valor que delimita os 25% maiores valores: 75% dos valores são menores do que Q3 e 25% são maiores do que Q3. Primeiro, ordene o conjunto de dados e encontre a mediana Q2. Depois de encontrar Q2, divida o conjunto de dados em duas metades. O primeiro e o terceiro quartil são as medianas das metades inferior (Q1) e superior (Q3) do conjunto de dados. Quartil Notação Interpretação 1° Quartil Q1 25% dos dados são valores menores ou iguais ao valor do Q1 2° Quartil Q2 = me 50% dos dados são valores menores ou iguais ao valor do Q2 = me 3° Quartil Q3 75% dos dados são valores menores ou iguais ou Q3 Gráfico Box Plot: O gráfico Box Plot (conhecido como “Caixa e Bigode”) possui o objetivo de verificar a distribuição dos dados e é uma análise gráfica que utiliza cinco medidas estatísticas: valor mínimo, valor máximo, mediana, primeiro (Q1) e terceiro quartil (Q3) da variável quantitativa. Este conjunto de medidas oferece a ideia do centro dos dados (mediana), dispersão (amplitude), assimetria, caudas e dados discrepantes (outliers) do conjunto de dados. - O centro da distribuição é indicado pela linha da mediana (me), no centro do quadrado. - A dispersão é representada pela distância interquartílica d = Q3 – Q1. Quanto maior for a amplitude, maior a variação nos dados. - As posições relativas de Q1, Q2 e Q3 dão uma noção da assimetria da distribuição. O retângulo contém 50% dos valores do conjunto de dados. A posição da linha mediana no retângulo informa sobre a assimetria da distribuição. Uma distribuição simétrica teria a mediana no centro do retângulo. Se a mediana é próxima de Q1, então, os dados possuem assimetria positiva ou à direita. Se a mediana é próxima de Q3 os dados possuem assimetria negativa ou à esquerda. No exemplo abaixo a distribuição dos dados é simétrica. UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 13 E nos casos A e B temos exemplos de distribuições assimétricas à direita e à esquerda. A: Assimetria positiva ou à direita B: Assimetria negativa ou à esquerda - Os comprimentos das caudas são dados pelas linhas que vão do retângulo aos valores atípicos. - Um outlier ou ponto discrepante é um valor que se localiza distante de quase todos os outros pontos da distribuição. A distância a partir da qual considera-se um valor como discrepante é aquela que supera 1,5 x d. De maneira geral, são considerados outliers todos os valores inferiores Li = Q1 – 1,5 x d ou superiores a Ls = Q3 + 1,5 x d. Os outliers em um Box Plot aparecem como pontos ou asteriscos fora das “linhas” desenhadas. Perceba que no desenho abaixo que temos um outlier representado pelo asterisco no começo do gráfico. Legenda: Q2 = me: Mediana (linha horizontal escura dentro do box) Q1: 1° Quartil (Limite inferior do box) Q3: 3° Quartil (Limite superior do box) d: Diferença (distância) interquartílica (d = Q3 – Q1) *: Outlier (valores acima de 1,5 x d) Li: Limite inferior Ls: Limite superior UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 14 Avaliação da Assimetria e Dispersão pelos Quartis: Simétrico Simétrico, com maior Dispersão Assimétrico para Direita (positiva) Assimétrico para Esquerda (negativa) Q1 Q2 Q3 Q1 Q1 Q1 Q2 Q2 Q2 Q3 Q3 Q3 25% 25% 25% 25% 25% 25% 25% 25% 25% 25% 25% 25% 25% 25% 25% 25% UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 15 Exemplo: Considere a variável idade dos 22 alunos da turma de CEQ 2021/1: 18 18 19 20 20 20 20 20 20 21 21 22 23 24 25 25 25 26 29 30 35 37 Como os dados já estão em ordem crescente, determinar as medidas: Mediana (Q2): Como o n = 22 é par, a mediana será: ( ) ( )( ) ( ) ( ) 50,21 2 2221 222 12111)2/22()2/22(12/2/ = + = + = + = + = ++ xxxxxx m nn e 1° Quartil (Q1): Q1 = 20 3° Quartil (Q3): Q3 = 25 Distância interquartílica: d= Q3 – Q1 = 25 – 20 = 5 Limite inferior: Li = Q1 – 1,5 x d = 20 – (1,5 x 5) = 12,50 Limite superior: Ls = Q3 + 1,5 x d = 25 + (1,5 x 5) = 32,50 Construir uma escala com valores que incluam os valores máximo e mínimo dos dados: 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 Construir uma caixa (retangular) estendendo-se de Q1 a Q3, e trace uma linha na caixa no valor da Mediana: Q1 Q2 Q3 18 19 20 2122 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 Traçar uma linha paralela à reta, com uma das extremidades alinhada ao limite inferior Li e a outra no centro do lado do retângulo correspondente ao Q1. Trace uma outra linha paralela à reta, com uma extremidade no centro do lado do retângulo correspondente ao UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 16 Q3 e a outra alinhadas com o limite superior Ls. E identificar os dados discrepantes (outliers): Q1 Q2 Q3 * * 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 No conjunto de dados não existe aluno com idade inferior a 12,50 (Li), ou seja, não há aluno com idade considerada discrepante inferiormente. Entretanto, existem 2 alunos cujas idade são superiores a 32,50, pontos estes considerados discrepantes (outliers) neste conjunto de dados: as idades 35 e 37. Nota-se que no intervalo interquartílico (dentro do retângulo) existem 50% dos dados, dos quais, 25% estão entre a linha da mediana (Q2) e a linha do Q1 e os outros 25% estão entre a linha da mediana (Q2) e a linha do Q3. Cada linha da cauda mais os valores discrepantes contem os 25% restantes da distribuição. O boxplot mostra que a distribuição das idades dos alunos apresenta assimetria positiva (menores valores). Interpretação dos Quartis: Q1 = 20 anos => 25% das idades dos alunos estão abaixo de 20 anos e 75% das idades dos alunos estão acima de 20 anos. Q2 = Mediana = 21,5 anos => 50% das idades dos alunos estão abaixo de 21,5 anos e 50% das idades dos alunos estão acima de 21,5 anos. Q3 = 25 anos => 75% das idades dos alunos estão abaixo de 25 anos e 25% das idades estão acima de 25 anos. Resolvendo no RStudio: dados<- c(18,18,19,20,20,20,20,20,20,21,21,22,23,24,25,25,25,26,29,30,35,37) summary(dados) Min. 1st Qu. Median Mean 3rd Qu. Max. 18.00 20.00 21.50 23.55 25.00 37.00 boxplot(dados) Ls Li UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 17 Aqui parece estar ocorrendo uma assimetria à direita (positiva). Exercício: Considere os seguintes gastos (em reais) que 10 pessoas tiveram com compras de supermercado no último mês. R$612,50 R$608,00 R$640,00 R$624,80 R$920,00 R$631,00 R$625,00 R$660,00 R$610,00 R$600,00 a) Quais são os Quartis dos gastos? Calcule no RStudio e Interprete-os. b) Plote o Box Plot dos gastos no RStudio. Resolvendo no RStudio: #sintaxe: summary(dados) boxplot(dados) #Exemplo: gastos <- c(612.50,608,640,624.80,920,631,625,660,610,600) summary(gastos) Min. 1st Qu. Median Mean 3rd Qu. Max. 600.0 610.6 624.9 653.1 637.8 920.0 boxplot(gastos) UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 18 Boxplot comparativo ou estratificado: O gráfico Boxplot pode ser utilizado para realizar comparações entre várias distribuições. Essa comparação pode ser feita plotando vários boxplots numa mesma figura. A figura abaixo apresenta o boxplot para a variável idade classificada segundo o gênero do aluno. Nota-se que para o sexo feminino, não há valores discrepantes (outliers) e a distribuição apresenta assimetria positiva, com idade mediana inferior ao do sexo masculino. Exemplo: O conjunto de dados apresenta dados de viscosidade de três misturas diferentes. Mistura 1 Mistura 2 Mistura 3 22.02 21.49 20.33 23.83 22.67 21.67 26.67 24.62 24.67 25.38 24.18 22.45 UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 19 25.49 22.78 22.29 23.50 22.56 21.95 25.90 24.46 20.49 24.89 23.79 21.81 Resolvendo no RStudio: #sintaxe: summary(dados) boxplot(dados) #Exemplo: mistura1<-c(22.02,23.83,26.67,25.38,25.49,23.50,25.90,24.89) mistura2<-c(21.49,22.67,24.62,24.18,22.78,22.56,24.46,23.79) mistura3<-c(20.33,21.67,24.67,22.45,22.29,21.95,20.49,21.81) summary(mistura1) Min. 1st Qu. Median Mean 3rd Qu. Max. 22.02 23.75 25.14 24.71 25.59 26.67 summary(mistura2) Min. 1st Qu. Median Mean 3rd Qu. Max. 21.49 22.64 23.29 23.32 24.25 24.62 summary(mistura3) Min. 1st Qu. Median Mean 3rd Qu. Max. 20.33 21.38 21.88 21.96 22.33 24.67 boxplot(mistura1,mistura2,mistura3) Como podemos observar, as misturas apresentam níveis médios diferentes de viscosidade, decrescentes da mistura 1 para a mistura 3. UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 20 OBS: Observando a figura abaixo, a qual realiza a comparação do Boxplot com a função densidade de probabilidade (histograma teórico) de uma população com distribuição normal com média 0 e desvio padrão 1, mostra a quantidade de informações que esse gráfico possui. Uma vez que o boxplot é uma forma rápida de examinar um ou mais conjuntos de dados graficamente. Embora pareça mais primitivo que o histograma, o boxplot apresenta vantagens por prover mais dados além da mediana e/ou a média. De fato, a largura do boxplot pode até ser usada como uma medida de informação dos dados, representando em alguma proporção o tamanho do conjunto de dados. 2.1.1.4 MODA (mo) A moda de um conjunto de valores é definida como sendo “o valor (ou os valores) do conjunto que mais se repete”, ou seja, é o ponto máximo de uma distribuição. Convém lembrar que a moda, ao contrário da mediana e da média, pode não ser única, isto é, um conjunto pode ser bimodal, trimodal, etc. ou mesmo amodal (sem moda). Se a moda existir será representada por mo. Exemplo1: Seja o conjunto de dados: 1 3 3 6 7 3 8 8 7 4 A moda deste conjunto de dados é mo = 3. Pois este valor se repete três vezes e qualquer outro valor se repete duas vezes ou menos. UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 21 Exemplo2: Seja o conjunto de dados: 1 2 3 4 5 6 Este conjunto de dados é amodal, ou seja, não tem moda. Exemplo3: Seja o conjunto de dados: 0 0 0 0 0 200 A moda deste conjunto de dados é mo = 0. Pois este valor se repete cinco vezes. Exemplo4: Seja o conjunto de dados: 2 3 0 0 1 4 4 Este conjunto de dados é BIMODAL, ou seja, possui a mo = 0 e mo = 4. Exercício: Considere os seguintes dados referente ao número de disciplinas que os alunos de CEQ estão matriculados no semestre 2021/1. Identifique a moda do conjunto de dados. 5 4 3 5 2 7 6 5 4 4 3 7 4 2 5 4 5 4 3 7 5 4 2 3 4 6 6 8 2 5 4 4 4 Resolvendo no RStudio: OBS: No R existem duas formas que podemos utilizar para encontrarmos a moda de uma série de dados. São elas: • table(): estecomando ordena em ordem crescente os dados e indica o número de vezes em que o elemento se repete na série de dados apresentada. É utilizado para encontrar a moda em pequenas amostras. • subset(): em oposição ao item anterior esta função é utilizada quando o tamanho da amostra é grande. O comando para a obtenção da moda é dado abaixo: #sintaxe: subset(table(), table() == max(table())) #Exemplo: y<- c(5,4,3,5,2,7,6,5,4,4,3,7,4,2,5,4,5,4,3,7,5,4,2,3,4,6,6,8,2,5,4,4,4) table(y) y 2 3 4 5 6 7 8 4 4 11 7 3 3 1 UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 22 y [1] 5 4 3 5 2 7 6 5 4 4 3 7 4 2 5 4 5 4 3 7 5 4 2 3 4 6 6 8 2 5 4 4 4 subset(table(y),table(y)==max(table(y))) 4 11 No exemplo o valor que mais se repete é o 4, com 11 ocorrências. Logo 4 disciplinas é a moda, ou seja, o elemento que mais se repete. Relação entre Média, Moda e Mediana A Figura abaixo representa o formato que a distribuição dos dados pode assumir (assimétrico à direita, simétrico e assimétrico à esquerda). Nessas situações, média, moda e mediana respeitam uma ordem de grandeza. No primeiro caso, assimétria à direita, temos que a moda < mediana < média. No caso do formato simétrico ocorre que as três medidas possuem o mesmo valor média = moda = mediana. E no caso de assimétrico à esquerda, média < mediana < moda. 2.1.2 Medidas de Dispersão ou de Variabilidade 2.1.2.1 AMPLITUDE (r) A mais simples das medidas de dispersão é a amplitude, denotada por r, e definida como sendo a diferença entre os valores extremos do conjunto: r = Xmax - Xmin UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 23 Exemplo 1: A amplitude do conjunto -5 4 0 3 8 10, vale: r = Xmax - Xmin = 10 – (-5) = 15. Exemplo 2: A amplitude do conjunto 4 8 9 2 8 5 6 3, vale: r = Xmax - Xmin = 9 – (2) = 7. Exercício: Considere os seguintes gastos (em reais) que 10 pessoas tiveram com compras de supermercado no último mês. R$612,50 R$608,00 R$640,00 R$624,80 R$920,00 R$631,00 R$625,00 R$660,00 R$610,00 R$600,00 d) Qual é a amplitude dos gastos? Resolvendo no RStudio: #Sintaxe: max(dados) - min(dados) ou range(dados) #Exemplo: gastos <- c(612.50,608,640,624.80,920,631,625,660,610,600) max(gastos) - min(gastos) [1] 320 range(gastos) [1] 600 920 diff(range(gastos)) [1] 320 2.1.2.2 VARIÂNCIA AMOSTRAL (s2) A medida de dispersão usual é a variância e principalmente sua raiz quadrada que é denominada de desvio-padrão. A variância amostral é denotada por s2 e definida como sendo a média dos quadrados dos desvios em relação à média aritmética. ( ) ( ) ( ) ( ) 1 ... 1 22 2 2 11 2 2 − −++−+− = − − = ∑ = n XXXXXX n XX s n n i i UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 24 OBS: Quando se deseja a variância populacional (σ2), deve-se substituir n-1 por N na fórmula. Usualmente iremos utilizar a variância amostral. Exemplo: Calcule a variância para os seguintes dados: 2 4 6 8 10 Solução: Primeiro temos que calcular a média: ( ) 6 5 108642__ = ++++ =X Agora vamos aplicar a fórmula da variância: 10 15 40 15 )610()68()66()64()62( 1 )( 22222 1 2 __ 2 = − = − −+−+−+−+− = − − = ∑ = n XX s n i i X 2.1.2.3 DESVIO PADRÃO AMOSTRAL (s) O desvio padrão é simplesmente a raiz quadrada da variância. ( ) ( ) ( ) 1 ... 1 22 2 2 11 2__ − −++−+− = − − = ∑ = n XXXXXX n XX s n n i i X Como anteriormente, a substituição de n-1 por N produz a fórmula para o desvio padrão populacional (σ). OBS: A correção de Bessel (eliminando 1 grau de liberdade para n < 30) torna a variância amostral um estimador da variância populacional não-viesado. Exemplo: Calcule o desvio padrão para os seguintes dados: -7 4 0 3 8 10 Primeiro temos que calcular a média: ( ) 3 6 1083047__ = +++++− =X Agora vamos aplicar a fórmula do desvio padrão: 07,6 16 184 16 )310()38()33()30()34()37( 1 222222 1 2__ = − = − −+−+−+−+−+−− = − − = ∑ = n XX s n i i X UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 25 Exercício: Considere os seguintes gastos (em reais) que 10 pessoas tiveram com compras de supermercado no último mês. R$612,50 R$608,00 R$640,00 R$624,80 R$920,00 R$631,00 R$625,00 R$660,00 R$610,00 R$600,00 e) Qual é desvio padrão dos gastos? Interprete-o. Resolvendo no RStudio: #Sintaxe: sd(dados) #Exemplo: gastos<- c(612.50,608,640,624.80,920,631,625,660,610,600) sd(gastos) [1] 95.39003 UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 26 2.1.2.4 COEFICIENTE DE VARIAÇÃO (CV) O coeficiente de variação é uma medida de variação útil para comparar conjuntos de dados diferentes. Ele é usualmente expresso em percentual. O coeficiente de variação é dado pelo quociente entre o desvio padrão e a média dos dados. __ X s Média ãoDesvioPadr CV == OBSERVAÇÃO: O conjunto de dados que tiver o maior CV dentre os demais é dito o conjunto mais heterogêneo, ou seja, o grupo com maior variabilidade. E, por sua vez, o conjunto de dados que tiver o menor CV dentre os demais conjuntos é dito o conjunto mais homogêneo. Exemplo: Entre os conjuntos de dados a seguir apresentados, qual apresenta maior variabilidade? Conjunto A Conjunto B 12 3 25 4 16 5 23 2 Solução: Conjunto A: 19 4 23162512 4 4321 = +++ = +++ = XXXX X A 06,6 3 110 3 )1693649( 3 )1923()1916()1925()1912( 14 )()()()( 1 )( 2222 2 __ 4 2 __ 3 2 __ 2 2 __ 11 2 __ == = +++ = −+−+−+− = = − −+−+−+− = − − = ∑ = XXXXXXXX n XX s n i i A 3187,0 19 06,6 === A A A X s CV UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 27 Conjunto B: 5,3 4 2543 4 4321 = +++ = +++ = XXXX X B 29,167,1 3 5 3 )25,225,225,025,0( 3 )5,32()5,35()5,34()5,33( 14 )()()()( 1 )( 2222 2 __ 4 2 __ 3 2 __ 2 2 __ 11 2 __ === = +++ = −+−+−+− = = − −+−+−+− = − − = ∑ = XXXXXXXX n XX s n i i B 3687,0 5,3 29,1 === B B B X s CV Resolvendo no RStudio: #Sintaxe: 100*sd(dados)/mean(dados) #dado em porcentagem #Exemplo: A<-c(12,25,16,23) B<-c(3,4,5,2) CV1 = 100*sd(A)/mean(A) CV2 = 100*sd(B)/mean(B) CV1 CV2 CV1 [1] 31.87 CV2 [1] 36.88556 Conclusão: O conjunto que possui maior variabilidade, ou seja, o conjunto mais heterogêneo é o B, pois é o conjunto com o maior CV = 36,87%. UNIVERSIDADE DO VALE DO RIO DOS SINOSEscola Politécnica CEQ – Profª Karla Faccio 28 Exercício: Uma certa empresa que fabrica duas linhas de produtos (A e B) necessita reestruturar sua produção. Foi realizado um estudo para tal finalidade e uma das variáveis consideradas foi a venda (quantidade mensal) de cada tipo de produto (A e B). Para este estudo foi tomado como referência o primeiro semestre de determinado ano, onde foram verificadas as seguintes quantidades de vendas: Produto A 15 31 32 25 24 25 Produto B 25 20 30 28 27 14 a) Calcule a média das vendas do produto A e do produto B. b) Calcule a mediana das vendas do produto A e do produto B. c) Calcule o desvio padrão das vendas do produto A e do produto B e interprete cada desvio padrão. d) Qual dos produtos (A ou B) apresentou maior estabilidade nas vendas mensais? Justifique apresentando cálculo. UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 29 Resolvendo no RStudio: #Sintaxe: 100*sd(dados)/mean(dados) #dado em porcentagem #Exemplo: #Digitação dos dados A<-c(15,31,32,25,24,25) B<-c(25,20,30,28,27,14) #Médias mean(A) mean(B) #Medianas: median(A) median(B) #Desvios Padrões: sd(A) sd(B) #Coeficientes de Variação: CV1 = 100*sd(A)/mean(A) CV2 = 100*sd(B)/mean(B) CV1 CV2 mean(A) [1] 25.33333 mean(B) [1] 24 median(A) [1] 25 median(B) [1] 26 sd(A) [1] 6.08824 sd(B) [1] 5.966574 CV1 = 100*sd(A)/mean(A) CV2 = 100*sd(B)/mean(B) CV1 [1] 24.03253 CV2 [1] 24.86072 UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 30 2.2 TABELAS OU DISTRIBUIÇÕES DE FREQUÊNCIAS Ao se trabalhar com grandes conjuntos de dados, em geral é útil organizá-los e resumi- los em uma tabela, chamada de distribuição de frequência. Uma distribuição de frequência (ou tabela de frequência) lista os valores dos dados (individualmente ou por grupos de intervalos), juntamente com suas freqüências correspondentes (ou contagens). Assim, uma distribuição de freqüência nos ajuda a entender a natureza da distribuição do conjunto de dados. A variável (ou conjunto) discreta (valores que são resultados de contagem) e a variável (ou conjunto) contínua (valores que são resultados de uma medida). Em geral variáveis discretas são agrupadas em distribuições por ponto ou valores e variáveis contínuas em distribuições por classes ou intervalos. A separação não é rígida e depende basicamente dos dados considerados. Poderá ser necessário usar uma distribuição por classes ou intervalos mesmo quando a variável é discreta. Tipos de frequências: Símbolo Frequência Simples Absoluta fi Frequência Simples Relativa fri Frequência Acumulada Absoluta Fi Frequência Acumulada Relativa Fri Elementos de uma distribuição de frequências: a) Frequência simples absoluta (fi): É o número de observações correspondente a cada nível ou categoria da variável descrita na tabela. A soma das frequências absolutas (∑ f ) corresponde ao tamanho da amostra (n). b) Frequência simples relativa ou percentual (fri): é definida como o quociente entre a frequência simples absoluta (fi) e o tamanho da amostra (n). É uma expressão da proporção (ou probabilidade) de ocorrência daquele valor no estudo. As frequências relativas são frequentemente expressas em percentuais (por isso que se recomenda multiplicar por 100). fri = (fi / n).100 c) Frequência acumulada absoluta (Fi): a frequência acumulada absoluta da linha i é definida como sendo a soma das frequências absolutas até a linha i. Ou seja, corresponde ao total (acumulado) das frequências absolutas observadas até o nível em questão (inclusive). Fi = f1 + f2 + ... + fi d) Frequência acumulada relativa ou percentual (Fri): a frequência acumulada relativa da linha i é definida como sendo a soma das frequências relativas até a linha i. Fri = fr1 + fr2 + ... + fri Ou, então, como sendo o quociente da frequência acumulada absoluta (Fi) pelo tamanho da amostra (n): Fri = (Fi / n).100 UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 31 Comandos no RStudio: #Frequencia Absoluta Simples tab <- table(dados$variável) #Frequencia Relativa Simples relFreq <- prop.table(tab) #Frequencia Absoluta Acumulada cumsum(tab) #Frequencia Relativa Acumulada cumsum(relFreq) Exemplo de construção de uma Tabela de Frequência genérica: i X: Variável fi fri (%) Fi Fri (%) 1 X1 f1 fr1 = (f1 / n).100 F1 = f1 Fr1 = fr1 2 X2 f2 fr2 = (f2 / n).100 F2 = f1 + f2 Fr2 = fr1 + fr2 3 X3 f3 fr3 = (f3 / n).100 F3 = f1+ f2+ f3 Fr3 = fr1+ fr2+ fr3 ... ... ... ... ... ... k Xk fk frk = (fk / n).100 n 100% Total (∑ ) n 100% - - Sendo i: número de linha da tabela (i = 1, 2, 3, ..., k) e n o tamanho da amostra. O primeiro passo para a construção de tabelas é a formatação dos dados em um Banco de Dados conforme é apresentada na figura a seguir: Coleta de Dados: 6 5 4 3 2 1 Cliente Ford2Casada31F Ford0Solteiro25M Chevrolet1Solteira28F Fiat3Casada42F Ford1Casado35M Fiat0Solteira32F Marca CarroNº FilhosEstado CivilIdadeSexo CADASTRO OU BANCO DE DADOS DE UMA PESQUISACADASTRO OU BANCO DE DADOS DE UMA PESQUISA UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 32 Tabulação: Formatação e Apresentação: Formatação de uma Tabela de Frequência: Sexo: Feminino- 4 clientes Masculino – 2 clientes Estado Civil: Solteiro (a) - 3 clientes Casado (a) – 3 clientes Idade: Até 25 anos - 1 cliente 26 a 35 anos – 4 clientes Mais de 35 anos – 1 cliente Número de Filhos: 0 filhos - 2 clientes 1 filho – 2 clientes 2 filhos – 1 cliente 3 filhos – 1 cliente Marca do carro: Fiat - 2 clientes Ford – 3 clientes Chevrolet – 1 cliente 1006Total 33,32Feminino 66,74Masculino %fSexo 16,71Até 25 anos 1006Total 16,71Mais de 35 anos 66,6426 a 35 anos %fIdade 1006Total 50,03Casado (a) 50,03Solteiro (a) %fEstado Civil Tabela 3. Estado Civil Tabela 2. IdadeTabela 1. Sexo %Masculino= 4/6*100 = 66,7% %Feminino = 2/6*100 = 33,3% TABELASTABELAS DEDE FREQUÊNCIAFREQUÊNCIA 46,9120Até 50 21,95651 a 100 100256Total 16,442Mais de 150 14,838101 a 150 %fNº de funcionários TítuloTítulo Porce ntage m Porce ntage m Frequ ência Frequ ência Variá vel Variá vel CabeçalhoCabeçalho Tabela 1. Número de Funcionários Não pode ter linhas Não pode ser fechada UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 33 2.2.1 DISTRIBUIÇÃO POR CLASSES OU INTERVALOS Construção de distribuição de frequência para dados contínuos e para dados discretos (com muitas categorias) As principais etapas compreendem: 1. Determinar a amplitude dos dados: Amplitude (r) = maior valor (Xmax) – menor valor (Xmin) 2. Estabelecer a quantidade de classes (k) ou intervalos de agrupamento dos dados: O número de classes deve variar entre 5 e 15. O número de classes pode variar em função de arbitrariedade, mas existeuma regra conhecida como Regra de Sturges, nk log3,31 ×+= , onde k é o número de classes e n é o número de observações (tamanho da amostra). No R essa opção é o padrão do software. Mas também aconselha-se utilizar nk = , onde n é o número de observações (tamanho da amostra). 3. Determinar a amplitude “r” de cada classe “i”: Sempre que possível é recomendável manter as amplitudes iguais. Aconselha-se dividir a amplitude dos dados (r) pelo número de classes (k), ou seja: k r ri = 4. Definir a primeira classe (linha) e, consequentemente, as demais, enquadrar os dados nas classes mediante contagem e apresentar os resultados em uma tabela ou gráfico. Em geral, utiliza-se a simbologia (|---), neste caso, está indicando um intervalo fechado à esquerda e aberto à direita. Também poderia ser utilizado o intervalo aberto à esquerda e fechado à direita (---|). Onde: A | B (Inclui A e não inclui B) A | B (Inclui B e não inclui A) A || B (Inclui A e B) A B (Não inclui A e B) UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 34 Exemplo: O conjunto de dados abaixo representa o tempo (em minutos) que 45 operadores demoraram para realizar uma determinada tarefa. Agrupe os dados em uma distribuição de frequências. 6,5 4,0 7,1 8,3 5,4 7,6 9,0 15,7 16,7 6,4 5,0 8,5 5,7 7,7 7,2 12,4 7,1 5,5 9,7 4,4 7,0 6,3 8,3 6,9 5,7 7,6 7,9 7,9 6,0 8,2 10,4 9,9 3,9 9,8 8,2 5,6 7,9 6,4 7,4 7,0 13,0 8,7 6,4 6,7 7,4 n = 45 (tamanho da amostra) 1. Amplitude dos dados: r = Xmax – Xmin = 16,7 – 3,9 = 12,8 2. Estabelecer o número de classes (k) → 77,645 ≅=== nk classes Ou 75,6)45log(3,31log3,31 ≅=×+=×+= nk classes 3. Determinar a amplitude r de cada classe i → 283,1 7 8,12 ≅=== k r ri minutos 4. Escrever as classes e contar os valores. Neste caso a primeira classe foi iniciada pelo valor 3, e como este não era o valor mínimo (3,9 minutos), o intervalo não precisou ser fechado em 3, desta forma, optou-se em deixar o intervalo aberto em 3 e fechado em 5 (3 ---| 5 ): Classe (i) Tempo (min.) Freq. Simples Absoluta (fi) Freq. Simples Relativa (fri) Freq. Acumulada Absoluta (Fi) Freq. Acumulada Relativa (Fri) 1 3 ---| 5 4 8,9% 4 8,90% 2 5 ---| 7 15 33,3% 19 42,2% 3 7 ---| 9 18 40,0% 37 82,2% 4 9 ---| 11 4 8,9% 41 91,1% 5 11 ---| 13 2 4,4% 43 95,5% 6 13 ---| 15 0 0,0% 43 95,5% 7 15 ---| 17 2 4,4% 45 100,0% TOTAL 45 100,0% - - Por exemplo, a fr3: fr3 = f3 / n = 18 / 45 = 0,40 * 100 = 40,0% -> Verifica-se que 40,0% dos operadores executaram uma determinada tarefa depois de 7 minutos e até 9 minutos. a F5: F5 = f1 + f2 + f3 + f4 + f5 = 4 + 15 + 18 + 4 + 2 = 43 -> Verifica-se que 43 operadores executaram uma determinada tarefa em até 13 minutos. a Fr4: Fr4 = fr1 + fr2 + fr3 + fr4 = 8,9 + 33,3 + 40,0 + 8,9 = 91,1% -> Verifica-se que 91,1% dos operadores executaram uma determinada tarefa em até 11 minutos. UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 35 Gráfico da Distribuição de frequência por classes ou intervalos (HISTOGRAMA) Uma distribuição de frequências por classes ou intervalos é apresentada graficamente através de um diagrama denominado de histograma de frequências. Um histograma é um gráfico de retângulos justapostos onde a base de cada retângulo é a amplitude de cada classe e a altura é proporcional a frequência (simples ou relativa) de modo que a área de cada retângulo seja igual a frequência considerada. O gráfico abaixo ilustra o exemplo do tempo (em minutos) que 45 operadores demoraram para realizar uma determinada tarefa. Pelo histograma abaixo pode-se concluir que 33 operários, ou seja, 73,3% dos operários, executaram uma determinada tarefa entre 5 minutos a 9 minutos. 8,9% 33,3% 40,0% 8,9% 4,4% 0,0% 4,4% 0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 3 ---| 5 5 ---| 7 7 ---| 9 9 ---| 11 11 ---| 13 13 ---| 15 15 ---| 17 Tempo de execução de uma tarefa Também pode ser construído um histograma utilizando-se as frequências acumuladas. Neste caso o diagrama resultante é denominado de ogiva. As figuras abaixo são exemplos de histogramas de frequências relativas acumuladas. UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 36 Resolvendo no RStudio: tempos<- c(6.5,4.0,7.1,8.3,5.4,7.6,9.0,15.7,16.7,6.4,5.0,8.5,5.7,7.7,7.2,12.4,7 .1,5.5,9.7,4.4,7.0,6.3,8.3,6.9,5.7,7.6,7.9,7.9,6.0,8.2,10.4,9.9,3.9,9. 8,8.2,5.6,7.9,6.4,7.4,7.0,13.0,8.7,6.4,6.7,7.4) tempos O summary() indica que o menor valor é o 3,9 e o maior valor é o 16,7: summary(tempos) Min. 1st Qu. Median Mean 3rd Qu. Max. 3.900 6.400 7.400 7.787 8.300 16.700 Assim, pode-se escolher (arbitrariamente), que a primeira classe inicie em 3 e a última classe termine em 17, logo a Amplitude dos dados é 14. Ainda, pode-se definir a amplitude das classes. Nesse caso definiu-se como 2 (dividindo-se a Amplitude dos dados (14) pelo número de classes k (7), o qual foi definido pela Regra de Sturges). Com o uso da função seq() pode-se gerar os intervalos de classe: brk<-seq(3,17,2);brk [1] 3 5 7 9 11 13 15 17 Nomes das classes: classes<-c("3-|5","5-|7","7-|9","9-|11","11-|13","13-|15","15-|17" No R, uma tabela de frequência absoluta simples pode ser construída com o comando table(). Mas para facilitar a construção das demais frequências (relativa e acumulada), podemos chamar toda a nossa table de um nome, por exemplo, “simples” (isso otimizará a construção dos códigos para as tabelas de frequência simples relativa e as acumuladas): #Frequencia Absoluta Simples Simples<-table(cut(tempos, breaks=brk, labels=classes, right=TRUE)) simples Ou simples<-table(cut(tempos, breaks=c(3,5,7,9,11,13,15,17), labels=c("3- |5","5-|7","7-|9","9-|11","11-|13","13-|15","15-|17"),right=T)) simples 3-|5 5-|7 7-|9 9-|11 11-|13 13-|15 15-|17 4 15 18 4 2 0 2 #Frequencia Relativa Simples (relFreq<-prop.table(simples)) 3-|5 5-|7 7-|9 9-|11 11-|13 13-|15 15-|17 0.0889 0.333 0.400 0.0889 0.044 0.000 0.0444 #Frequencia Absoluta Acumulada cumsum(simples) 3-|5 5-|7 7-|9 9-|11 11-|13 13-|15 15-|17 4 19 37 41 43 43 45 UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 37 #Frequencia Relativa Acumulada cumsum(relFreq) 3-|5 5-|7 7-|9 9-|11 11-|13 13-|15 15-|17 0.0889 0.4222 0.8222 0.9111 0.9556 0.9556 1.00 plot(simples) ou plot(table(cut(tempos,breaks=brk,right=TRUE,labels=classes)),ylab="Fre q.") hist(tempos,breaks=brk,freq=TRUE,right=TRUE,labels=classes,main="") UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 38 Resumindo, os códigos utilizados foram: tempos<- c(6.5,4.0,7.1,8.3,5.4,7.6,9.0,15.7,16.7,6.4,5.0,8.5,5.7,7.7,7.2,12.4,7 .1,5.5,9.7,4.4,7.0,6.3,8.3,6.9,5.7,7.6,7.9,7.9,6.0,8.2,10.4,9.9,3.9,9.8,8.2,5.6,7.9,6.4,7.4,7.0,13.0,8.7,6.4,6.7,7.4) tempos summary(tempos) brk<-seq(3,17,2);brk classes<-c("3-|5","5-|7","7-|9","9-|11","11-|13","13-|15","15-|17") #Frequencia Absoluta Simples Simples<-table(cut(tempos, breaks=brk, labels=classes, right=TRUE)) simples #ou simples<-table(cut(tempos, breaks=c(3,5,7,9,11,13,15,17), labels=c("3- |5","5-|7","7-|9","9-|11","11-|13","13-|15","15-|17"),right=T)) simples #Frequencia RElativa Simples (relFreq<-prop.table(simples)) #Frequencia Acumulada Simples cumsum(simples) #Frequencia Acumulada Relativa cumsum(relFreq) plot(simples) #ou plot(table(cut(tempos,breaks=brk,right=TRUE,labels=classes)),ylab="Fre q.") hist(tempos,breaks=brk,freq=TRUE,right=TRUE,labels=classes,main="Histo grama") UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 39 Exercício: O conjunto de dados amostrais a seguir lista o tempo (em minutos) que 50 usuários de Internet gastaram na rede durante sua mais recente sessão. 7 7 11 17 17 18 19 20 21 22 23 28 29 29 30 30 31 31 33 34 36 37 39 39 39 40 41 41 42 44 44 46 50 51 53 54 54 56 56 56 59 62 67 69 72 73 77 78 80 83 a) Construa uma tabela de frequência por Classes para estes dados. fi fri Fi Fri Total b) Construa o Histograma para estes dados e conclua. c) Identifique e interprete as seguintes frequências: f6, fr4, F4, Fr3. UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 40 Resolvendo no RStudio: #Digitando os dados no R: tempo<- c(7,7,11,17,17,18,19,20,21,22,23,28,29,29,30,30,31,31,33,34,36,37,39,3 9,39,40,41,41,42,44,44,46,50,51,53,54,54,56,56,56,59,62,67,69,72,73,77 ,78,80,83) tempo #Agora usaremos a função summary() para calcular os resumos numéricos, ou seja, nos ajuda a identificar que o menor valor é o 7 e o maior valor é o 83. summary(tempo) Min. 1st Qu. Median Mean 3rd Qu. Max. 7.0 29.0 39.5 41.9 55.5 83.0 Assim, pode-se escolher (arbitrariamente), que a primeira classe inicie em 7 (que é o valor mínimo) e a última classe termine em 84 (assim abrangerá o valor máximo, que é 83), logo a Amplitude dos dados é 77. Ainda, pode-se definir a amplitude das classes. Nesse caso definiu-se como 11 (dividindo-se a Amplitude dos dados (77) pelo número de classes k (7)), sendo que o k qual foi definido pela Regra de Sturges, ou seja, 7)50log(3,31log3,31 =×+=×+= nk . Com o uso da função seq() pode-se gerar os intervalos de classe. brk<-seq(7,84,11);brk [1] 7 18 29 40 51 62 73 84 #Estabelecendo quais serão as classes com base no número de classes (k=7), com a amplitude das classes = 11 e iremos iniciar pelo valor mínimo (7), logo o intervalo deverá ser fechado à esquerda e aberto à direita, por isso que no RIGHTRIGHTRIGHTRIGHT iremos colocar FALSEFALSEFALSEFALSE, caso contrário, deveríamos colocar no RIGHTRIGHTRIGHTRIGHT = TRUETRUETRUETRUE) #Nomes das classes: classes<-c("7|-18","18|-29","29|-40","40|-51","51|-62","62|-73","73|- 84") No R, uma tabela de frequência absoluta simples pode ser construída com o comando table(). Mas para facilitar a construção das demais frequências (relativa e acumulada), podemos chamar toda a nossa table de um nome, por exemplo, “simples” (isso otimizará a construção dos códigos para as tabelas de frequência simples relativa e as acumuladas): #Frequencia Absoluta Simples Simples<-table(cut(tempo,breaks=brk,right=FALSE,labels=classes)) simples ou simples<-table(cut(tempo, breaks=c(7,18,29,40,51,62,73,84), labels=c("7|-18","18|-29","29|-40","40|-51","51|-62","62|-73","73|- 84"),right=F)) simples 7|-18 18|-29 29|-40 40|-51 51|-62 62|-73 73|-84 5 7 13 8 8 4 5 UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 41 #Frequencia Relativa Simples (relFreq<-prop.table(simples)) 7|-18 18|-29 29|-40 40|-51 51|-62 62|-73 73|-84 0.10 0.14 0.26 0.16 0.16 0.08 0.10 #Frequencia Absoluta Acumulada cumsum(simples) 7|-18 18|-29 29|-40 40|-51 51|-62 62|-73 73|-84 5 12 25 33 41 45 50 #Frequencia Relativa Acumulada cumsum(relFreq) 7|-18 18|-29 29|-40 40|-51 51|-62 62|-73 73|-84 0.10 0.24 0.50 0.66 0.82 0.90 1.00 plot(simples) ou plot(table(cut(tempo,breaks=c(7,18,29,40,51,62,73,84),right=FALSE,labe ls=classes)),ylab="Frequencia", xlab="Tempo",main="Histograma") #Histograma hist(tempo,breaks=c(7,18,29,40,51,62,73,84),freq=FALSE,right=FALSE,lab els=classes,ylab="Frequencia", xlab="Tempo",main="Histograma") UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 42 Resumindo, os códigos utilizados foram: tempo<- c(7,7,11,17,17,18,19,20,21,22,23,28,29,29,30,30,31,31,33,34,36,37,39,3 9,39,40,41,41,42,44,44,46,50,51,53,54,54,56,56,56,59,62,67,69,72,73,77 ,78,80,83) tempo summary(tempo) brk<-seq(7,84,11);brk classes<-c("7|-18","18|-29","29|-40","40|-51","51|-62","62|-73","73|- 84") #Frequencia Absoluta Simples Simples<-table(cut(tempo,breaks=brk,right=FALSE,labels=classes)) simples #OU Simples<- table(cut(tempo, breaks=c(7,18,29,40,51,62,73,84), labels=c("7|-18","18|-29","29|-40","40|-51","51|-62","62|-73","73|- 84"),right=F)) simples #Frequencia Relativa Simples (relFreq<-prop.table(simples)) #Frequencia Absoluta Acumulada cumsum(simples) #Frequencia Relativa Acumulada cumsum(relFreq) plot(simples) #Ou plot(table(cut(tempo,breaks=c(7,18,29,40,51,62,73,84),right=FALSE,labe ls=classes)),ylab="Frequencia", xlab="Tempo",main="Histograma") #Histograma hist(tempo,breaks=c(7,18,29,40,51,62,73,84),freq=FALSE,right=FALSE,lab els=classes,ylab="Frequencia", xlab="Tempo",main="Histograma") UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 43 2.2.2 DISTRIBUIÇÃO POR PONTOS OU VALORES Construção de distribuição de frequência para dados discretos (com poucas categorias) ou dados qualitativos Na construção de uma distribuição de frequência utilizando dados contínuos perde-se certa quantidade de informação porque os valores individuais perdem sua identidade quando são agrupados em classes. Isso pode ou não ocorrer com dados discretos ou qualitativos, dependendo da natureza dos dados e os objetivos do analista. Exemplo: Considere um conjunto de valores resultados de uma contagem. Poderia ser, por exemplo, o número de irmãos dos alunos da disciplina de CEQ. Número de irmãos dos alunos da disciplina de CEQ: 0 1 1 6 3 1 3 1 1 0 4 5 1 1 1 0 2 2 4 1 3 1 2 1 1 1 1 5 5 6 4 1 1 0 2 1 4 3 2 2 1 0 2 1 1 2 3 0 1 0 Esta coleção de valores não constitui informação, mas pode ser transformada em informação mediante sua representação em uma tabela de frequências. Para tal, coloca- se o conjuntoem uma tabela em que a coluna da esquerda é representada pelos diferentes números ordenados e a coluna da direita pelo número de vezes que cada valor se repetiu (as frequências absolutas). Para o exemplo, tem-se: Número de irmãos Número de alunos (fi) 0 7 1 21 2 8 3 5 4 4 5 3 6 2 TOTAL 50 Abaixo estão ilustrados os cálculos das frequências absolutas e relativas para a construção da tabela de frequências a seguir: Frequências Relativas Simples (fri) de cada linha (i, neste caso a tabela tem 7 linhas) da tabela: fr1 = (f1/n) .100 = (7/50). 100 = 1,40% fr2 = (f2/n) .100 = (21/50). 100 = 42,0% UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 44 fr3 = (f3/n) .100 = (8/50). 100 = 16,0% fr4 = (f4/n) .100 = (5/50). 100 = 10,0% fr5 = (f5/n) .100 = (4/50). 100 = 8,0% fr6 = (f6/n) .100 = (3/50). 100 = 6,0% fr7 = (f7/n) .100 = (2/50). 100 = 4,0% Frequências Absolutas Acumuladas Simples (Fi) de cada linha (i, neste caso a tabela tem 7 linhas) da tabela: F1 = f1 = 7 F2 = f1 + f2 = 7 + 21 = 28 F3 = f1 + f2 + f3 = 7 + 21 + 8 = 36 F4 = f1 + f2 + f3 + f4 = 7 + 21 + 8 + 5 = 41 F5 = f1 + f2 + f3 + f4 + f5 = 7 + 21 + 8 + 5 + 4 = 45 F6 = f1 + f2 + f3 + f4 + f5 + f6 = 7 + 21 + 8 + 5 + 4 + 3 = 48 F7 = f1 + f2 + f3 + f4 + f5 + f6 + f7 = 7 + 21 + 8 + 5 + 4 + 3 + 2 = 50 Frequências Relativas Acumuladas Simples (Fri) de cada linha (i, neste caso a tabela tem 7 linhas) da tabela: Fr1 = fr1 = 14,0% Fri = fr1 + fr2 = 14,0% + 42,0% = 56,0% Fr3 = fr1 + fr2 + fr3 = 14,0% + 42,0% + 16,0% = 72,0% Fr4 = fr1 + fr2 + fr3 + fr4 = 14,0% + 42,0% + 16,0% + 10,0% = 82,0% Fr5 = fr1 + fr2 + fr3 + fr4 + fr5 = 14,0% + 42,0% + 16,0% + 10,0% + 8,0% = 90,0% Fr6 = fr1 + fr2 + fr3 + fr4 + fr5 + fr6 = 14,0% + 42,0% + 16,0% + 10,0% + 8,0% + 6,0% = 96,0% Fr7 = fr1 + fr2 + fr3 + fr4 + fr5 + fr6 + fr7 = 14,0% + 42,0% + 16,0% + 10,0% + 8,0% + 6,0% + 4,0% = 100% UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 45 Tabela de frequências por pontos ou valores para este exemplo: i Número de irmãos N° de alunos (fi) % de alunos (fri) N° alunos acumulado (Fi) % de alunos acumulado (Fri) 1 0 7 14,0% 7 14,0% 2 1 21 42,0% 28 56,0% 3 2 8 16,0% 36 72,0% 4 3 5 10,0% 41 82,0% 5 4 4 8,0% 45 90,0% 6 5 3 6,0% 48 96,0% 7 6 2 4,0% 50 100,0% TOTAL 50 100% - - Por exemplo, a fr3: fr3 = f3 / n = 8 / 50 = 0,16 * 100 = 16,0% -> Verifica-se que 16,0% dos alunos da disciplina de CEQ possuem 2 irmãos. a F5: F5 = f1 + f2 + f3 + f4 + f5 = 7 + 21 + 8 + 5 + 4 = 45 -> Verifica-se que 45 alunos da disciplina de CEQ possuem no máximo 4 irmãos. a Fr4: Fr4 = fr1 + fr2 + fr3 + fr4 = 14,0 + 42,0 + 16,0 + 10,0 = 82,0% -> Verifica-se que 82,0% dos alunos da disciplina de CEQ possuem no máximo 3 irmãos. Um gráfico que poderia ser utilizado para representar a tabela de frequências acima poderia ser o gráfico de Colunas ou o gráfico de Barras. Para este caso optamos por plotar o gráfico de Colunas, no qual a variável estudada (Número de irmãos) é representada no eixo das abscissas (horizontal) e as frequências no eixo das ordenadas (vertical). Abaixo veja o gráfico de colunas da variável número de irmãos dos alunos da disciplina de CEQ. 14,0% 42,0% 16,0% 10,0% 8,0% 6,0% 4,0% 0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 0 1 2 3 4 5 6 Número de irmãos UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 46 Conclusão: Pelo gráfico de colunas acima pode-se concluir que 72% dos alunos da disciplina de CEQ possuem até 2 irmãos. Sendo que destes, 42,0% possuem 1 irmão, 14,0% nenhum irmão e os restantes (16,0%) possuem 2 irmãos. Realizando no RStudio: irmaos<- c(0,1,1,6,3,1,3,1,1,0,4,5,1,1,1,0,2,2,4,1,3,1,2,1,1,1,1,5,5,6,4,1,1,0, 2,1,4,3,2,2,1,0,2,1,1,2,3,0,1,0) irmaos [1] 0 1 1 6 3 1 3 1 1 0 4 5 1 1 1 0 2 2 4 1 3 1 2 1 1 1 1 5 5 6 4 1 1 0 2 1 4 3 2 2 1 0 2 1 1 2 3 0 [49] 1 0 #Frequencia Absoluta Simples tab <- table(irmaos) irmaos 0 1 2 3 4 5 6 7 21 8 5 4 3 2 names(tab) [1] "0" "1" "2" "3" "4" "5" "6" barplot(tab, main="N° de irmaõs") #Frequencia Relativa Simples (relFreq <- prop.table(tab)) irmaos 0 1 2 3 4 5 6 0.14 0.42 0.16 0.10 0.08 0.06 0.04 #Frequencia Absoluta Acumulada cumsum(tab) 0 1 2 3 4 5 6 7 28 36 41 45 48 50 #Frequencia Relativa Acumulada cumsum(relFreq) 0 1 2 3 4 5 6 0.14 0.56 0.72 0.82 0.90 0.96 1.00 䡅 UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 47 Exemplo: Durante um período de seis meses, a produção de filme de polietileno de baixa densidade (PEBD) foi acompanhada, anotando-se os tipos de defeitos encontrados: produto Tipo defeito produto Tipo defeito produto Tipo defeito produto Tipo defeito 1 micro furos 43 opacidade 85 Grumos 127 adesao entre faces 2 micro furos 44 espessura maior 86 Grumos 128 adesao entre faces 3 micro furos 45 espessura maior 87 Grumos 129 adesao entre faces 4 micro furos 46 espessura maior 88 Grumos 130 adesao entre faces 5 micro furos 47 espessura maior 89 Grumos 131 adesao entre faces 6 micro furos 48 espessura maior 90 Grumos 132 adesao entre faces 7 micro furos 49 espessura maior 91 Grumos 133 adesao entre faces 8 micro furos 50 espessura maior 92 Grumos 134 adesao entre faces 9 opacidade 51 espessura maior 93 adesao entre faces 135 adesao entre faces 10 opacidade 52 espessura maior 94 adesao entre faces 136 espessura menor 11 opacidade 53 espessura maior 95 adesao entre faces 137 espessura menor 12 opacidade 54 espessura maior 96 adesao entre faces 138 espessura menor 13 opacidade 55 espessura maior 97 adesao entre faces 139 espessura menor 14 opacidade 56 espessura maior 98 adesao entre faces 140 espessura menor 15 opacidade 57 espessura maior 99 adesao entre faces 141 espessura menor 16 opacidade 58 largura incompleta 100 adesao entre faces 142 espessura menor 17 opacidade 59 largura incompleta 101 adesao entre faces 143 espessura menor 18 opacidade 60 largura incompleta 102 adesao entre faces 144 espessura menor 19 opacidade 61 largura incompleta 103 adesao entre faces 145 espessura menor 20 opacidade 62 largura incompleta 104 adesao entre faces 146 espessura menor 21 opacidade 63 largura incompleta 105 adesao entre faces 147 espessura menor 22 opacidade 64 largura incompleta 106 adesao entre faces 148 espessura menor 23 opacidade 65 largura incompleta 107 adesao entre faces 149 espessura menor 24 opacidade 66 largura incompleta 108 adesao entre faces 150 espessura menor 25 opacidade 67 largura incompleta 109 adesao entre faces 151 espessura menor 26 opacidade 68 largura incompleta 110 adesao entre faces 152 espessura menor 27 opacidade 69 largura incompleta 111 adesao entre faces 153 espessura menor 28 opacidade 70 largura incompleta 112 adesao entre faces 154 espessura menor 29 opacidade 71 largura incompleta 113 adesao entre faces 155 espessura menor 30 opacidade 72 largura incompleta 114 adesao entre faces 156 espessura menor 31 opacidade 73 largura incompleta 115 adesao entre faces 157 espessura menor 32 opacidade 74 largura incompleta 116 adesao entre faces 158 espessuramenor 33 opacidade 75 largura incompleta 117 adesao entre faces 159 espessura menor 34 opacidade 76 largura incompleta 118 adesao entre faces 160 espessura menor 35 opacidade 77 largura incompleta 119 adesao entre faces 161 espessura menor 36 opacidade 78 largura incompleta 120 adesao entre faces 162 espessura menor 37 opacidade 79 largura incompleta 121 adesao entre faces 163 espessura menor 38 opacidade 80 largura incompleta 122 adesao entre faces 164 espessura menor 39 opacidade 81 largura incompleta 123 adesao entre faces 165 espessura menor UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 48 40 opacidade 82 largura incompleta 124 adesao entre faces 166 espessura menor 41 opacidade 83 largura incompleta 125 adesao entre faces 167 espessura menor 42 opacidade 84 largura incompleta 126 adesao entre faces 168 espessura menor 169 espessura menor 170 espessura menor Realizando no R Studio: Primeiro os dados terão que ser digitados no Excel e salvos em .CSV, após isto deverá entrar no R Studio e ir em IMPORT DATASET: UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 49 UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 50 #Frequencia Absoluta Simples (tab <- table(tipo_defeito$tipo)) Temos interesse em colocar em ordem decrescente os tipos de defeitos que apareceram, para tal iremos utilizar a função sort: sort faz uma classificação (crescente ou decrescente) simples e tem a sintaxe: sort(x, decreasing = FALSE, na.last = NA) onde x é o vetor a ser classificado, decreasing = FALSE define que a classificação será em ordem crescente e significa que outros argumentos podem ser incrementados. Por exemplo: na.last = NA significa que valores que não foram definidos não vão ser listados. Outras opções seriam na.last = TRUE (os valores faltantes ficariam após o último valor classificado) e na.last=FALSE (os valores faltantes ficariam antes do primeiro valor classificado) #Desta forma, utilizaremos: sort(tab, decreasing=TRUE, na.last=TRUE) UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 51 #Frequencia Relativa Simples (relFreq <- prop.table(sort(tab,decreasing = TRUE,na.last=TRUE)))*100 #Frequencia Absoluta Acumulada cumsum(sort(tab,decreasing=TRUE,na.last = TRUE)) #Frequencia Relativa Acumulada cumsum(relFreq*100) #Plotar o gráfico de colunas em ordem decrescente: barplot(sort(tab,decreasing=TRUE, na.last=TRUE), main="Tipos de defeitos", ylab="Frequencia", xlab="Tipos de defeitos") OBS: 'xlab' e 'ylab' = nomes dos eixos X e Y, respectivamente 'main' = nome do título do gráfico 'col' = cor da barra (do gráfico), ou de linhas e símbolos plotados UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 52 Tipo de Defeito fi fri Fi Fri Adesão entre faces 43 25,3% 43 25,3% Espessura menor 35 20,6% 78 45,9% Opacidade 35 20,6% 113 66,5% Largura incompleta 27 15,9% 140 82,4% Espessura maior 14 8,2% 154 90,6% Grumos 8 4,7% 162 95,3% Micro furos 8 4,7% 170 100,0% Total 170 100,0% - - UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 53 2.2.3 Medidas de posição ou tendência central de uma distribuição de frequências 2.2.3.1 Média Aritmética para uma distribuição de frequência A média aritmética de uma distribuição de frequências por pontos ou valores (dados discretos) ou por classes ou intervalos (dados contínuos) é dada por: ( ) n xfxfxf n xf X nn i n i i ⋅++⋅+⋅ = ⋅ = ∑ = ...22111 __ Exemplo1: Cálculo da média do número de irmãos dos alunos da disciplina de CEQ. Classe Número de irmãos (xi) fi fixi 1 0 7 0 2 1 21 21 3 2 8 16 4 3 5 15 5 4 4 16 6 5 3 15 7 6 2 12 TOTAL 50 95 90,1 50 951 __ == ⋅ = ∑ = n xf X n i ii irmãos Ou seja, o número médio de irmãos dos alunos da disciplina de CEQ é 1,90. Exemplo2: Cálculo da média de tempo que os operadores executam uma determinada tarefa. Classe Tempo (min.) fi Ponto médio da classe (xi) fixi 1 3 ---| 5 4 4 16 2 5 ---| 7 15 6 90 3 7 ---| 9 18 8 144 4 9 ---| 11 4 10 40 5 11 ---| 13 2 12 24 6 13 ---| 15 0 14 0 7 15 ---| 17 2 16 32 TOTAL 45 346 7,7 45 3461 __ == ⋅ = ∑ = n xf X n i ii minutos Ou seja, o tempo médio que os operadores executam uma determinada tarefa é 7,7 minutos. UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 54 2.2.4 Medidas de variabilidade ou dispersão de uma distribuição de frequências 2.2.4.1 Variância 2__ 1 2 2 1 X n xf s n i ii − − ⋅ = ∑ = 2.2.4.2 Desvio padrão O desvio padrão é determinado extraindo-se a raiz quadrada da variância. 2__ 1 2 1 X n xf s n i ii − − ⋅ = ∑ = Exemplo1: Para o exemplo do número de irmãos dos alunos da disciplina de CEQ. Classe Número de irmãos (xi) xi2 fixi2 1 0 0 0 2 1 1 21 3 2 4 32 4 3 9 45 5 4 16 64 6 5 25 75 7 6 36 72 TOTAL 309 64,190,1 150 309 1 2 2__ 1 2 =− − =− − ⋅ = ∑ = X n xf s n i ii Exemplo2: No caso do tempo de execução de uma determinada tarefa pelos operadores. Classe Tempo (min.) fi Ponto médio da classe (xi) xi2 fixi2 1 3 ---| 5 4 4 16 64 2 5 ---| 7 15 6 36 540 3 7 ---| 9 18 8 64 1152 4 9 ---| 11 4 10 100 400 5 11 ---| 13 2 12 144 288 6 13 ---| 15 0 14 196 0 7 15 ---| 17 2 16 256 512 TOTAL 45 2956 UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 55 81,27,7 145 2956 1 2 2__ 1 2 =− − =− − ⋅ = ∑ = X n xf s n i ii UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 56 2.3 GRÁFICOS Técnicas gráficas são geralmente utilizadas, em vez de tabelas, para descrever um conjunto de dados através de um "desenho". Um gráfico estatístico é uma forma de apresentação dos dados estatísticos, cujo objetivo é o de reproduzir, no investigador ou no público em geral, uma impressão mais rápida e viva do fenômeno em estudo. 2.3.1 Gráfico de Setores (Gráfico de Pizza) O gráfico de setores, também conhecido como gráfico pizza, torta, queijo ou bolacha é um dos mais simples recursos gráficos, sua construção é baseada no fato de que o círculo possui 360º, sendo que este círculo é dividido em fatias de acordo com o percentual em cada categoria. É
Compartilhar