Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 1 Material de apoio – Controle Estatístico da Qualidade Parte I Profa. Karla Faccio 1. INTRODUÇÃO Estuda-se a estatística para aplicar seus conceitos como auxílio na tomada de decisão diante de incertezas, justificando cientificamente as decisões. A estatística é uma parte da matemática aplicada que fornece métodos para a coleta, organização, descrição, análise e interpretação de dados e para a utilização dos mesmos na tomada de decisões. A Estatística é a ciência que estuda os fenômenos multicausais, coletivos ou de massa e procura inferir as leis que os mesmos obedecem. Método estatístico é um processo para se obter, apresentar e analisar características ou valores numéricos para uma melhor tomada de decisão em situações de incerteza. Os passos da metodologia estatística são os seguintes: • Definição do problema; • Formulação de um planejamento para a coleta das unidades de observação. É nessa fase que será escolhido o tipo de levantamento a ser utilizado. Podem existir dois tipos de levantamentos: o censitário, quando a contagem for completa, abrangendo todo o universo (população) e o levantamento por amostragem, quando a contagem for parcial; • Coleta, resumo e apresentação das unidades de observação ou de seus valores numéricos; • Análise dos resultados; • Divulgação de um relatório com as conclusões, de tal modo que estas sejam facilmente entendidas por quem as for usar na tomada de decisões. Como as informações provêm de um conjunto menor do que a população, erros são cometidos ao se fazer uma inferência. Esses erros podem ser quantificados por um valor numérico, denominado de probabilidade. O conhecimento das probabilidades associadas a uma situação fornece a base para o desenvolvimento de técnicas para a tomada de decisão. UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 2 A estatística descritiva e a probabilidade são ferramentas para a inferência estatística, a qual interpreta de duas maneiras os resultados obtidos a partir das amostras: ou fazendo uma estimação a respeito de uma característica da população cujo valor se desconhece ou realizando um teste sobre essa característica, da qual se afirma ter um determinado valor. Em geral, a estatística divide-se em dois grupos: estatística descritiva e indutiva. Descritiva: corresponde aos procedimentos relacionados com a coleta, elaboração, tabulação, análise, interpretação e apresentação dos dados, ou seja, inclui técnicas que dizem respeito à sintetização e à descrição de dados numéricos. Tais métodos podem ser gráficos e envolvem a utilização de recursos computacionais. Indutiva (ou inferencial): parte de uma ou mais amostras (subconjuntos da população) e conclui sobre a população. Utiliza técnicas como a teoria das probabilidades, inferência estatística, amostragem. Frequentemente utiliza-se o estudo da amostra do que da população, uma vez que na maioria das vezes não se dispõe de todos os elementos da população, além das informações serem menos dispendiosas e consumirem menos tempo no processamento dos dados. UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 3 Definições e conceitos úteis para o estudo da Estatística: - População: Conjunto de elementos com pelo menos uma característica em comum, ou seja, conjunto de todas as unidades elementares de interesse. Se a população é finita dizemos quem tem tamanho N. - Amostra: Uma amostra é um subconjunto de tamanho n da população em estudo usado para obter informação acerca do todo. Obtemos uma amostra para fazer inferências de uma população. Nossas inferências são válidas somente se a amostra é representativa da população. Por que tomamos uma amostra e não utilizamos a população toda? - Custo alto para obter informação da população toda. - Tempo muito longo para obter informação da população toda. - Algumas vezes impossível, por exemplo, estudo de poluição atmosférica. - Algumas vezes é logicamente impossível, por exemplo, em ensaios destrutivos (controle de qualidade de fósforos). - Parâmetro: É uma constante que caracteriza uma população, isto é, é uma medida que descreve uma característica de uma população (Exemplo: média (µ), desvio-padrão (σ), variância (σ2), proporção (π), etc). - Estimador: É uma constante que caracteriza uma amostra, isto é, é uma medida que descreve uma característica da amostra (Exemplo: média amostral )( __ X , desvio-padrão amostral (s), variância amostral (s2), proporção amostral (p), etc). Exemplos de parâmetros e seus respectivos estimadores: Parâmetros Estimadores Média populacional µ Média amostral X Desvio-padrão populacional σ Desvio-padrão amostral S Proporção populacional π Proporção amostral P - Experimento: Tudo aquilo que pode ser repetido sob idênticas condições. Tipos de experimento: - Determinístico: o resultado vai ser sempre o mesmo. - Aleatório: em cada repetição feita não tem como garantir o mesmo resultado. - Variáveis: Uma variável é uma característica de uma população que difere de um indivíduo para outro e da qual temos interesse em estudar. Desta forma, é a característica de interesse dos elementos da população. Cada unidade (membro) da UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 4 população que é escolhido como parte de uma amostra fornece uma medida de uma ou mais variáveis, chamadas observações. As variáveis podem ser classificadas em Qualitativas ou Quantitativas. Variáveis Qualitativas (ou Categóricas): são as características que não possuem valores quantitativos, mas, ao contrário, são definidas por várias categorias, ou seja, representam uma classificação dos indivíduos. Podem ser nominais ou ordinais. Variável Qualitativa Nominal: Consiste em nomes, rótulos ou categorias apenas. Os dados não podem ser ordenados. Exemplos: Tipo de defeito (Arranhão, Trinca, Quebrado, Amassado); Time preferido (Grêmio, Internacional, Flamengo); Religião (Católica, Protestante, Evangélica); Estado Civil (Casado, Solteiro, Viúvo, Divorciado); Nacionalidade; Sexo; etc. Variável Qualitativa Ordinal: As variáveis podem ser arranjadas em alguma ordem, mas diferenças entre os valores dos dados não podem ser determinadas. Exemplos: Classe Social (A, B, C, D, E); Grau de Satisfação (Satisfeito, Indiferente, Insatisfeito); Imagem da marca (Ótima, Boa, Regular, Ruim, Péssima); Classificação do Índice de Massa Corporal - IMC (baixo peso, normal, obesidade leve, obesidade severa, obesidade mórbida); Grau de importância (nenhuma, pouca, razoável, muito); Escolaridade; etc. Variáveis Quantitativas: são as características que podem ser medidas em uma escala quantitativa, ou seja, apresentam valores numéricos/quantidades. Podem ser contínuas ou discretas. Variável Quantitativa Discreta: Número de valores finitos ou uma quantidade enumerável e não assumem valores fracionários. São variáveis expressas por números inteiros (0, 1, 2, 3, 4,...). Exemplos: Número de peças não-conformes; Número de acidentes em uma rodovia; Número de filhos; Número de produtos defeituosos; Número de assassinatos; Número de mensagens enviadas por minutos; etc.Variável Quantitativa Contínua: Infinitos valores possíveis que correspondem a alguma escala contínua que cobre um intervalo de valores sem vazios, interrupções ou saltos. Desta forma, seus resultados podem assumir qualquer valor ao longo de uma escala. São variáveis expressas por números reais. Exemplos: Diâmetro de uma peças (mm); Gasto diário de água (l); Peso (Kg); Altura (m); Temperatura (Grau Celsius); Tempo (min); etc. UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 5 2. ESTATÍSTICA DESCRITIVA Após a coleta de dados a primeira necessidade do pesquisador é a leitura das informações básicas provenientes da sua pesquisa. Essa primeira análise inicial é feita através da Análise Descritiva por meio da construção de tabelas de frequência, gráficos e o cálculo de algumas medidas estatísticas (resumos numéricos). A Estatística Descritiva pode ser estudada considerando os conjuntos de valores analisados como sendo amostras ou populações. Como o caso mais comum é a obtenção de amostras a notação apresentada será feita considerando os valores como resultados de amostragens. A diferença, considerada do ponto de vista da descrição dos dados, é apenas notacional. Assim o tamanho de uma população (quando finita) é representado, normalmente por N, enquanto que o tamanho de amostra é representado por n. Afora algumas exceções os valores calculados na amostra são representados por letras latinas enquanto que os correspondentes na população o são pelas mesmas letras só que gregas. Para facilitar o estudo da Estatística Descritiva os conjuntos de valores serão considerados como pequenos e grandes. Assim se um conjunto tiver 30 ou menos valores a análise será feita sem o agrupamento. Caso o conjunto tenha mais do que 30 valores então primeiramente será feito o agrupamento de acordo com o tipo de variável considerada. O valor 30 é apenas um ponto de referência escolhido arbitrariamente e dependendo da situação pode-se considerar o agrupamento com mais ou menos valores envolvidos. 2.1 RESUMOS NUMÉRICOS 2.1.1 Medidas de Tendência Central ou de Posição As medidas de tendência central são usadas para indicar um valor que tende a representar melhor um conjunto de números. As três medidas mais usadas são a média, a mediana e a moda. Um conjunto de valores (amostra) será representada por: x1, x2, ..., xn, onde n é o número de elementos do conjunto, isto é, o tamanho da amostra. 2.1.1.1 A MÉDIA ARITMÉTICA UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 6 (a) MÉDIA ARTIMÉTICA SIMPLES AMOSTRAL ( X ) A média aritmética é o resultado da divisão da soma de todos os valores da amostra pela quantidade total de valores. A média aritmética simples amostral do conjunto x1, x2, ..., xn é representada por X e calculada por: ( ) n xxx n x n n i i X +++ == ∑ = ...211 ___ OBS: __ X lê-se x barra e significa Média. ∑ = n i ix 1 lê-se somatório de xi, com i variando de 1 a n. Na Estatística, é comum utilizar as letras gregas para representar parâmetros populacionais e as letras latinas para representar estimadores amostrais. A média de uma população é representada pela letra grega µ, enquanto que na amostra é representada por X . Algumas propriedades da média: • A média é afetada por todos os valores do conjunto, assim, se um número se modifica, a média também se modifica. • Multiplicando-se (ou dividindo-se) todos os valores de uma variável por uma constante, a média do conjunto fica multiplicada (ou dividida) por essa constante. • Somando-se uma constante a cada valor do conjunto, a média ficará aumentada do valor constante. Analogamente, extraindo-se um valor constante de cada valor do conjunto, a média também ficará diminuída desse valor. • A soma dos desvios dos números de um conjunto a contar da média é zero. Exemplo: 20 25 22 24 70 25 31 6 186 6 )257024222520( 6 654321 __ ==+++++= +++++ = XXXXXX X Exemplos: Calcular as médias dos seguintes conjuntos de dados: (a) 1 9 (b) 4 6 7 (c) 0,5 0,8 1,5 1,75 Para o conjunto em (a) tem-se: 5 2 )91( 2 21 __ =+= + = XX X Para o conjunto em (b) tem-se: 7,5 3 )764( 3 321 __ =++= ++ = XXX X Para o conjunto em (c) tem-se: ( ) 14,1 4 75,15,18,05,0 4 4321 __ =+++= +++ = XXXX X UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 7 Exercício: Considere os seguintes gastos (em reais) que 10 pessoas tiveram com compras de supermercado no último mês. R$612,50 R$608,00 R$640,00 R$624,80 R$920,00 R$631,00 R$625,00 R$660,00 R$610,00 R$600,00 a) Qual é o gasto médio? Resolvendo no RStudio: #sintaxe: mean(dados) #Exemplo: gastos <- c(612.50,608,640,624.80,920,631,625,660,610,600) mean(gastos) [1] 653,13 UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 8 (b) MÉDIA ARIMÉTICA PONDERADA (map): A fórmula para calcular a média aritmética supõe que cada observação tenha a mesma importância. A média ponderada considera que as informações não têm a mesma importância, ou seja, deve ser levado em conta o peso (w) das informações. A média aritmética ponderada do conjunto x1, x2, ..., xn, com pesos w1, w2, ..., wn, é representada por map e calculada por: ( ) ( )n nn n i i n i ii p www xwxwxw w xw ma +++ +++ == ∑ ∑ = = ... ... 21 2211 1 1 Onde wi é o peso da observação de ordem i. Exemplo: Consideremos que um professor informe a classe de que haverá dois exames parciais, valendo cada um 30% da nota e um exame final valendo 40%. Um aluno obtém desempenho 70 na primeira avaliação, 65 na segunda e 80 no exame final. Qual é a média de desempenho deste aluno? ( ) ( ) 50,7240,030,030,0 40,08030,06530,070 1 1 = ++ ×+×+×== ∑ ∑ = = n i i n i ii p w xw ma Exercício: Considere uma mesma pesquisa de satisfação de uma determinada empresa prestadora de serviços que foi aplicada durante cinco anos consecutivos. A variável avaliada foi a nota (de 0 a 10) atribuída à Qualidade de um serviço por clientes do mesmo. As avaliações médias de cada ano estão descritas abaixo: ANO AVALIAÇÃO MÉDIA N° de respondentes 2014 8,4 100 2015 7,2 200 2016 8,0 150 2017 8,2 100 2018 8,5 100 Qual é a avaliação média dos 5 anos? UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 9 Resolvendo no RStudio: #sintaxe: weighted.mean(variável,peso) #Exemplo: nota<-c(8.4,7.2,8.0,8.2,8.5) peso<-c(100,200,150,100,100) weighted.mean(nota,peso) [1] 7.923077 2.1.1.2 MEDIANA (me) A principal característica da mediana é dividir o conjunto de números ordenados em dois grupos iguais: a metade terá valores inferiores ou iguais à mediana e a metade terá valores superiores ou iguais à mediana. Assim, a mediana de um conjunto ordenado de valores, denotada por me, é definida como sendo o valor que separa o conjunto em dois subconjuntos do mesmo tamanho. Para calcular a medianainicia-se ordenando os valores em ordem crescente. Para número ímpar de valores a mediana é o valor do meio. Para amostras com número par de unidades, a mediana é a média dos dois valores centrais. Como calcular a Mediana? - Se o n (tamanho da amostra) é ÍMPAR a mediana é o valor central do conjunto de dados ordenado. Tem-se: ( ) 2/1+= ne xm => Representa a posição da mediana no conjunto ordenado - Se o n (tamanho da amostra) é PAR a mediana é a média dos dois elementos centrais do conjunto de dados ordenado. Tem-se: ( ) ( )( ) 2 12/2/ ++= nne xx m => Representa a posição da mediana no conjunto ordenado Exemplo1: Para o conjunto: 15 18 21 32 45 46 49 A mediana é: ( ) 3242/17 === + xxme Ou seja, a mediana é o quarto valor (quarta posição) na sequência ordenada de elementos. Se o conjunto acima fosse: 15 18 21 32 45 46 Então a mediana seria: ( ) ( )( ) ( ) ( )( ) ( ) ( ) 50,26 2 3221 222 4312/62/612/2/ =+= + = + = + = ++ xxxxxx m nn e UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 10 Exemplo2: Amostra Num. de elementos Dados ordenados Mediana _______________________________________________________________________________ 3 4 4 5 3 6 2 5 6 9 elementos -> ÍMPAR 2 3 3 4 4 5 5 6 6 4 2 4 3 1 9 9 3 4 8 elementos -> PAR 1 2 3 3 4 4 9 9 3,5 4 5 3 4 2 6 4 3 7 8 4 2 6 1 3 6 2 1 _______________________________________________________________________________ Exercício: Considere os seguintes gastos (em reais) que 6 pessoas tiveram com compras de supermercado no último mês. R$612,50 R$608,00 R$640,00 R$624,80 R$920,00 R$631,00 R$625,00 R$660,00 R$610,00 R$600,00 a) Qual é o gasto mediano? Interprete. Resolvendo no RStudio: #sintaxe: median(dados) #Exemplo: gastos <- c(612.50,608,640,624.80,920,631,625,660,610,600) median(gastos) [1] 624.90 UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 11 2.1.1.3 QUARTIS e BOXPLOT Os quartis são medidas separatrizes que dividem o conjunto em 4 partes iguais. O primeiro quartil (Q1) é o valor do conjunto que delimita os 25% menores valores: 25% dos valores são menores do que Q1 e 75% são maiores do que Q1. O segundo quartil (Q2) é a própria mediana (me), que separa os 50% menores dos 50% maiores valores. O terceiro quartil (Q3) é o valor que delimita os 25% maiores valores: 75% dos valores são menores do que Q3 e 25% são maiores do que Q3. Primeiro, ordene o conjunto de dados e encontre a mediana Q2. Depois de encontrar Q2, divida o conjunto de dados em duas metades. O primeiro e o terceiro quartil são as medianas das metades inferior (Q1) e superior (Q3) do conjunto de dados. Quartil Notação Interpretação 1° Quartil Q1 25% dos dados são valores menores ou iguais ao valor do Q1 2° Quartil Q2 = me 50% dos dados são valores menores ou iguais ao valor do Q2 = me 3° Quartil Q3 75% dos dados são valores menores ou iguais ou Q3 Gráfico Box Plot: O gráfico Box Plot (conhecido como “Caixa e Bigode”) é uma análise gráfica que utiliza cinco medidas estatísticas: valor mínimo, valor máximo, mediana, primeiro (Q1) e terceiro quartil (Q3) da variável quantitativa. Este conjunto de medidas oferece a ideia da posição, dispersão, assimetria, caudas e dados discrepantes (outliers). A posição central é dada pela mediana e a dispersão pela distância interquartílica d = Q3 – Q1. As posições relativas de Q1, Q2 e Q3 dão uma noção da assimetria da distribuição. Os comprimentos das caudas são dados pelas linhas que vão do retângulo aos valores atípicos. Um outlier ou ponto discrepante é um valor que se localiza distante de quase todos os outros pontos da distribuição. A distância a partir da qual considera-se um valor como discrepante é aquela que supera 1,5 x d. De maneira geral, são considerados outliers todos os valores inferiores Li = Q1 – 1,5 x d ou superiores a Ls = Q3 + 1,5 x d. Legenda: Q2 = me: Mediana (linha horizontal escuta dentro do box) Q1: 1° Quartil (Limite inferior do box) Q3: 3° Quartil (Limite superior do box) d: Diferença (distância) interquartílica (d = Q3 – Q1) *: Outlier (valores acima de 1,5 x d) Li: Limite inferior Ls: Limite superior UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 12 Exemplo: Considere a variável idade dos 22 alunos da turma de CEQ 2019/2: 18 18 19 20 20 20 20 20 20 21 21 22 23 24 25 25 25 26 29 30 35 37 Como os dados já estão em ordem crescente, determinar as medidas: Mediana (Q2): Como o n = 22 é par, a mediana será: ( ) ( )( ) ( ) ( ) 50,21 2 2221 222 12111)2/22()2/22(12/2/ =+=+= + = + = ++ xx xxxx m nn e 1° Quartil (Q1): Q1 = 20 3° Quartil (Q3): Q3 = 25 Distância interquartílica: d= Q3 – Q1 = 25 – 20 = 5 Limite inferior: Li = Q1 – 1,5 x d = 20 – (1,5 x 5) = 12,50 Limite superior: Ls = Q3 + 1,5 x d = 25 + (1,5 x 5) = 32,50 Construir uma escala com valores que incluam os valores máximo e mínimo dos dados: 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 Construir uma caixa (retangular) estendendo-se de Q1 a Q3, e trace uma linha na caixa no valor da Mediana: Q1 Q2 Q3 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 13 Traçar uma linha paralela à reta, com uma das extremidades alinhada ao limite inferior Li e a outra no centro do lado do retângulo correspondente ao Q1. Trace uma outra linha paralela à reta, com uma extremidade no centro do lado do retângulo correspondente ao Q3 e a outra alinhadas com o limite superior Ls. E identificar os dados discrepantes (outliers): Q1 Q2 Q3 * * 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 Li Ls No conjunto de dados não existe aluno com idade inferior a 12,50 (Li), ou seja, não há aluno com idade considerada discrepante inferiormente. Entretanto, existem 2 alunos cujas idade são superiores a 32,50, pontos estes considerados discrepantes (outliers) neste conjunto de dados: as idades 35 e 37. Nota-se que no intervalo interquartílico (dentro do retângulo) existem 50% dos dados, dos quais, 25% estão entre a linha da mediana (Q2) e a linha do Q1 e os outros 25% estão entre a linha da mediana (Q2) e a linha do Q3. Cada linha da cauda mais os valores discrepantes contem os 25% restantes da distribuição. O Box Plot mostra que a distribuição das idades dos alunos apresenta assimetria positiva (menores valores). O gráfico Box Plot pode ser utilizado para realizar comparações entre várias distribuições. Essa comparação pode ser feita plotando vários Box Plots numa mesma figura. A figura abaixo apresenta o Box Plot para a variável idade classificada segundo o gênero do aluno. Nota-se que para o sexo feminino, não há valores discrepantes (outliers) e a distribuiçãoapresenta assimetria positiva, com idade mediana inferior ao do sexo masculino. UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 14 Resolvendo no RStudio: dados<- c(18,18,19,20,20,20,20,20,20,21,21,22,23,24,25,25,25,26,29,30,35,37) summary(dados) Min. 1st Qu. Median Mean 3rd Qu. Max. 18.00 20.00 21.50 23.55 25.00 37.00 boxplot(dados) Exercício: Considere os seguintes gastos (em reais) que 6 pessoas tiveram com compras de supermercado no último mês. R$612,50 R$608,00 R$640,00 R$624,80 R$920,00 R$631,00 R$625,00 R$660,00 R$610,00 R$600,00 a) Quais são os Quartis dos gastos? Interprete. b) Plote o Box Plot dos gastos. Resolvendo no RStudio: #sintaxe: summary(dados) boxplot(dados) #Exemplo: gastos <- c(612.50,608,640,624.80,920,631,625,660,610,600) summary(gastos) Min. 1st Qu. Median Mean 3rd Qu. Max. 600.0 610.6 624.9 653.1 637.8 920.0 boxplot(dados) UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 15 2.1.1.4 MODA (mo) A moda de um conjunto de valores é definida como sendo “o valor (ou os valores) do conjunto que mais se repete”, ou seja, é o ponto máximo de uma distribuição. Convém lembrar que a moda, ao contrário da mediana e da média, pode não ser única, isto é, um conjunto pode ser bimodal, trimodal, etc. ou mesmo amodal (sem moda). Se a moda existir será representada por mo. Exemplo1: Seja o conjunto de dados: 1 3 3 6 7 3 8 8 7 4 A moda deste conjunto de dados é mo = 3. Pois este valor se repete três vezes e qualquer outro valor se repete duas vezes ou menos. Exemplo2: Seja o conjunto de dados: 1 2 3 4 5 6 Este conjunto de dados é amodal, ou seja, não tem moda. Exemplo3: Seja o conjunto de dados: 0 0 0 0 0 200 A moda deste conjunto de dados é mo = 0. Pois este valor se repete cinco vezes. Exemplo4: Seja o conjunto de dados: 2 3 0 0 1 4 4 Este conjunto de dados é BIMODAL, ou seja, possui a mo = 0 e mo = 4. Exercício: Considere os seguintes dados referente ao número de disciplinas que os alunos de CEQ estão matriculados no semestre 2019/1. Identifique a moda do conjunto de dados. 5 4 3 5 2 7 6 5 4 4 3 7 4 2 5 4 5 4 3 7 5 4 2 3 4 6 6 8 2 5 4 4 4 UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 16 Resolvendo no RStudio: OBS: No R existem duas formas que podemos utilizar para encontrarmos a moda de uma série de dados. São elas: • table(): este comando ordena em ordem crescente os dados e indica o número de vezes em que o elemento se repete na série de dados apresentada. É utilizado para encontrar a moda em pequenas amostras. • subset(): em oposição ao item anterior esta função é utilizada quando o tamanho da amostra é grande. O comando para a obtenção da moda é dado abaixo: #sintaxe: subset(table(), table() == max(table())) #Exemplo: y<- c(5,4,3,5,2,7,6,5,4,4,3,7,4,2,5,4,5,4,3,7,5,4,2,3,4,6,6,8,2,5,4,4,4) table(y) y 2 3 4 5 6 7 8 4 4 11 7 3 3 1 y [1] 5 4 3 5 2 7 6 5 4 4 3 7 4 2 5 4 5 4 3 7 5 4 2 3 4 6 6 8 2 5 4 4 4 subset(table(y),table(y)==max(table(y))) 4 11 No exemplo o valor que mais se repete é o 4, com 11 ocorrências. Logo 4 disciplinas é a moda, ou seja, o elemento que mais se repete. 2.1.2 Medidas de Dispersão ou de Variabilidade 2.1.2.1 AMPLITUDE (r) A mais simples das medidas de dispersão é a amplitude, denotada por r, e definida como sendo a diferença entre os valores extremos do conjunto: r = Xmax - Xmin Exemplo 1: A amplitude do conjunto -5 4 0 3 8 10, vale: r = Xmax - Xmin = 10 – (-5) = 15. Exemplo 2: A amplitude do conjunto 4 8 9 2 8 5 6 3, vale: r = Xmax - Xmin = 9 – (2) = 7. UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 17 Exercício: Considere os seguintes gastos (em reais) que 6 pessoas tiveram com compras de supermercado no último mês. R$612,50 R$608,00 R$640,00 R$624,80 R$920,00 R$631,00 R$625,00 R$660,00 R$610,00 R$600,00 d) Qual é a amplitude desses gastos? Resolvendo no RStudio: #Sintaxe: max(dados) - min(dados) ou range(dados) #Exemplo: gastos <- c(612.50,608,640,624.80,920,631,625,660,610,600) max(gastos) - min(gastos) [1] 320 range(gastos) [1] 600 920 diff(range(gastos)) [1] 320 2.1.2.2 VARIÂNCIA AMOSTRAL (s2) A medida de dispersão usual é a variância e principalmente sua raiz quadrada que é denominada de desvio-padrão. A variância amostral é denotada por s2 e definida como sendo a média dos quadrados dos desvios em relação à média aritmética. ( ) ( ) ( ) ( ) 1 ... 1 22 2 2 11 2 2 − −++−+− = − − = ∑ = n XXXXXX n XX s n n i i OBS: Quando se deseja a variância populacional (σ2), deve-se substituir n-1 por N na fórmula. Usualmente iremos utilizar a variância amostral. Exemplo: Calcule a variância para os seguintes dados: 2 4 6 8 10 Solução: Primeiro temos que calcular a média: ( ) 6 5 108642__ =++++=X Agora vamos aplicar a fórmula da variância: 10 15 40 15 )610()68()66()64()62( 1 )( 22222 1 2 __ 2 = − = − −+−+−+−+−= − − = ∑ = n XX s n i i X UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 18 2.1.2.3 DESVIO PADRÃO AMOSTRAL (s) O desvio padrão é simplesmente a raiz quadrada da variância. ( ) ( ) ( ) 1 ... 1 22 2 2 11 2__ − −++−+− = − − = ∑ = n XXXXXX n XX s n n i i X Como anteriormente, a substituição de n-1 por N produz a fórmula para o desvio padrão populacional (σ). Exemplo: Calcule o desvio padrão para os seguintes dados: -7 4 0 3 8 10 Primeiro temos que calcular a média: ( ) 3 6 1083047__ =+++++−=X Agora vamos aplicar a fórmula do desvio padrão: 07,6 16 184 16 )310()38()33()30()34()37( 1 222222 1 2__ = − = − −+−+−+−+−+−−= − − = ∑ = n XX s n i i X Exercício: Considere os seguintes gastos (em reais) que 6 pessoas tiveram com compras de supermercado no último mês. R$612,50 R$608,00 R$640,00 R$624,80 R$920,00 R$631,00 R$625,00 R$660,00 R$610,00 R$600,00 e) Qual é desvio padrão dos gastos? UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 19 Resolvendo no RStudio: #Sintaxe: sd(dados) #Exemplo: gastos<- c(612.50,608,640,624.80,920,631,625,660,610,600) sd(gastos) [1] 95.39003 2.1.2.4 COEFICIENTE DE VARIAÇÃO (CV) O coeficiente de variação é uma medida de variação útil para comparar conjuntos de dados diferentes. Ele é usualmente expresso em percentual. O coeficiente de variação é dado pelo quociente entre o desvio padrão e a média dos dados. __ X s Média ãoDesvioPadrCV == OBSERVAÇÃO: O conjunto de dados que tiver o maior CV dentre os demais é dito o conjunto mais heterogêneo, ou seja, o grupo com maior variabilidade. E, por sua vez, o conjunto de dados que tiver o menor CV dentre os demais conjuntos é dito o conjunto mais homogêneo. Exemplo: Entre os conjuntos de dados a seguir apresentados, qual apresenta maior variabilidade? Conjunto A Conjunto B 12 3 25 4 16 5 23 2 Solução: Conjunto A: 19 4 23162512 4 4321 =+++= +++ = XXXX X A 06,6 3 110 3 )1693649( 3 )1923()1916()1925()1912( 14 )()()()( 1 )( 2222 2 __ 4 2 __ 3 2 __ 2 2 __ 11 2 __ == =+++=−+−+−+−= = − −+−+−+− = − − = ∑ = XXXXXXXX n XX s n i i A UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 20 3187,0 19 06,6 === A A A X s CV Conjunto B: 5,3 4 2543 4 4321 =+++= +++ = XXXX X B 29,167,1 3 5 3 )25,225,225,025,0( 3 )5,32()5,35()5,34()5,33( 14 )()()()( 1 )( 2222 2 __ 4 2 __ 3 2 __ 2 2 __ 11 2 __ === =+++=−+−+−+−= = − −+−+−+− = − − = ∑ = XXXXXXXX n XX s n i i B 3687,0 5,3 29,1 === B B B X s CV Resolvendo no RStudio: #Sintaxe: 100*sd(dados)/mean(dados) #dado em porcentagem #Exemplo: A<-c(12,25,16,23) B<-c(3,4,5,2) CV1 = 100*sd(A)/mean(A) CV1 = 100*sd(B)/mean(B) CV1 CV2 CV1 [1] 31.87 CV2 [1] 36.88556 Conclusão: O conjunto que possui maior variabilidade, ou seja, o conjunto mais heterogêneo é o B, pois é o conjunto com o maior CV = 36,87%. UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 21 Exercício: Uma certa empresa que fabrica duas linhas de produtos (A e B) necessita reestruturar sua produção. Foi realizado um estudo para tal finalidade e uma das variáveis consideradas foi a venda (quantidade mensal) de cada tipo de produto (A e B). Para este estudo foi tomado como referência o primeiro semestre de determinado ano, onde foram verificadas as seguintes quantidades de vendas: Produto A 15 31 32 25 24 25 Produto B 25 20 30 28 27 14 a) Calcule a média das vendas do produto A e do produto B. b) Calcule a mediana das vendas do produto A e do produto B. c) Calcule o desvio padrão das vendas do produto A e do produto B e interprete cada desvio padrão. d) Qual dos produtos (A ou B) apresentou maior estabilidade nas vendas mensais? Justifique apresentando cálculo. UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 22 ATIVIDADE: Considere o Banco de Dados com as informações sobre os funcionários da empresa GoodWork e calcule e interprete a Média, Mediana, Moda e o Desvio Padrão para as variáveis: Idade, Tempo de empresa, Renda mensal e Carga horária semanal. E plote o BoxPlot para cada uma das variáveis. Banco de dados: Registro de Funcionários Empresa GoodWork Nome Idade Tempo de empresa (anos) Renda mensal (R$) Carga horária semanal (horas) Julia 22 2 800,00 20 Henrique 19 0,5 650,00 12 Carolina 18 0,5 550,00 12 Gabriela 20 1 770,00 22 Vítor 29 9 1250,00 40 Felipe 35 12 2200,00 36 Gustavo 21 1 800,00 12 Andriele 23 4 1000,00 40 Lucas 20 2 950,00 20 Arthur 49 30 4500,00 40 João Pedro 25 3 850,00 36 Giovana 19 1 700,00 20 UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 23 2.2 TABELAS OU DISTRIBUIÇÕES DE FREQUÊNCIAS Ao se trabalhar com grandes conjuntos de dados, em geral é útil organizá-los e resumi- los em uma tabela, chamada de distribuição de frequência. Uma distribuição de frequência (ou tabela de frequência) lista os valores dos dados (individualmente ou por grupos de intervalos), juntamente com suas freqüências correspondentes (ou contagens). Assim, uma distribuição de freqüência nos ajuda a entender a natureza da distribuição do conjunto de dados. A variável (ou conjunto) discreta (valores que são resultados de contagem) e a variável (ou conjunto) contínua (valores que são resultados de uma medida). Em geral variáveis discretas são agrupadas em distribuições por ponto ou valores e variáveis contínuas em distribuições por classes ou intervalos. A separação não é rígida e depende basicamente dos dados considerados. Poderá ser necessário usar uma distribuição por classes ou intervalos mesmo quando a variável é discreta. Tipos de frequências: Símbolo Frequência Simples Absoluta fi Frequência Simples Relativa fri Frequência Acumulada Absoluta Fi Frequência Acumulada Relativa Fri Elementos de uma distribuição de frequências: a) Frequência simples relativa ou percentual (fri): é definida como o quociente entre a frequência simples absoluta (fi) e o total de dados n. fri = fi / n b) Frequência acumulada absoluta (Fi): a frequência acumulada absoluta da linha i é definida como sendo a soma das freqüências absolutas até a linha i. Fi = f1 + f2 + ... + fi c) Frequência acumulada relativa ou percentual (Fri): a frequência acumulada relativa da linha i é definida como sendo a soma das freqüências relativas até a linha i. Fri = fr1 + fr2 + ... + fri Ou, então, como sendo o quociente da frequência acumulada absoluta pelo total de dados. Fri = Fi / n Comandos no RStudio: #Frequencia Absoluta Simples tab <- table(dados$variável) #Frequencia Relativa Simples relFreq <- prop.table(tab) #Frequencia Absoluta Acumulada cumsum(tab) #Frequencia Relativa Acumulada cumsum(relFreq) UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 24 Exemplo de construção de uma Tabela de Frequências genérica: I X: Variável fi fri (%) Fi Fri (%) 1 X1 f1 1001 ⋅ n f f1 1001 ⋅ n f 2 X2 f2 1002 ⋅ n f f1 + f2 ⋅ + ⋅ 100100 21 n f n f 3 X3 f3 1003 ⋅ n f f1+ f2+ f3 ⋅ + ⋅ + ⋅ 100100100 321 n f n f n f ... ... ... ... ... ... K Xk fk 100⋅ n f k n 100% Total (∑ ) n 100% - - O primeiro passo para a construção de tabelas é a formatação dos dados em um Banco de Dados conforme é apresentada na figura a seguir: Coleta de Dados: Tabulação: 6 5 4 3 2 1 Cliente Ford2Casada31F Ford0Solteiro25M Chevrolet1Solteira28F Fiat3Casada42F Ford1Casado35M Fiat0Solteira32F Marca CarroNº FilhosEstado CivilIdadeSexo CADASTRO OU BANCO DE DADOS DE UMA PESQUISACADASTRO OU BANCO DE DADOS DE UMA PESQUISA Sexo: Feminino- 4 clientes Masculino – 2 clientes Estado Civil: Solteiro (a) - 3 clientes Casado (a) – 3 clientes Idade: Até 25 anos - 1 cliente 26 a 35 anos – 4 clientes Mais de 35 anos – 1 cliente Número de Filhos: 0 filhos - 2 clientes 1 filho – 2 clientes 2 filhos – 1 cliente 3 filhos – 1 cliente Marca do carro: Fiat - 2 clientes Ford – 3 clientes Chevrolet – 1 cliente UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio25 Formatação e Apresentação: Formatação de uma Tabela de Frequência: 1006Total 33,32Feminino 66,74Masculino %fSexo 16,71Até 25 anos 1006Total 16,71Mais de 35 anos 66,6426 a 35 anos %fIdade 1006Total 50,03Casado (a) 50,03Solteiro (a) %fEstado Civil Tabela 3. Estado Civil Tabela 2. IdadeTabela 1. Sexo %Masculino= 4/6*100 = 66,7% %Feminino = 2/6*100 = 33,3% TABELASTABELAS DEDE FREQUÊNCIAFREQUÊNCIA 46,9120Até 50 21,95651 a 100 100256Total 16,442Mais de 150 14,838101 a 150 %fNº de funcionários TítuloTítulo Porce ntage m Porce ntage m Frequ ência Frequ ência Variá vel Variá vel CabeçalhoCabeçalho Tabela 1. Número de Funcionários Não pode ter linhas Não pode ser fechada UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 26 2.2.1 DISTRIBUIÇÃO POR CLASSES OU INTERVALOS 2.2.1.1 Construção de distribuição de frequência para dados contínuos e para dados discretos com muitas categorias As principais etapas compreendem: 1. Determinar a amplitude dos dados: amplitude (r) = maior valor (Xmax) – menor valor (Xmin). 2. Estabelecer a quantidade de classes (k) ou intervalos de agrupamento dos dados. O número de classes deve variar entre 5 e 15. O número de classes pode variar em função de arbitrariedade, mas existe uma regra conhecida como Regra de Sturges, nk log3,31 ×+= , onde k é o número de classes e n é o número de observações. No R essa opção é o padrão do software. Mas também aconselha-se utilizar nk = , onde n é o número de observações. 3. Determinar a amplitude “r” de cada classe “i”. Sempre que possível é recomendável manter as amplitudes iguais. Aconselha-se dividir a amplitude dos dados (r) pelo número de classes (k), ou seja, ri = r / k. 4. Definir a primeira classe (linha) e, consequentemente, as demais, enquadrar os dados nas classes mediante contagem e apresentar os resultados em uma tabela ou gráfico. Em geral, utiliza-se a simbologia (|---), neste caso, está indicando um intervalo fechado à esquerda e aberto à direita. Também poderia ser utilizado o intervalo aberto à esquerda e fechado à direita (---|). Exemplo: O conjunto de dados abaixo representa o tempo (em minutos) que 45 operadores demoraram para realizar uma determinada tarefa. Agrupe os dados em uma distribuição de frequências. 6,5 4,0 7,1 8,3 5,4 7,6 9,0 15,7 16,7 6,4 5,0 8,5 5,7 7,7 7,2 12,4 7,1 5,5 9,7 4,4 7,0 6,3 8,3 6,9 5,7 7,6 7,9 7,9 6,0 8,2 10,4 9,9 3,9 9,8 8,2 5,6 7,9 6,4 7,4 7,0 13,0 8,7 6,4 6,7 7,4 1. Amplitude dos dados: r = Xmax – Xmin = 16,7 – 3,9 = 12,8 2. Estabelecer o número de classes → 75,6)45log(3,31log3,31 ≅=×+=×+= nk classes. 3. Determinar a amplitude h de cada classe i → a amplitude de cada classe i é ri = r / k =12,8 / 7 = 1,83 ≅ 2. 4. Escrever as classes e contar os valores. UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 27 Classe Tempo (min.) Freq. Simples Absoluta (fi) Freq. Simples Relativa (fri) Freq. Acumulada Absoluta (Fi) Freq. Acumulada Relativa (Fri) 1 3 ---| 5 4 8,9% 4 8,90% 2 5 ---| 7 15 33,3% 19 42,2% 3 7 ---| 9 18 40,0% 37 82,2% 4 9 ---| 11 4 8,9% 41 91,1% 5 11 ---| 13 2 4,4% 43 95,5% 6 13 ---| 15 0 0,0% 43 95,5% 7 15 ---| 17 2 4,4% 45 100,0% TOTAL 45 100,0% - - n = 45 por exemplo, a fr3: fr3 = f3 / n = 18 / 45 = 0,40 * 100 = 40,0% Verifica-se que 40,0% dos operadores executaram uma determinada tarefa depois de 7 minutos e até 9 minutos. a F5: F5 = f1 + f2 + f3 + f4 + f5 = 4 + 15 + 18 + 4 + 2 = 43 Verifica-se que 43 operadores executaram uma determinada tarefa em até 13 minutos. a Fr4: Fr4 = fr1 + fr2 + fr3 + fr4 = 8,9 + 33,3 + 40,0 + 8,9 = 91,1% Verifica-se que 91,1% dos operadores executaram uma determinada tarefa em até 11 minutos. Gráfico da Distribuição de frequência por classes ou intervalos (HISTOGRAMA) Uma distribuição de frequências por classes ou intervalos é apresentada graficamente através de um diagrama denominado de histograma de frequências. Um histograma é um gráfico de retângulos justapostos onde a base de cada retângulo é a amplitude de cada classe e a altura é proporcional a frequência (simples ou relativa) de modo que a área de cada retângulo seja igual a frequência considerada. O gráfico abaixo ilustra o exemplo do tempo (em minutos) que 45 operadores demoraram para realizar uma determinada tarefa. Pelo histograma abaixo pode-se concluir que 33 operários, ou seja, 73,3% dos operários, executaram uma determinada tarefa entre 5 minutos a 9 minutos. UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 28 8,9% 33,3% 40,0% 8,9% 4,4% 0,0% 4,4% 0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 3 ---| 5 5 ---| 7 7 ---| 9 9 ---| 11 11 ---| 13 13 ---| 15 15 ---| 17 Tempo de execução de uma tarefa Também pode ser construído um histograma utilizando-se as frequências acumuladas. Neste caso o diagrama resultante é denominado de ogiva. As figuras abaixo são exemplos de histogramas de frequências relativas acumuladas. Resolvendo no RStudio: tempos<- c(6.5,4.0,7.1,8.3,5.4,7.6,9.0,15.7,16.7,6.4,5.0,8.5,5.7,7.7,7.2,12.4,7 .1,5.5,9.7,4.4,7.0,6.3,8.3,6.9,5.7,7.6,7.9,7.9,6.0,8.2,10.4,9.9,3.9,9. 8,8.2,5.6,7.9,6.4,7.4,7.0,13.0,8.7,6.4,6.7,7.4) Um summary() indica que o menor valor é o 3,9 e o maior valor é o 16,7: summary(tempos) Min. 1st Qu. Median Mean 3rd Qu. Max. 3.900 6.400 7.400 7.787 8.300 16.700 Assim, pode-se escolher (arbitrariamente), que a primeira classe inicie em 3 e a última classe termine em 17, logo a Amplitude dos dados é 14. Ainda, pode-se definir a UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 29 amplitude das classes. Nesse caso definiu-se como 2 (dividindo-se a Amplitude dos dados (14) pelo número de classes k (7), o qual foi definido pela Regra de Sturges). Com o uso da função seq() pode-se gerar os intervalos de classe: brk<-seq(3,17,2);brk [1] 3 5 7 9 11 13 15 17 Nomes das classes: classes<-c("3-|5","5-|7","7-|9","9-|11","11-|13","13-|15","15-|17" No R, uma tabela de frequência absoluta simples pode ser construída com o comando table(): #Frequencia Absoluta Simples table(cut(tempos,breaks=brk,right=TRUE,labels=classes)) ou table(cut(tempos, breaks=c(3,5,7,9,11,13,15,17), labels=c("3-|5","5- |7","7-|9","9-|11","11-|13","13-|15","15-|17"),right=T)) 3-|5 5-|7 7-|9 9-|11 11-|13 13-|15 15-|17 4 15 18 4 2 0 2 #Frequencia Relativa Simples (relFreq <- prop.table(table(cut(tempos,breaks=brk,labels=classes)))) 3-|5 5-|7 7-|9 9-|11 11-|13 13-|15 15-|17 0.0889 0.333 0.400 0.0889 0.044 0.000 0.0444 #Frequencia Absoluta Acumulada cumsum(table(cut(tempos,breaks=brk,labels=classes))) 3-|5 5-|7 7-|9 9-|11 11-|13 13-|15 15-|17 4 19 37 41 43 43 45 #Frequencia Relativa Acumulada cumsum(relFreq) 3-|5 5-|7 7-|9 9-|11 11-|13 13-|15 15-|17 0.0889 0.4222 0.8222 0.9111 0.9556 0.9556 1.00 plot(table(cut(tempos,breaks=brk,right=TRUE,labels=classes)),ylab="Freq.") UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 30 hist(tempos,breaks=brk,freq=TRUE,right=T,labels=classes,main="") UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 31 Exercício: O conjunto de dados amostrais a seguir lista o tempo (em minutos) que 50 usuários de Internet gastaram na rede durante sua mais recente sessão. 7 7 11 17 17 18 19 20 21 22 23 28 29 29 30 30 31 31 33 34 36 37 39 39 39 40 41 41 42 44 44 46 50 51 53 54 54 56 56 56 59 62 67 69 72 73 77 78 80 83 a) Construa uma tabela de frequência por Classes para estes dados. fi fri Fi Fri Total b) Construa o Histograma para estes dados e conclua. c) Identifique e interprete as seguintes frequências: f6, fr4, F4, Fr3. UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 32 Resolvendo no RStudio: tempo<- c(7,7,11,17,17,18,19,20,21,22,23,28,29,29,30,30,31,31,33,34,36,37,39,3 9,39,40,41,41,42,44,44,46,50,51,53,54,54,56,56,56,59,62,67,69,72,73,77 ,78,80,83) Um summary() indica que o menor valor é o 7 e o maior valor é o 83. summary(tempo) Min. 1st Qu. Median Mean 3rd Qu. Max. 7.0 29.0 39.5 41.9 55.5 83.0 Assim, pode-se escolher (arbitrariamente), que a primeira classe inicie em 7 e a última classe termine em 84, logo a Amplitude dos dados é 77. Ainda, pode-se definir a amplitude das classes. Nesse caso definiu-se como 11 (dividindo-se a Amplitude dos dados (77) pelo número de classes k (7), o qual foi definido pela Regra de Sturges). Com o uso da função seq() pode-se gerar os intervalos de classe. brk<-seq(7,84,11);brk [1] 7 18 29 40 51 62 73 84 Nomes das classes: classes<-c("7|-18","18|-29","29|-40","40|-51","51|-62","62|-73","73|- 84") No R, uma tabela de frequência absoluta simples pode ser construída com o comando table(). #Frequencia Absoluta Simples table(cut(tempo,breaks=brk,right=FALSE,labels=classes)) ou table(cut(tempo, breaks=c(7,18,29,40,51,62,73,84), labels=c("7|- 18","18|-29","29|-40","40|-51","51|-62","62|-73","73|-84"),right=F)) 7|-18 18|-29 29|-40 40|-51 51|-62 62|-73 73|-84 5 7 13 8 8 4 5 #Frequencia Relativa Simples (relFreq<-prop.table(table(cut(tempo,breaks=brk,right=FALSE,labels=classes)))) 7|-18 18|-29 29|-40 40|-51 51|-62 62|-73 73|-84 0.10 0.14 0.26 0.16 0.16 0.08 0.10 #Frequencia Absoluta Acumulada cumsum(table(cut(tempo,breaks=brk,right=FALSE,labels=classes))) 7|-18 18|-29 29|-40 40|-51 51|-62 62|-73 73|-84 5 12 25 33 41 45 50 cumsum(relFreq) 7|-18 18|-29 29|-40 40|-51 51|-62 62|-73 73|-84 0.10 0.24 0.50 0.66 0.82 0.90 1.00 UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 33 plot(table(cut(tempo,breaks=brk,right=FALSE,labels=classes)),ylab="Fre q.") hist(tempo,breaks=brk,freq=FALSE,right=F,labels=classes,main="") UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 34 2.2.2 DISTRIBUIÇÃO POR PONTOS OU VALORES 2.2.2.1 Construção de distribuição de frequência para dados discretos ou dados qualitativos Na construção de uma distribuição de freqüência utilizando dados contínuos perde-se certa quantidade de informação porque os valores individuais perdem sua identidade quando são agrupados em classes. Isso pode ou não ocorrer com dados discretos, dependendo da natureza dos dados e os objetivos do analista. Considere um conjunto de valores resultados de uma contagem. Poderia ser, por exemplo, o número de irmãos dos alunos da disciplina de Controle Estatístico da Qualidade (CEQ). Número de irmãos dos alunos da disciplina de CEQ: 0 1 1 6 3 1 3 1 1 0 4 5 1 1 1 0 2 2 4 1 3 1 2 1 1 1 1 5 5 6 4 1 1 0 2 1 4 3 2 2 1 0 2 1 1 2 3 0 1 0 Esta coleção de valores não constitui informação, mas pode ser transformada em informação mediante sua representação em uma distribuição de freqüências por pontos ou valores. Para tal, coloca-se o conjunto em uma tabela em que a coluna da esquerda é representada pelos diferentes números ordenados (os pontos ou valores) e a coluna da direita pelo número de vezes que cada valor se repetiu (as freqüências simples ou absolutas). Para o exemplo, tem-se: Número de irmãos Frequência de alunos 0 7 1 21 2 8 3 5 4 4 5 3 6 2 TOTAL 50 Na tabela abaixo, estão ilustrados os cálculos das frequências relativas e acumuladas. Classe Número de irmãos fi fri Fi Fri 1 0 7 14,0% 7 14,0% 2 1 21 42,0% 28 56,0% 3 2 8 16,0% 36 72,0% 4 3 5 10,0% 41 82,0% 5 4 4 8,0% 45 90,0% 6 5 3 6,0% 48 96,0% 7 6 2 4,0% 50 100,0% TOTAL 50 100,0% - - UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 35 n = 50 por exemplo, a fr3: fr3 = f3 / n = 8 / 50 = 0,16 * 100 = 16,0% Verifica-se que 16,0% dos alunos da disciplina de CEQ possuem 2 irmãos. a F5: F5 = f1 + f2 + f3 + f4 + f5 = 7 + 21 + 8 + 5 + 4 = 45 Verifica-se que 45 alunos da disciplina de CEQ possuem no máximo 4 irmãos. a Fr4: Fr4 = fr1 + fr2 + fr3 + fr4 = 14,0 + 42,0 + 16,0 + 10,0 = 82,0% Verifica-se que 82,0% dos alunos da disciplina de CEQ possuem no máximo 3 irmãos. Gráfico da Distribuição de frequência por pontos ou por valores Uma distribuição de frequências por pontos ou valores é apresentada graficamente através de um diagrama de colunas, onde a variável Xi é representada no eixo das abcissas (horizontal) e as frequências no eixo das ordenadas (vertical). Abaixo veja o diagrama de colunas simples da variável número de irmãos dos alunos da disciplina de CEQ. Pelo gráfico de colunas abaixo pode-se concluir que 36 alunos, ou seja, 72,0% dos alunos, possuem até 2 irmãos. Sendo que destes, 42,0% possuem 1 irmão, 14,0% nenhum irmão e os restantes (16,0%) possuem 2 irmãos. 14,0% 42,0% 16,0% 10,0% 8,0% 6,0% 4,0% 0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 0 1 2 3 4 5 6 Número de irmãos UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 36 Realizando no RStudio: irmaos<- c(0,1,1,6,3,1,3,1,1,0,4,5,1,1,1,0,2,2,4,1,3,1,2,1,1,1,1,5,5,6,4,1,1,0, 2,1,4,3,2,2,1,0,2,1,1,2,3,0,1,0) irmãos [1] 0 1 1 6 3 1 3 1 1 0 4 5 1 1 1 0 2 2 4 1 3 1 2 1 1 1 1 5 5 6 4 1 1 0 2 1 4 3 2 2 1 0 2 1 1 2 3 0 [49] 1 0 #Frequencia Absoluta Simples (tab <- table(irmaos)) irmaos 0 1 2 3 4 5 6 7 21 8 5 4 3 2 names(tab)[1] "0" "1" "2" "3" "4" "5" "6" barplot(tab, main="N° de irmaõs") #Frequencia Relativa Simples (relFreq <- prop.table(tab)) irmaos 0 1 2 3 4 5 6 0.14 0.42 0.16 0.10 0.08 0.06 0.04 #Frequencia Absoluta Acumulada cumsum(tab) 0 1 2 3 4 5 6 7 28 36 41 45 48 50 #Frequencia Relativa Acumulada cumsum(relFreq) 0 1 2 3 4 5 6 0.14 0.56 0.72 0.82 0.90 0.96 1.00 UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 37 Exemplo: Durante um período de seis meses, a produção de filme de polietileno de baixa densidade (PEBD) foi acompanhada, anotando-se os tipos de defeitos encontrados: produto Tipo defeito produto Tipo defeito produto Tipo defeito produto Tipo defeito 1 micro furos 43 opacidade 85 Grumos 127 adesao entre faces 2 micro furos 44 espessura maior 86 Grumos 128 adesao entre faces 3 micro furos 45 espessura maior 87 Grumos 129 adesao entre faces 4 micro furos 46 espessura maior 88 Grumos 130 adesao entre faces 5 micro furos 47 espessura maior 89 Grumos 131 adesao entre faces 6 micro furos 48 espessura maior 90 Grumos 132 adesao entre faces 7 micro furos 49 espessura maior 91 Grumos 133 adesao entre faces 8 micro furos 50 espessura maior 92 Grumos 134 adesao entre faces 9 opacidade 51 espessura maior 93 adesao entre faces 135 adesao entre faces 10 opacidade 52 espessura maior 94 adesao entre faces 136 espessura menor 11 opacidade 53 espessura maior 95 adesao entre faces 137 espessura menor 12 opacidade 54 espessura maior 96 adesao entre faces 138 espessura menor 13 opacidade 55 espessura maior 97 adesao entre faces 139 espessura menor 14 opacidade 56 espessura maior 98 adesao entre faces 140 espessura menor 15 opacidade 57 espessura maior 99 adesao entre faces 141 espessura menor 16 opacidade 58 largura incompleta 100 adesao entre faces 142 espessura menor 17 opacidade 59 largura incompleta 101 adesao entre faces 143 espessura menor 18 opacidade 60 largura incompleta 102 adesao entre faces 144 espessura menor 19 opacidade 61 largura incompleta 103 adesao entre faces 145 espessura menor 20 opacidade 62 largura incompleta 104 adesao entre faces 146 espessura menor 21 opacidade 63 largura incompleta 105 adesao entre faces 147 espessura menor 22 opacidade 64 largura incompleta 106 adesao entre faces 148 espessura menor 23 opacidade 65 largura incompleta 107 adesao entre faces 149 espessura menor 24 opacidade 66 largura incompleta 108 adesao entre faces 150 espessura menor 25 opacidade 67 largura incompleta 109 adesao entre faces 151 espessura menor 26 opacidade 68 largura incompleta 110 adesao entre faces 152 espessura menor 27 opacidade 69 largura incompleta 111 adesao entre faces 153 espessura menor 28 opacidade 70 largura incompleta 112 adesao entre faces 154 espessura menor 29 opacidade 71 largura incompleta 113 adesao entre faces 155 espessura menor 30 opacidade 72 largura incompleta 114 adesao entre faces 156 espessura menor 31 opacidade 73 largura incompleta 115 adesao entre faces 157 espessura menor 32 opacidade 74 largura incompleta 116 adesao entre faces 158 espessura menor 33 opacidade 75 largura incompleta 117 adesao entre faces 159 espessura menor 34 opacidade 76 largura incompleta 118 adesao entre faces 160 espessura menor 35 opacidade 77 largura incompleta 119 adesao entre faces 161 espessura menor 36 opacidade 78 largura incompleta 120 adesao entre faces 162 espessura menor 37 opacidade 79 largura incompleta 121 adesao entre faces 163 espessura menor 38 opacidade 80 largura incompleta 122 adesao entre faces 164 espessura menor 39 opacidade 81 largura incompleta 123 adesao entre faces 165 espessura menor UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 38 40 opacidade 82 largura incompleta 124 adesao entre faces 166 espessura menor 41 opacidade 83 largura incompleta 125 adesao entre faces 167 espessura menor 42 opacidade 84 largura incompleta 126 adesao entre faces 168 espessura menor 169 espessura menor 170 espessura menor Realizando no R Studio: Primeiro os dados terão que ser digitados no Excel e salvos em .CSV, após isto deverá entrar no R Studio e ir em IMPORT DATASET: UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 39 UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 40 #Frequencia Absoluta Simples (tab <- table(tipo_defeito$tipo)) Temos interesse em colocar em ordem decrescente os tipos de defeitos que apareceram, para tal iremos utilizar a função sort: sort faz uma classificação (crescente ou decrescente) simples e tem a sintaxe: sort(x, decreasing = FALSE, na.last = NA) onde x é o vetor a ser classificado, decreasing = FALSE define que a classificação será em ordem crescente e significa que outros argumentos podem ser incrementados. Por exemplo: na.last = NA significa que valores que não foram definidos não vão ser listados. Outras opções seriam na.last = TRUE (os valores faltantes ficariam após o último valor classificado) e na.last=FALSE (os valores faltantes ficariam antes do primeiro valor classificado) #Desta forma, utilizaremos: sort(tab, decreasing=TRUE, na.last=TRUE) UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 41 #Frequencia Relativa Simples (relFreq <- prop.table(sort(tab,decreasing = TRUE,na.last=TRUE)))*100 #Frequencia Absoluta Acumulada cumsum(sort(tab,decreasing=TRUE,na.last = TRUE)) #Frequencia Relativa Acumulada cumsum(relFreq*100) #Plotar o gráfico de colunas em ordem decrescente: barplot(sort(tab,decreasing=TRUE, na.last=TRUE), main="Tipos de defeitos", ylab="Frequencia", xlab="Tipos de defeitos") OBS: 'xlab' e 'ylab' = nomes dos eixos X e Y, respectivamente 'main' = nome do título do gráfico 'col' = cor da barra (do gráfico), ou de linhas e símbolos plotados UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 42 Tipo de Defeito fi fri Fi Fri Adesão entre faces 43 25,3% 43 25,3% Espessura menor 35 20,6% 78 45,9% Opacidade 35 20,6% 113 66,5% Largura incompleta 27 15,9% 140 82,4% Espessura maior 14 8,2% 154 90,6% Grumos 8 4,7% 162 95,3% Micro furos 8 4,7% 170 100,0% Total 170 100,0% - - UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 43 2.2.3 Medidas de posição ou tendência central de uma distribuição de frequências 2.2.3.1 Média Aritmética para uma distribuição de frequência A média aritmética de uma distribuição de frequências por pontos ou valores (dados discretos) ou por classes ou intervalos (dados contínuos) é dada por: ( ) n xfxfxf n xf X nn i ni i ⋅++⋅+⋅ = ⋅ = ∑ = ...22111__ Exemplo1: Cálculo da média do número de irmãos dos alunos da disciplina de CEQ. Classe Número de irmãos (xi) fi fixi 1 0 7 0 2 1 21 21 3 2 8 16 4 3 5 15 5 4 4 16 6 5 3 15 7 6 2 12 TOTAL 50 95 90,1 50 951__ == ⋅ = ∑ = n xf X n i ii irmãos Ou seja, o número médio de irmãos dos alunos da disciplina de CEQ é 1,90. Exemplo2: Cálculo da média de tempo que os operadores executam uma determinada tarefa. Classe Tempo (min.) fi Ponto médio da classe (xi) fixi 1 3 ---| 5 4 4 16 2 5 ---| 7 15 6 90 3 7 ---| 9 18 8 144 4 9 ---| 11 4 10 40 5 11 ---| 13 2 12 24 6 13 ---| 15 0 14 0 7 15 ---| 17 2 16 32 TOTAL 45 346 7,7 45 3461__ == ⋅ = ∑ = n xf X n i ii minutos Ou seja, o tempo médio que os operadores executam uma determinada tarefa é 7,7 minutos. 2.2.4 Medidas de variabilidade ou dispersão de uma distribuição de frequências 2.2.4.1 Variância UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 44 2__ 1 2 2 1 X n xf s n i ii − − ⋅ = ∑ = 2.2.4.2 Desvio padrão O desvio padrão é determinado extraindo-se a raiz quadrada da variância. 2__ 1 2 1 X n xf s n i ii − − ⋅ = ∑ = Exemplo1: Para o exemplo do número de irmãos dos alunos da disciplina de CEQ. Classe Número de irmãos (xi) xi2 fixi2 1 0 0 0 2 1 1 21 3 2 4 32 4 3 9 45 5 4 16 64 6 5 25 75 7 6 36 72 TOTAL 309 64,190,1 150 309 1 2 2__ 1 2 =− − =− − ⋅ = ∑ = X n xf s n i ii Exemplo2: No caso do tempo de execução de uma determinada tarefa pelos operadores. Classe Tempo (min.) fi Ponto médio da classe (xi) xi2 fixi2 1 3 ---| 5 4 4 16 64 2 5 ---| 7 15 6 36 540 3 7 ---| 9 18 8 64 1152 4 9 ---| 11 4 10 100 400 5 11 ---| 13 2 12 144 288 6 13 ---| 15 0 14 196 0 7 15 ---| 17 2 16 256 512 TOTAL 45 2956 81,27,7 145 2956 1 2 2__ 1 2 =− − =− − ⋅ = ∑ = X n xf s n i ii UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 45 2.3 GRÁFICOS Técnicas gráficas são geralmente utilizadas, em vez de tabelas, para descrever um conjunto de dados através de um "desenho". Um gráfico estatístico é uma forma de apresentação dos dados estatísticos, cujo objetivo é o de reproduzir, no investigador ou no público em geral, uma impressão mais rápida e viva do fenômeno em estudo. 2.3.1 Gráfico de Setores (Gráfico de Pizza) O gráfico de setores, também conhecido como gráfico pizza, torta, queijo ou bolacha é um dos mais simples recursos gráficos, sua construção é baseada no fato de que o círculo possui 360º, sendo que este círculo é dividido em fatias de acordo com o percentual em cada categoria. É um gráfico útil para representar variáveis nominais ou apresentadas em categorias de respostas. Recomendação: Variáveis Qualitativas. Restrição: A variável a ser representada dever ter poucas categorias de respostas (poucas fatias no gráfico) e bão dever ser utilizado para representar Variáveis Quantitativas. Exemplo: Use um gráfico de setores (gráfico de pizza) para representar os dados abaixo. Os dados representam o orçamento da NASA de 2007 (em milhões de dólares) dividido em três categorias. freq. simples freq. relativa (%) Ciência, aeronáutica e exploração 10.651 63,4 Capacidade de exploração 6.108 36,4 Inspeção geral 34 0,2 Total 16.793 100,0 Solução: Comece encontrando a frequência relativa (%), ou porcentagem, de cada categoria. Então, construa um gráfico de pizza. Feminino 33,3% Masculino 66,7% UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 46 63,4% Ciência, aeronáutica e exploração 36,4% Capacidade de exploração 0,2% Inspeção geral Orçamento da Nasa em 2007 Conclusão: No gráfico de pizza podemos observar que o orçamento da NASA de 2007 predominou para ciência, aeronáutica e exploração (63,4%). Exercício: O número de ocupantes de veículos motorizados mortos em acidentes em 2005 é mostrado na tabela abaixo. Use um gráfico de pizza para organizar os dados. O que podemos concluir? Tipo de veículo Número de Mortos Carros 18.440 Caminhões 13.778 Motocicletas 4.553 Outros 823 2.3.2 Gráfico de Colunas O gráfico de colunas é um dos gráficos mais utilizados para representar um conjunto de dados, sendo a representação de uma série de dados através de retângulos dispostos verticalmente. A altura destes retângulos é proporcional às suas respectivas frequências. Este gráfico pode ser utilizado para representar qualquer tipo de variável em qualquer nível de mensuração por este fato é um recurso extremamente utilizado em pesquisas. Recomendação: para todos os tipos de variáveis (qualitativas e quantitativas). Recomendação: para todos os tipos de Variáveis. ESTADO CIVIL 40 30 10 20 0 5 10 15 20 25 30 35 40 45 Solteiro (a) Casado (a) Viúvo (a) Separado/Divorciado (a) Estado Civil % UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 47 Exemplo: Realizou-se um estudo para determinar quantas pessoas conseguiam emprego. A tabela abaixo lista dados de 400 sujeitos selecionados aleatoriamente. Os dados se baseiam em resultados do National Center for Career Strategies (Centro Nacional para Estratégias de Carreira). Construa um gráfico de colunas. Se alguém quisesse conseguir um emprego, qual abordagem pareceria mais eficaz? Fontes de emprego de respondentes de pesquisa freq. simples freq. relativa (%) Anúncios "Precisa-se de" 56 14,0 Firmas de busca de executivos 44 11,0 Rede de amigos 280 70,0 Correspondência em série 20 5,0 Total 400 100,0 Solução: Utilizando as frequências relativas para os eixos verticais, podemos construir o gráfico de colunas. 14,0 11,0 70,0 5,0 0,0 10,0 20,0 30,0 40,0 50,0 60,0 70,0 80,0 Anúncios "Precisa- se de " Firmas de busca de executivos Rede de amigos Correspondência em série Fontes de emprego Conclusão: Verifica-se que a maior fonte de emprego é a rede de amigos (70%). Exercício: A cada ano, o Better Business Bureau (BBB) recebe reclamações de clientes. Nos anos mais recentes, o BBB recebeu as seguintes reclamações: Reclamações freq. simples Reclamações sobre lojas de móveis 7.792 Reclamações sobre lojas de informática e serviços 5.733 Reclamações sobre concessionárias de automóveis 14.668 Reclamações sobre mecânicas de automóveis 9.728 Reclamações sobe empresas de lavagem a seco 4.649 Use um gráfico de colunas para organizar os dados. Que fonte é a maior causa de reclamações? UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 48 a) Encontre a frequência relativa (%) para cada tipo de reclamação. b) Interprete os resultados no contexto dos dados. 2.3.3 Gráfico de Barras O gráfico de barras é uma representação de uma série de dados através de retângulos dispostos horizontalmente. Os comprimentos destes retângulos são proporcionais às suas respectivas frequências. Este gráfico é semelhante ao gráfico de colunas, contudo, a posição da escalae da frequência é trocada, ou seja, na linha horizontal temos a frequência de casos observados e na linha vertical temos a variável de estudo. Recomendação: para todos os tipos de variáveis (qualitativas e quantitativas). Exemplo: Recentemente, a indústria de varejo perdeu 41 milhões com redução nos estoques. A redução de estoque é uma perda de estoque por meio de quebra, roubo de carga, roubo em lojas e assim por diante. As causas da redução de estoque são erro administrativo (7,8 milhões), roubos por funcionários (15,6 milhões), roubo em lojas (14,7 milhões) e fraudes nas vendas (2,9 milhões). Se você fosse um varejista, para qual causa de redução de estoques você olharia primeiro? Solução: Usando as frequências relativas para os eixos horizontais, podemos construir o gráfico de barras. Causas para redução de estoques freq. simples freq. relativa (%) Roubo por funcionários 15,6 38,0 Roubos em lojas 14,7 35,9 Erro administrativo 7,8 19,0 Fraudes nas vendas 2,9 7,1 Total 41,0 100,0 Qual o seu esporte preferido 27 43 15 7 5 3 0 10 20 30 40 50 Natação Futebol Volei Tênis Basquete Ciclismo E s p o rt e % UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 49 7,1 19,0 35,9 38,0 0,0 20,0 40,0 60,0 80,0 100,0 Fraudes nas vendas Erro administrativo Roubos em lojas Roubo por funcionários Causas para redução de estoques % Conclusão: No gráfico, é fácil verificar que as causas da redução de estoque que devem ser analisadas primeiramente são roubo por funcionários (38%) e roubo em lojas (35,9%). Exercício: Use um gráfico de barras para representar os dados a seguir. Os dados são o resultado de um estudo realizado mundialmente em 2005 com todas as companhias aéreas sobre as causas dos atrasos na entrega das bagagens. Manejamento errado na transferência de bagagens 61% Erro de carga / descarga 4% Falha no carregamento no aeroporto de origem 15% Restrição de espaço ou peso 5% Manejamento errado na chegada 3% Outros 12% UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 50 2.3.4 Gráfico de Linhas / Gráfico Sequencial / Gráfico de Tendência O Gráfico de Linhas / Sequencial / Tendência utiliza uma linha para representar uma série temporal estatística. Seu principal objetivo é evidenciar a tendência ou a forma como o fenômeno está crescendo ou decrescendo através de um período de tempo. Seu traçado deve ser realizado considerando o eixo "x" (horizontal) a escala de tempo e o eixo "y" (vertical) frequência observada dos valores. Recomendação: Variáveis Quantitativas em que se tenha interesse em acompanhar sua evolução. Restrição: Não dever ser utilizado para representar Variáveis Qualitativas. Exemplo: A tabela abaixo lista o número de usuários de telefonia celular (em milhões) e conta média de um usuário local por serviço (em dólares) para o ano 1995 até o ano de 2005. Construa um gráfico de linha (série temporal) para o número de usuários de celulares. O que você pode concluir? Ano Usuários (em milhões) Conta média (em dólares) 1995 33,8 51,00 1996 44,0 47,7 1997 55,3 42,78 1998 69,2 39,43 1999 86,0 41,24 2000 109,5 45,27 2001 128,4 47,37 2002 140,8 48,40 2003 158,7 49,91 2004 182,1 50,64 2005 207,9 49,98 Número de alunos matriculados 300 350 400 450 500 550 600 650 700 Ano 1998 Ano 1999 Ano 2000 Ano 2001 Ano 2002 Ano 2003 Ano 2004 Ano 2005 Ano 2006 UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 51 Solução: Deixe o eixo horizontal representar os anos e o vertical representar o número de usuários (em milhões). Então, represente os dados emparelhados e conecte-os com segmentos de linha. 0 50 100 150 200 250 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 Usuários de telefonia celular U s u á ri o s ( e m m ilh õ e s ) Conclusão: O gráfico mostra que o número de usuários tem aumentando desde 1995, com os maiores aumentos tendo ocorrido recentemente. Exercício: Use os dados da tabela do exemplo acima para construir um gráfico de linha para a média da conta de celular de um usuário local para os anos de 1995 a 2005. O que podemos concluir? a) Classifique os eixos horizontal e vertical. b) Represente graficamente os dados emparelhados e conecte-os com os segmentos de linha. c) Descreva quaisquer padrões. UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 52 ATIVIDADE: Vamos trabalhar agora com um banco de dados referente a uma pesquisa fictícia. Para esta pesquisa algumas variáveis foram coletadas e precisam de uma formatação mais adequada para a apresentação dos resultados. 1º) Classifique as variáveis pesquisadas. 2º) Construa uma tabela de frequência para cada variável pesquisada e plote gráficos que julgares adequados. Interprete. Banco de dados: Pesquisa sobre Operadora de TV a cabo Nome Idade Sexo Possui TV a Cabo Qual operadora? Nota de Satisfação com a Operadora (0 a 10) Márcia 24 F Não - - Pedro 35 M Sim NET 6 José 21 M Não - - Maria 19 F Sim NET 8 Valéria 18 F Não - - Marcos 36 M Sim SKY 9 Marcelo 42 M Sim NET 8 Cíntia 45 F Sim NET 8 Alessandra 26 F Não - - André 33 M Sim NET 6 Luiz 25 M Sim SKY 7 Martha 21 F Não - - Miguel 36 M Sim SKY 5 Mateus 42 M Sim NET 9 Juliana 45 F Sim NET 5 UNIVERSIDADE DO VALE DO RIO DOS SINOS Escola Politécnica CEQ – Profª Karla Faccio 53 EXERCÍCIOS (ESTATÍSTICA DESCRITIVA): 1. (2015/2) Os tempos de espera (em minutos) de clientes do Banco A (onde os clientes esperam em fila única) e do Banco B (onde os clientes esperam em filas individuais para três caixas diferentes) estão listados abaixo. Tempo de espera (em minutos) por Banco Banco A 6,1 6,4 6,4 7,3 7,6 6,4 Banco B 5,2 5,2 6,5 5,5 6,4 5,4 a) Calcule o tempo de espera médio para os clientes do Banco A e do Banco B. b) Calcule o desvio padrão do tempo de espera para os clientes do Banco A e do Banco B. c) Calcule o tempo de espera mediano para os clientes do Banco A e do Banco B. d) Qual banco apresenta o tempo de espera com maior variabilidade? Justifique com cálculo. 2. Um concurso realizado simultaneamente nos locais A, B e C, apresentou as médias: 70, 65 e 45, obtidos por 30, 40 e 30 candidatos, nessa ordem. Qual foi a média geral do concurso? 3. Uma pesquisa levantou os dados sobre o mercado imobiliário de determinado centro urbano, do ano 1990 a 1997, e os valores obtidos sobre o número de lançamentos (em mil unidades) e o total em vendas (em milhões de Reais) estão dispostos abaixo: Ano 1990 1991 1992 1993 1994 1995 1996 1997 Lançamentos 14,6 12,8 10,2 21,7 24,9 26,6 31,0 38,8 Vendas 5,1 4,0 4,5 10,1 12,6 9,7 10,2 11,7 a) Quem são as variáveis desse estudo? Quem é a amostra estudada? b) Calcule e interprete a média a mediana e a moda. 4. Os dados abaixo representam o número de crianças nascidas vivas, no 1º semestre do ano de 1994, segundo os dados colhidos pelo IBGE:
Compartilhar