Baixe o app para aproveitar ainda mais
Prévia do material em texto
Universidade Estadual do Oeste do Paraná Campus de Foz do Iguaçu Centro de Ciências Sociais Aplicadas Curso de Ciências Contábeis ESTATÍSTICA DESCRITIVA Carlos dos Santos Foz do Iguaçu Março/2018 1 Sumário 1 Introdução à compreensão da Estatística .................................................................................... 2 2 Variáveis Estatísticas ........................................................................................................................ 3 3 Estatística descritiva ......................................................................................................................... 6 3.1 Representação tabular ................................................................................................................... 6 3.2 Tabelas de frequências de dados não agrupados em classes ......................................... 7 3.3 Tabelas de frequências de variáveis qualitativas ............................................................... 9 3.4 Tabelas de frequências de dados agrupados em classes .............................................. 12 3.5 Sequência de exercícios nº 2 ............................................................................................ 16 4 Representação gráfica .................................................................................................................... 17 4.1 Gráfico de pontos................................................................................................................ 17 4.2 Histograma ......................................................................................................................... 19 4.3 Polígono de frequências..................................................................................................... 20 4.4 Gráfico de Barras ................................................................................................................ 21 4.5 Gráfico de setores .............................................................................................................. 23 4.6 Gráfico de linhas ................................................................................................................. 24 4.7 Sequência de exercícios nº 3 ............................................................................................ 26 5 Medidas de tendência central ........................................................................................................ 28 5.1 Média Aritmética simples ................................................................................................... 28 5.2 Média aritmética ponderada .............................................................................................. 29 5.3 Média aritmética de dados tabulados................................................................................ 29 5.4 Mediana ............................................................................................................................... 31 5.5 Moda (Mo) ........................................................................................................................... 34 5.6 Sequência de exercícios nº 4 ............................................................................................ 36 6 Medidas Separatrizes ...................................................................................................................... 37 6.1 Quartis(Q) ............................................................................................................................ 37 6.2 Sequência de exercícios nº 5.........................................................................................................41 7 Medidas de dispersão ..................................................................................................................... 42 7.1 Variância e desvio padrão .................................................................................................. 43 7.2. Coeficiente de variação ..................................................................................................... 47 7.3 Sequência de exercícios nº 6..........................................................................................................48 8. Medidas de Assimetria e Curtose ................................................................................................ 48 8.1 Medidas de Assimetria ....................................................................................................... 49 8.2 Curtose ................................................................................................................................ 51 8.3 Sequência de exercícios nº 7 ............................................................................................ 55 2 1 Introdução à compreensão da Estatística A estatística é uma ciência formada por diversos métodos aplicados a vários ramos do conhecimento humano para a obtenção e utilização de informações que possibilitam a tomada de decisão em determinada situação prática. Dentro de uma empresa, frequentemente, os profissionais estão tomando decisões, quase todas importantes, essenciais para o sucesso dos negócios, por isso a necessidade de dados estatísticos com informações corretas, que contribuam para uma boa tomada de decisão. O profissional contábil usa registros e fatos ocorridos dentro da empresa e organiza-os em dados numéricos para mostrar a real situação econômico financeira da mesma. A contabilidade não é uma ciência exata, ela é uma ciência social, pois é a ação humana que gera e modifica o fenômeno patrimonial, porém, utiliza os métodos quantitativos, ou seja, matemática e estatística como principal ferramenta. A contabilometria pode ser vista como uma forma de prever resultados amparados em demonstrações financeiras, através de cálculos matemáticos e estatísticos, utilizando recursos computacionais. Compreende-se, então que, a contabilidade somada à estatística, à matemática e à computação, resulta na contabilometria. Dois termos bastante utilizados em estatística são população e amostra: População: É o grupo alvo de estudo, o qual tem uma ou mais características em comum. Amostra: É um subconjunto ou uma parte da população. Por exemplo, um auditor quer verificar faturas de uma empresa de vendas, porém, o mesmo dispõe de 10000 faturas (população) e não tem tempo para verificar todas. Então, ele coleta sistematicamente 50 faturas (amostra) e obtém as informações necessárias. Quando a quantidade de documentos dentro da empresa é muito grande, para que a auditoria possa ser feita, é necessário utilizar uma parte representativa desse material. Esta representatividade só é conseguida através da metodologia de dimensionamento de amostras e das técnicas estatísticas de amostragem, as quais correspondem a uma parte deste curso. Geralmente surge a seguinte pergunta: Porque utilizar os métodos estatísticos? Dentre as razões para o profissional da contabilidade aprender estatística temos: O contador deve saber como apresentar e descrever informações de forma adequada. Isso é possível por meio de gráficos e tabelas. O contador deve saber como tirar conclusões a partir de grandes populações com base somente na informação obtida de amostras. Isso é possível através das técnicas de amostragem. 3 O contador deve saber como melhorar os processos de prestação de serviços. Isso é possível se forem feitas pesquisas periódicas de satisfação do cliente. O contador precisa saber como obter predições e (ou) previsões confiáveis a partir de variáveis de interesse. Isso é possível por meio de modelagem, ou seja,da análise de regressão e da análise de séries temporais. Pode-se dizer que toda a ciência que manipula dados experimentais necessita da estatística como método de análise, para que o pesquisador possa tirar conclusões que tenham validade científica. Neste curso serão desenvolvidos os seguintes tópicos de estatística; Estatística descritiva, probabilidade, amostragem e inferência estatística (testes de hipótese e estimação), correlação e análise de regressão linear. O estudo de amostragem possibilitará o conhecimento das principais técnicas de obtenção de amostras bem como o seu dimensionamento. O estudo de probabilidades será necessário para que possam ser desenvolvidos os principais métodos de inferência estatística. A probabilidade servirá como base para o estudo da inferência estatística. A inferência estatística vai possibilitar a tomada de decisão acerca de populações tomando como base, amostras. A correlação estuda o grau associação entre duas ou mais variáveis e a análise de regressão linear propõe uma equação linear para predizer valores de uma variável dependente (Y) em função de uma ou mais variáveis preditoras (X1, X2, . . .Xk). Essa metodologia é utilizada em contabilometria. 2 Variáveis Estatísticas As características que descrevem a população são chamadas variáveis. Variável Característica pela qual deseja-se que a população seja descrita, ou por meio da qual, decisões acerca da população são tomadas. Por exemplo: altura de alunos, comprimento peças, preferência do eleitor, etc. Na descrição ou análise de um conjunto de dados estatísticos, é possível associar certos tipos de variáveis, pois o tratamento matemático exigido e o método estatístico empregado dependerão do tipo de variável em estudo. Podem ser considerados dois tipos de variáveis, as 4 qualitativas e as quantitativas. As qualitativas podem ser nominais ou ordinais, enquanto que as quantitativas podem ser discretas ou contínuas, como mostra o esquema a seguir: contínuas discretas vasquantitati ordinais nominais asqualitativ variáveisdeTipos Variáveis qualitativas As variáveis qualitativas estão associadas a uma característica que denota qualidade ou atributo, sendo que as qualitativas nominais não seguem uma ordem pré-definida. São exemplos de variáveis qualitativas nominais: Cor dos olhos dos operários de certa indústria (azuis, castanhos, verdes, etc.), Desempenho dos operários (ótimo, bom, regular, péssimo, etc.), Qualidade de produtos (defeituosos, perfeitos, recuperáveis, etc.). Já, as qualitativas ordinais seguem uma determinada ordem pré-definida. São exemplos de variáveis qualitativas ordinais: Grau de escolaridade (1o grau, 2o grau, 3o grau, etc.), Patente militar (soldado, cabo, sargento, subtenente, tenente), Porte da empresa (grande, médio, pequeno, micro). Variáveis quantitativas As variáveis quantitativas estão associadas a valores numéricos, podendo ser discretas ou contínuas. Uma variável é dita quantitativa discreta quando o número de valores for finito ou infinito enumerável. Geralmente as variáveis quantitativas discretas referem-se às contagens. São exemplos de variáveis quantitativas discretas: Número de peças produzidas com defeito, por lote. Número de não conformidade, por departamento, de uma empresa. Número de acidentes ocorridos, por mês, em um cruzamento. 5 A variável quantitativa contínua é aquela que pode, ao menos teoricamente, assumir qualquer valor entre dois valores possíveis. Geralmente, as variáveis contínuas referem-se às medições. Alguns exemplos de variáveis quantitativas contínuas são: Comprimentos de parafusos fabricados por certa máquina. Tempos gastos pelos operários para realizar certa tarefa. Salários, em reais, de funcionário de um escritório de contabilidade. 2.1 Sequência de exercícios nº 1 01. Dê a definição de estatística e de estatística descritiva 02. A estatística pode ser utilizada na área de contabilidade de que formas? 03. O que é contabilometria? 04. Defina população e amostra. 05. Classificar cada uma das seguintes variáveis (qualitativa nominal, qualitativa ordinal, quantitativa discreta ou contínua): a) População: Válvulas fabricadas por certa indústria Variável: número de válvulas defeituosas em cada lote de 100 válvulas. b) População: cabos fabricados por certa companhia; Variável: número de cabos defeituosos em cada lote de 100 cabos c) População: Cursos de matemática de nível superior Variável: colocação no último provão do MEC. d) População: Televisão de certa marca Variável: opinião dos compradores acerca da qualidade e) População: Cultivar de Milho A Variável: número de espigas produzidas por planta Variável: altura da planta f) População: Bois da raça Nelore. Variável: Peso de abate 6 3 Estatística descritiva Definições de Estatística descritiva Definição 1: A estatística descritiva é uma função cujo valor numérico descreve, por si só, determinada característica de um conjunto de dados, reduzindo-o a proporções mais facilmente interpretáveis. Dentre essas funções temos a média amostral, o desvio padrão amostral, a proporção amostral, etc. Definição 2: A estatística descritiva pode ser interpretada como a observação de fenômenos de mesma natureza, coleta de dados numéricos referentes a esses fenômenos, organização, classificação, apresentação e interpretação desses dados por meio de gráficos e tabelas. 3.1 Representação tabular Quando um conjunto de observações de certo fenômeno não está devidamente organizado, são chamados de dados brutos, fornecendo poucas informações de interesse ao pesquisador, assim torna-se necessário representa-los por meio de tabelas de distribuição frequências. Frequência é uma medida que quantifica a ocorrência de um valor ou categoria de uma variável Distribuição de frequência consiste em uma função que associa os valores que uma variável assume com suas respectivas frequências de ocorrência. Assim, a representação tabular consiste em dispor a distribuição de frequências das categorias ou valores da variável em tabelas. Uma tabela pode apresentar e caracterizar os seguintes tipos de frequências: relativa absoluta acumulada relativa absoluta simples Frequência Geralmente uma tabela é formada pelos seguintes componentes: Título, cabeçalho, coluna indicadora, Corpo, Linha de totais e Rodapé, como mostra a figura 3.1. 7 O título deve conter as informações relativas ao conteúdo da tabela, ou seja, a(s) variável(is) dispostas, podendo ainda conter o local de coleta dos dados, e quando foi realizado o estudo. O cabeçalho especifica as variáveis e a frequência (ou outra característica) correspondente aos seus valores. O corpo é representado por uma série de colunas e subcolunas, dentro das quais são colocadas as frequências simples e acumuladas. No rodapé são colocadas a legenda e todas as observações que venham a esclarecer as informações da tabela. De um modo geral aí também é disposta a fonte dos dados, ou seja, a instituição ou o autor que fornece as informações, bem como o ano, embora em alguns casos ela seja colocada no título. Segundo as regras da ABNT, as laterais da tabela não devem haver traços nas partes esquerda e direita da tabela e não devem haver traços horizontais separando as linhas interiores da tabela. Figura 3.1 - Componentes de uma tabela Mais detalhes sobre normas de tabelas deverão ser consultadas na NBR 14724:2011 subitem 5.9, que por sua vez, remete as normas de apresentação tabular do Instituto Brasileiro de Geografia e Estatística – IBGE (1993), as quais podem ser encontradas no seguinte site: http://biblioteca.ibge.gov.br/visualizacao/livros/liv23907.pdf3.2 Tabelas de frequências de dados não agrupados em classes Classes são intervalos numéricos que representam os valores de uma variável Nas tabelas com dados não-agrupados em classes, os valores são da primeira coluna são individuais. Esse tipo de tabela é utilizado quando a variável em estudo é quantitativa discreta e não possui mais dez valores individuais. http://loja.ibge.gov.br/informacoes-gerais/normas/normas-de-apresentac-o-tabular-3-edic-o.html http://www.ibge.gov.br/home/ http://www.ibge.gov.br/home/ 8 Exemplo Considere a variável que representa o número de declarações de imposto de renda realizadas, por dia, por um escritório de contabilidade, num total de 50 dias. Os dados coletados foram: 5 3 2 1 4 5 5 6 7 4 6 5 4 5 3 6 7 7 5 5 4 6 6 4 2 3 0 5 6 3 8 4 4 4 3 0 1 3 2 4 1 4 5 4 6 2 5 6 4 3 a) Qual é a variável em estudo e a sua classificação? A variável em estudo é “número de declarações de imposto de renda realizadas por dia” e, como trata-se de contagem, é classificada como “variável quantitativa discreta”. b) Qual é o tipo de tabela mais adequado para representar a distribuição de frequências dos dados? Justifique a sua resposta. A tabela com dados não agrupados em classes é o tipo mais adequado, pois a variável “número de declarações de imposto de renda feitas por dia” é classificada como “variável quantitativa discreta” e não possui mais de dez valores individuais, isto é, são nove valores (de 0 a 8). c) Construa uma tabela para os dados, com todos os tipos de frequências. Tabela 1.1 Distribuição de frequências do número de declarações de imposto de renda realizadas por um escritório de contabilidade, por dia, num total de 50 dias, em 2017. Número de declarações de imposto de renda realizadas por dia Frequência (Número de dias) Porcentagem Frequência Acumulada Porcentagem Acumulada 0 2 (2/50)*100 = 4 2 4 1 3 (3/50)*100 = 6 2+3=5 4+6=10 2 4 (4/50)*100 = 8 5+4=9 10+8=18 3 7 (7/50)*100 = 14 9+7=16 18+14=32 4 12 (12/50)*100 = 24 16+12=28 32+24=56 5 10 (10/50)*100 = 20 28+10=38 56+20=76 6 8 (8/50)*100 = 16 38+8=46 76+16=92 7 3 (3/50)*100 = 6 46+3=49 92+6=98 8 1 (1/50)*100 = 2 49+1=50 98+2=100 Total 50 100 Fonte: dados fictícios 9 d) Interprete a tabela Observação: quando uma tabela é interpretada, não é necessário realiza-la para todas as informações. Apenas interpretam-se as informações mais relevantes as quais, em geral, são as de maior frequência e aquelas onde as frequências acumuladas ultrapassam os 50%, isto é, representam a maioria. No exemplo em questão, observa-se que, de um total de 50 dias, em 12, o equivalente a 24%, sendo essa a maior porcentagem, houve quatro declarações realizadas por dia. Nota-se, também que, em 10 dias, ou seja, 20% do total, sendo esta a segunda maior porcentagem, houve 5 declarações realizadas por dia. O maior número de declarações realizadas por dia foi oito, um número baixo. Houve dois dias em que nenhuma declaração foi realizada. Por fim, percebe-se que, em 28 dias, o equivalente a 56%(mais da metade dos dias), foram feitas 4 declarações ou menos. Haja vista que, a época de declaração de imposto de renda é período em que os escritórios de contabilidade ganham mais dinheiro, a gestão do mesmo deverá procurar meio (marketing, treinamento, agilidade, etc.) para melhorar seu desempenho. 3.3 Tabelas de frequências de variáveis qualitativas As tabelas de variáveis qualitativas podem ser de entrada simples, de dupla entrada, e de múltipla entrada. A cada entrada corresponde uma linha (ou coluna) de totais. Nesse tipo de tabela, as categorias devem ser organizadas, de forma que haja uma ordem decrescente de frequências. Exemplo: Suponha que a gerência de uma empresa, a fim de realizar atividades de integração, resolveu realizar uma pesquisa sobre a preferência esportiva de seus funcionários. Após a coleta dos dados, foram utilizados os seguintes códigos para facilitar a digitação: 1 para futebol, 2 para vôlei, 3 para basquete e 4 para Handebol. Os dados coletados foram: 1 3 4 4 2 3 2 3 2 2 1 1 1 1 2 2 1 1 3 1 2 1 3 1 2 2 2 3 2 3 1 3 2 1 2 3 2 3 2 1 1 2 1 1 2 1 3 4 2 2 1 2 1 3 2 3 1 1 3 2 2 1 1 3 2 1 1 3 1 1 2 3 4 4 1 1 3 2 3 1 10 4 3 4 3 2 1 1 4 1 1 1 1 3 1 2 2 1 1 3 2 2 1 3 2 a) Qual é a variável em estudo e a sua classificação? A variável em estudo é “Preferência esportiva de funcionários de uma empresa” e é classificada como variável qualitativa nominal. b) Construa uma tabela com todos os tipos de frequências. Tabela 2 – Preferência esportiva dos Funcionários da empresa A. Preferência esportiva Número de Funcionários Porcentagem Número de funcionários Porcentagem Futebol 40 (40/104)*100 = 38,46 0 + 40 = 40 0 + 38,46 = 38,46 Vôlei 32 (32/104)*100 = 30,77 40+ 32 = 72 38.46 + 30,77 = 69,23 Basquete 24 (24/104)*100 = 23,08 72 + 24 =96 60,23 + 23,08 = 92,31 Handebol 8 (8/104)*100 = 7,69 96 + 8 = 104 92,31 + 7,69 = 100,00 TOTAL 104 100 Fonte: dados fictícios c) Interprete os resultados da tabela. Percebe-se que a preferência esportiva de maior frequência foi a do futebol com 40 de 104 funcionários, o equivalente a 38,46%. Nota-se que o vôlei foi o segundo esporte preferido, com 32 funcionários, o equivalente a 30,77%. Observa-se, ainda, que, o futebol e o vôlei somaram juntos 72 funcionários, o equivalente a 69,23% do total, ou seja, a maioria. O basquete foi o terceiro esporte preferido, com 24 funcionários ou 7,69%. Então, é possível realizar um torneio de futebol, um de vôlei e outro de basquete. É comum, no entanto, a necessidade de apresentar, numa só tabela, mais do que uma característica em estudo. Assim, torna-se necessário o uso de tabelas de dupla entrada. Exemplo Para detalhar melhor a pesquisa da empresa do exemplo anterior, além da preferência esportiva (X1), sendo 1 para futebol, 2 para vôlei, 3 para basquete e 4 para Handebol, também feito o levantamento do gênero (X2), sendo 1 para masculino e 2 para o feminino, como mostram os dados a seguir. Observação: Haja vista que, estão sendo estudadas duas variáveis simultaneamente, na prática, os dados deveriam ser digitados em duas colunas de uma planilha, ou seja, uma coluna 11 para cada variável. No Excel teríamos os resultados da variável “modalidade esportiva”, por exemplo, na coluna “A” e os dados da variável “gênero” na coluna “B”. Porém, devido à falta de espaço na página, os dados foram digitados em 16 colunas, isto é, oito colunas para cada variável. X1 X2 X1 X2 X1 X2 X1 X2 X1 X2 X1 X2 X1 X2 X1 X2 1 1 3 2 4 2 4 2 2 2 3 2 2 2 3 1 2 1 2 2 1 1 1 2 1 1 1 1 2 2 2 2 1 1 1 1 3 1 1 1 2 2 1 1 3 1 1 1 2 1 2 1 2 2 3 2 2 1 3 1 1 1 3 2 2 1 1 1 2 1 3 1 2 2 3 1 2 1 1 1 1 1 2 2 1 2 1 2 2 2 1 1 3 1 4 2 2 1 2 1 1 1 2 1 1 2 3 2 2 2 3 1 3 2 1 1 3 2 2 2 2 2 1 2 1 1 3 1 2 2 1 1 1 1 3 1 1 1 1 2 2 2 3 1 4 1 4 2 1 2 1 1 3 2 2 2 3 2 1 1 4 1 3 1 4 2 3 2 2 2 1 1 1 1 4 2 1 1 1 2 1 2 1 1 3 1 1 1 2 2 2 2 1 2 1 1 1 1 2 1 2 1 1 1 3 1 2 2 a) Construa uma tabela de dupla entrada, envolvendo as variáveis “preferência esportiva” e “gênero“. Observação: O objetivo neste exemplo é comparar os gêneros masculino e feminino para cada modalidade esportiva, separadamente. Logo, a soma das porcentagens dos gêneros masculino e feminino deve ser de 100% dentro de cada modalidade esportiva. Por uma questão de estética, colocaremos as categorias da variável “modalidade esportiva” nas linhas, porque é a que apresenta o maior número de categorias, ou seja, são quatro (futebol, vôlei, basquete e handebol). Já, as categorias da variável “gênero”, ou seja, masculino e feminino, serão colocadas nas colunas, pois o número e categorias é menor. Tabela 3 - Preferência esportiva dos funcionários da empresa A, segundo o sexo. Preferênciaesportiva Gênero Total Masculino Feminino Nº de funcionários Porcentagem Nº de funcionários Porcentagem Futebol 30 75,0 10 25,0 40 Vôlei 12 37,5 20 62,5 32 Basquete 14 58,3 10 41,7 24 Handebol 2 25,0 6 75,0 8 Total 58 46 104 12 Fonte: Dados Fictícios b) faça a interpretação da tabela Observação: Percebe-se que o número total de homens é diferente do número total de mulheres, isto é, e 58 e 46, respectivamente. Portanto, não é possível fazer uma comparação entre homens e mulheres diretamente pela frequência Absoluta. Por outro lado, esta comparação pode ser feita por meio das porcentagens e aí está a grande utilidade desse tipo de medida. Observa-se que, dos funcionários que preferem futebol, 75% são homens e 25% são mulheres, ou seja, a maioria é do sexo masculino. Daqueles funcionários que preferem o vôlei, 37,5% são do sexo masculino e 62,5% são do sexo feminino, então maioria é do sexo feminino. No basquete, 58,3% são homens e 41,7% são mulheres, isto é, a maioria é do gênero masculino. No handebol, o número de funcionários é insuficiente. Mas olhando para as frequências absolutas, nota-se que, do total de 40 funcionários que preferem futebol, 30 são homens e 10 são mulheres, portanto, é possível organizar um torneio de futebol masculino ou misto. Observa-se, também que, 32 funcionários preferem o vôlei, desses 12 são homens e 20 são mulheres, logo, é possível realizar um torneio de vôlei feminino ou misto. Haja vista que, 24 funcionários no total preferem o vôlei, sendo 12 homens e 20 mulheres, é possível realizar um torneio misto de esporte. 3.4 Tabelas de frequências de dados agrupados em classes As tabelas com dados agrupados em classes são utilizadas quando a variável em estudo é classificada como quantitativa contínua. Porém, podem ser usadas, também, quando a variável é classifica como quantitativa discreta e, o número de valores individuais é maior do que 10. Neste último caso, o procedimento de agrupar dados individuais, em classes, visa evitar certos inconvenientes, tais como: - Grande extensão da tabela, dificultando tanto quanto os dados originais, a leitura e a interpretação dos resultados; - Aparecimento de diversos valores da variável com frequência nula. Exemplo 13 A auditoria de notas fiscais é uma função desenvolvida para ajudar na conferência de lançamentos relacionados ao valor contábil. Determinado profissional da área de contabilidade, a fim de realizar uma auditoria, anotou os valores de 49 notas fiscais emitidas por uma empresa. Os resultados, em reais, foram: 130,00 105,00 120,00 111,50 99,00 116,00 82,50 107,50 125,00 100,00 107,50 120,00 143,00 115,00 135,00 130,00 135,00 127,50 90,50 104,50 136,50 100,00 145,00 125,00 104,50 101,50 102,50 101,50 134,50 158,50 110,00 102,50 90,50 107,50 124,00 121,50 135,00 102,00 119,50 115,50 125,50 117,50 107,50 140,00 121,00 107,50 113,00 93,00 103,50 a) O primeiro passo é o de ordenar a lista de dados brutos (Rol) 82,50 101,50 104,50 110,00 119,50 125,00 135,00 90,50 101,50 105,00 111,50 120,00 125,50 135,00 90,50 102,00 107,50 113,00 120,00 127,50 136,50 93,00 102,50 107,50 115,00 121,00 130,00 140,00 99,00 102,50 107,50 115,50 121,50 130,00 143,00 100,00 103,50 107,50 116,00 124,00 134,50 145,00 100,00 104,50 107,50 117,50 125,00 135,00 158,50 b) Encontrar a amplitude total do conjunto de valores observados, a qual é dada por: At = Maior valor observado – Menor valor observado At = 158,50 – 82,50 = 76 c) Calcular o número de classes (k). Alguns autores propõem que se utilize a fórmula de Sturges, expressada por: K = 1 + 3,3*log(n) Em que n é o número total de observações. O número k de classes geralmente terá casas decimais, portanto, convém arredondá-lo para um número inteiro, usando as regras de arredondamento, de forma que a última classe inclua o maior valor observado. Apesar de 14 realizar este procedimento, podem ocorrer alguns casos em que o maior valor observado não venha a ser incluído na última classe. Então, faz-se necessário arredondar também a amplitude C do intervalo de classe. Assim, para o exemplo dado tem-se K = 1 + 3,3.log 49 k = 6,577... k = 7 Portanto, a tabela deverá ter sete classes ou intervalos. d) Determinar a amplitude do intervalo de classe, dada pela fórmula a seguir: κ Α c t No exemplo dado tem-se C = 7 76 = 10,85714285714 C = 10,86 Nesse exemplo não foi preciso aumentar a amplitude do intervalo de classe. Geralmente surge a seguinte pergunta: Quando se sabe que é preciso aumentar a amplitude C? É preciso fazer seguinte cálculo: Limite superior da última classe = menor valor +C.K Corra Limite superior da última classe = 82,5 +10,86 * 7 = 158,52 > 158,5 (máximo valor observado). Ok, então as classes da tabela já podem ser construídas. Observação: caso ocorra “(Limite superior da última classe) ≤ (máximo valor observado)”, o procedimento será o de aumentar a amplitude “C”. Repetir esse processo até que ocorra “(Limite superior da última classe) > (máximo valor observado)” e) Determinar os limites de classes. Muitos autores adotam os seguintes símbolos: I : indica inclusão na classe do valor situado à sua esquerda e exclusão do valor situado à sua direita." direita. II: indica inclusão na classe dos valores situados a sua esquerda e à direita. Adotaremos aqui, o procedimento de somar o menor valor observado à amplitude C. O resultado desta soma será somado novamente à amplitude C, e assim sucessivamente, até que 15 sejam criadas todas as classes necessárias. Neste exemplo, C = 10,86, e o menor valor o é 82,50, então, Para 82,50 + 10,86 = 93,36 Tem-se 82,50 I 93,36 Para 93,36 + 10,86 =104,22 tem-se 93,36 I 104,22 Para 104,22 + 10,86 =115,08 tem-se 104,22 I 115,08 Para 115,08 + 10,86 =125,94 tem-se 115,08 I 125,94 Para 125,94 + 10,86 =136,80 tem-se 125,94 I 136,80 Para 136,80 + 10,86 =147,66 tem-se 136,80 I 147,66 Para 147,66 + 10,86 =158,52 tem-se 147,66 I 158,52 Nota-se que a última classe 147,66 I 158,52 já inclui o maior valor observado (158,50), então não é preciso construir mais classes. O passo seguinte é o de retornar aos dados ordenados (ROL) e fazer a contagem dos valores incluídos em cada classe. Nesses dados percebe-se que os quatro primeiros valores (82.50; 90,50; 90,50 e 93) estão dentro da classe 82,50 I 93,36. Portanto, a frequência desta categoria é 4. As frequências de todas as classes estão na tabela 1.4. TABELA 4 – Distribuição de frequências dos valores de 49 notas fiscais emitidas por uma empresa. Valores das notas fiscais (R$) Número de notas fiscais Porcentagem Frequência acumulada Porcentagem acumulada 82,50 I 93,36 4 8,2 4 8,2 93,36 I 104,22 9 18,4 13 26,6 104,22 I 115,08 12 24,5 25 51,1 115,08 I 125,94 12 24,5 37 75,6 125,94 I 136,80 8 16,3 45 91,9 136,80 I 147,66 3 6,1 48 98 147,66 I 158,52 1 2,0 49 100 TOTAL 49 100 Fonte: Dados fictícios Nota-se que, das 49 notas fiscais observadas, 12 o equivalente 24,5%, apresentaram valores maiores ou iguais a R$104,22 e menores do que R$115,08. Outras 12 apresentaram valores maiores ou iguais a 115,08 e menores do que 125,94mm. Então, estas foram as duas classes com maior frequência. Se forem somadas as frequências dessas duas categorias haverá 24 notas fiscais, ou seja, quase metade das 49 observadas. No cruzamento da quarta coluna da tabela com a linha da classe 115,08 I 125,94 ocorreu o número 37, isto significa que 37 notas fiscais, o equivalente 75,5% das 49 inspecionadas, apresentaram valores iguais ou superiores a R$85,50 e inferior a R$125,94. Essas informações auxiliarão o auditor na tonada de decisão, ou seja, a de rejeitar ou não a nota fiscal. 16 3.5 Sequência de exercícios nº 2 01. Foi feitauma pesquisa com uma amostra de 80 alunos de instituições de ensino superior. Uma das variáveis em estudo foi o número de pessoas na família. O resultado foi o seguinte: 2 3 5 4 2 3 1 5 3 2 2 2 1 3 2 2 3 3 4 1 1 2 2 2 3 3 3 4 4 4 5 5 5 6 4 2 3 5 2 2 5 4 3 2 2 2 3 2 2 3 2 5 3 5 2 3 2 2 4 5 2 2 2 3 4 4 5 5 3 3 2 2 2 1 5 5 1 2 2 3 a) Qual é a variável em estudo e qual é a sua classificação? b) Qual é o tipo mais adequado de tabela para os dados? Justifique a sua reposta. c) Construa a tabela com todos os tipos de frequências. d) Interprete os principais resultados da tabela. 02 Foram inspecionadas 50 peças produzidas por uma máquina. A e a classificação foi a seguinte: P = perfeita, R = recuperável e D = defeituosa. O resultado foi o seguinte: P D P P D D P D R R P P P R R P P P R R R P D P D P R R R P P R R R P P P P R D D P P P P D D R D D a) Qual é a variável em estudo e de que tipo ela é? b) Qual é o tipo de tabela mais adequado para os dados? Justifique a sua reposta. c) Construa a tabela com todos os tipos de frequências. d) Interprete os principais resultados da tabela. 17 03. O tempo para realizar a declaração de imposto de renda foi anotado (em minutos). Foram feitas 40 declarações, os tempos foram: 45 37 39 48 51 40 53 49 39 41 45 43 45 34 45 35 41 57 38 46 46 58 57 36 58 35 31 59 44 57 45 44 38 43 33 56 47 48 44 49 a) Qual é a variável em estudo e de que tipo ela é? b) Qual é o tipo de tabela mais adequado para os dados? Justifique a sua reposta. c) Construa a tabela com todos os tipos de frequências. d) Interprete os principais resultados da tabela. 4 Representação gráfica A apresentação de dados também pode ser feita mediante gráficos. Gráfico: Diagrama ou figura para ilustração de fenômenos ou tendências, no qual existem escalas definidas As tabelas de frequência têm utilidade como instrumento de análise e de apresentação de dados estatísticos. A apresentação gráfica é um complemento das tabelas e possui uma vantagem adicional de propiciar a visualização mais rápida do comportamento da característica que está sendo estudada, bem como sua variação. Neste curso serão apresentados os principais tipos de gráficos, são eles: Gráficos de pontos, histograma, polígono de frequências, gráficos de barras (simples e compostas), gráfico de setores e gráficos de linhas (simples e compostas). 4.1 Gráfico de pontos Esse tipo de gráfico pode ser utilizado quando a variável em estudo é discreta e possui no máximo dez valores individuais, ou seja, é usado nas mesmas situações onde utiliza-se a tabela com dados não agrupados em classes. Retornando ao exemplo Número de Declarações realizadas por dia, tem-se: 18 Número de Declarações realizadas por dia Frequência (Nº de dias) 0 2 1 3 2 4 3 7 4 12 5 10 6 8 7 3 8 1 Total 50 A variável “número de declarações realizadas por dia” é quantitativa discreta e possui apenas 9 valores individuais, portanto o gráfico de pontos é o mais adequado para apresentar os dados. Fonte: Dados fictícios Figura 4.1 - Número de componentes eletrônicos defeituosos em cada lote de 500 unidades. Percebe-se de imediato na Figura 4.1, sem verificar números, que as frequências crescem até o valor 4 e depois decrescem. No exemplo em questão, observa-se que, de um total de 50 dias, em 12, sendo essa a maior frequência, houve quatro declarações realizadas por dia. Nota-se, também que, em 10 dias, sendo esta a segunda maior frequência, houve 5 declarações realizadas por dia. O maior número de declarações realizadas por dia foi oito, um número baixo. Houve dois dias em que nenhuma declaração foi realizada. Portanto, a gestão desse escritório de contabilidade deverá procurar meios (marketing, agilidade, etc.) para melhorar seu desempenho. 2 3 4 7 12 10 8 3 1 0 2 4 6 8 10 12 14 0 1 2 3 4 5 6 7 8 N ú m e ro d e d ia s Número de declarções realizadas Número de declarações realizadas por dia 19 4.2 Histograma O histograma é uma representação gráfica formada por retângulos justapostos, de base igual à amplitude do intervalo de classe (C) e altura igual à frequência simples absoluta(f) ou frequência relativa (%). Esse tipo de gráfico pode ser utilizado no caso de variáveis quantitativas contínuas. Na tabela 5 tem-se um exemplo de variável quantitativa contínua. TABELA 5 – Distribuição de frequências dos valores de 49 notas fiscais emitidas por uma empresa. Valores das notas fiscais (R$) Número de notas fiscais Porcentagem Frequência acumulada Porcentagem acumulada 82,50 I 93,36 4 8,2 4 8,2 93,36 I 104,22 9 18,4 13 26,5 104,22 I 115,08 12 24,5 25 51,0 115,08 I 125,94 12 24,5 37 75,5 125,94 I 136,80 8 16,3 45 91,8 136,80 I 147,66 3 6,1 48 98,0 147,66 I 158,52 1 2,0 49 100,0 TOTAL 49 100 Fonte: Dados fictícios Os dados das duas primeiras colunas da tabela acima estão representados na figura 4.2 Fonte: Dados fictícios Figura 4.2 – Histograma de frequências Nota-se que, das 49 notas fiscais observadas, 12 o equivalente 24,5%, apresentaram valores maiores ou iguais a R$104,22 e menores do que R$115,08. Outras 12 apresentaram valores maiores ou iguais a 115,08 e menores do que 125,94mm. Então, estas foram as duas classes com maior frequência. Se forem somadas as frequências dessas duas categorias haverá 24 notas fiscais, ou seja, quase metade das 49 observadas. Essas informações auxiliarão o auditor na tonada de decisão, ou seja, a de rejeitar ou não a nota fiscal. 4 9 12 12 8 3 1 0 2 4 6 8 10 12 14 N ú m e ro d e n o ta s f is c a is Valores(R$) Distribuição de frequências dos valores de notas fiscais fiscais 20 4.3 Polígono de frequências O polígono de frequências é obtido pelo ligamento dos pontos médios dos retângulos formados no histograma, por meio de uma linha. A área entre o eixo das abscissas e esta linha formará um polígono. Esse tipo de gráfico auxiliará na avaliação de uma importante distribuição de probabilidade, a chamada distribuição normal, a qual será mostrada em seções posteriores. O polígono de frequências construído com o auxílio do histograma apresentado anteriormente está apresentado na Figura 4.3. Fonte: Dados fictícios Figura 4.3 – Polígono de frequências O Polígono de frequências serve para estudar se a distribuição de frequências se aproxima da distribuição normal, mostrada na figura 4.4. 3210-1-2-3 0,4 0,3 0,2 0,1 0,0 X Gráfico da distribução normal Figura 4.4 – Distribuição normal Olhando para o polígono de frequências (figura 4.3), nota-se que ele tem aproximadamente a forma da distribuição normal (figura 4.4). Essa informação pode servir, por 0 2 4 6 8 10 12 14 71,64 82,5 93,36 104,22 115,08 125,94 136,8 147,66 158,52 169,38N ú m e ro d e n o ta s f is c a is Valores(R$) Distribuição de frequências dos valores de notas fiscais 21 exemplo, para o pesquisador decidir em aplicar o intervalo de confiança da média e realizar o teste de hipótese da média, utilizando a distribuição normal ou a distribuição aproximadamente normal (distribuição t de student), as quais serão estudadas no decorrer do curso. 4.4 Gráfico de Barras Os gráficos de Barras simples têm por finalidade comparar categorias de uma variável, por meio de retângulos de larguras iguais e alturas proporcionais às frequências de cada categoria. Cada barra representa uma categoria.Na construção de um gráfico de Barras devem ser seguidas algumas normas: As barras devem ter as mesmas larguras. As barras devem ser separadas pelo mesmo espaço. O gráfico deverá ter uma linha zero claramente definida e uma escala de valores ininterrupta, caso contrário, a leitura e a interpretação do gráfico poderão ficar distorcidas. O gráfico em barras verticais simples é o mais adequado para comparar categorias de uma variável qualitativa, como mostra a figura 4.5. Preferência Porcentagem Futebol 38,5 Vôlei 30,8 Basquete 23,1 Handebol 7,7 TOTAL 100 Fonte: Dados fictícios Figura 4.5 – Preferência esportiva de funcionários da empresa A. 38,5% 30,8% 7,7% 0,0% 5,0% 10,0% 15,0% 20,0% 25,0% 30,0% 35,0% 40,0% 45,0% Futebol Vôlei Basquete Handebol P o rc e n ta g e m Preferência esportiva Preferência esportiva de funcionários 23,1% 22 Percebe-se que a maior preferência foi a do futebol, ou seja, 38,5%. Nota-se que o vôlei foi o segundo esporte preferido, com 30,8%. Observa-se, ainda, que, o futebol e o vôlei somaram juntos 69,3% do total, ou seja, a maioria. O basquete foi o terceiro esporte preferido, com 23,1%. Então, é possível realizar um torneio de futebol, um de vôlei e outro de basquete. É possível comparar duas categorias ou mais de uma variável qualitativa, dentro de uma categoria de outra variável qualitativa, por meio de um gráfico de barras compostas. Retornemos ao exemplo da preferência esportiva, segundo o sexo. Preferência esportiva Masculino Feminino Total Nº de funcionários Porcentagem Nº de funcionários Porcentagem Futebol 30 75,0% 10 25,0% 40 Vôlei 12 37,5% 20 62,5% 32 Basquete 14 58,3% 10 41,7% 24 Handebol 2 25,0% 6 75,0% 8 Fonte: Dados fictícios Figura 4.6 – Preferência esportiva, segundo o sexo, de funcionários da empresa A. A interpretação do gráfico é a mesma da tabela, ou seja, observa-se que, dos funcionários que preferem futebol, 75% são homens e 25% são mulheres, ou seja, a maioria é do sexo masculino. Daqueles funcionários que preferem o vôlei, 37,5% são do sexo masculino e 62,5% são do sexo feminino, então maioria é do sexo feminino. No basquete, 58,3% são homens e 41,7% são mulheres, isto é, a maioria é do gênero masculino. No handebol, o número de funcionários é insuficiente. Mas olhando para as frequências absolutas, nota-se que, do total de 40 funcionários que preferem futebol, 30 são homens e 10 são mulheres, portanto, é possível organizar um torneio de futebol masculino ou misto. Observa-se, também que, 32 funcionários preferem o vôlei, desses 12 são homens e 20 são mulheres, logo, é possível realizar um torneio de vôlei feminino ou misto. Haja vista que, 24 funcionários no total preferem o vôlei, sendo 12 homens e 20 mulheres, é possível realizar um torneio misto de esporte. 75,0% 37,5% 58,3% 25,0% 25,0% 62,5% 41,7% 75,0% 0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0% 70,0% 80,0% Futebol Vôlei Basquete Handebol P o rc e n ta ge m Preferência esportiva Preferência esportiva segundo o sexo Masculino Feminino 23 4.5 Gráfico de setores O gráfico de setores ou setograma, é usado para representar valores absolutos ou porcentagens de variáveis qualitativas. A construção desse tipo de gráfico, manualmente, pode ser feita com o auxílio de um transferidor. Faz-se a marcação dos ângulos correspondentes às quantidades, partindo de um ponto qualquer da circunferência e seguindo o sentido dos ponteiros do relógio. No transferidor, 360o equivale à frequência total absoluta. O grau equivalente a quantidade de cada categoria será calculada por regra de três simples, como mostra o exemplo a seguir: Tabela 6 – Produção Agrícola do estado em toneladas (t) no ano X. Produtos Quantidade (t) Porcentagem Café 400 000 55,56 Açúcar 200 000 27,78 Milho 100 000 13,89 Feijão 20 000 2,78 Total 720 000 100 Fonte: Dados fictícios Cálculo do setor Correspondente ao café 720 000 3600 400 000 xo o200 000720 360000400 x Cálculo do setor Correspondente ao açúcar 720 000 3600 200 000 xo o100 000720 360000200 x Cálculo do setor Correspondente ao milho 720 000 3600 100 000 xo o50 000720 360000100 x Cálculo do setor Correspondente ao feijão 720 000 3600 20 000 xo 24 o10 000720 36000020 x Resta agora, a construção do gráfico. Com o auxílio do transferidor, faz-se a marcação dos ângulos correspondentes às quantidades, partindo de um ponto qualquer da circunferência e seguindo o sentido dos ponteiros do relógio. Fonte: Dados fictícios Figura 4.7 - Produção Agrícola do estado em toneladas (t) no ano X. Percebe-se de imediato que, a produção maior do estado no ano X foi a do café com 55,8% da produção total. A segunda maior produção foi a do açúcar com 27,8%, a terceira foi a do milho com 13,9% e a quarta foi a do feijão com 2,8%. 4.6 Gráfico de linhas O gráfico de linhas, tem sido utilizado para a representação de características cronológicas (quando um dos fatores for o tempo), isto porque quando for medida a mesma característica durante um grande número de períodos de tempo, a representação dos valores através de barras pode conduzir a uma excessiva concentração de dados. Como as quantidades são indicadas pelas alturas das barras, estas podem ser substituídas por uma linha que siga os movimentos de suas partes superiores. Para construir o gráfico de linhas, basta marcar os pontos correspondentes aos valores observados em cada período e uni-los por meio de um traço contínuo. A título de ilustração, suponha que está sendo feito um levantamento do número de auditorias realizadas, por ano, por uma empresa de contabilidade, como mostra a Tabela 1.7. 25 Tabela 7 - Número de auditorias realizadas por ano, de 2010 a 2017. Ano Número de auditorias realizadas 2010 200 2011 350 2012 400 2013 500 2014 550 2015 600 2016 600 2017 700 Fonte: Dados fictícios Os dados da tabela 7 podem ser expostos num gráfico em linha, como mostra a figura 1.9. Fonte: Dados fictícios Figura 4.8 – Número de auditorias realizadas por uma empresa de contabilidade. No gráfico apresentado nota-se que o número de auditorias realizadas aumentou em quase todos os anos, em relação ao ano anterior, sendo que o maior aumento registrado foi do ano de 2010 para 2011, com aumento de 150 unidades. Apenas de 2015 para 2016, o número de vendas manteve-se estável, com 600 auditorias em cada ano. Levando em conta o primeiro e o último anos (2010 e 2017), o número de auditorias saltou de 200 para 700. Isso mostra que a empresa prosperou no período. As linhas são particularmente mais eficientes que as colunas quando existem intensas flutuações das quantidades da característica que está sendo estudada, ou quando há necessidade de se representar a mesma característica advinda de origens diferentes. Suponha, por exemplo que, se queira comparar o número de vendas de carros novos de passeio, realizadas por 3 funcionários da concessionária A, durante o primeiro trimestre. 200 350 400 500 550 600 600 700 0 100 200 300 400 500 600 700 800 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 N º d e au d o ri as re al iz ad as Ano Número de auditorias realizadas por ano 26 Tabela 8 - Número de vendas de carros novos de passeio, realizadas por 3 funcionários do da concessionária A. Janeiro Fevereiro Março João 1 2 2 Antônio 4 5 8 Fernando 10 12 11 Total 15 18 21 Fonte: Dados fictícios . Fonte: Dados fictícios Figura 4.9 - Número de vendas de carros novos de passeio, realizadas por 3 funcionários do da concessionária A. No gráfico apresentado, observa-se que o Fernandoteve 10 vendas em janeiro, 12 em fevereiro e 11 em Março, tendo um bom desempenho. O número de vendas do Antônio sempre cresceu de um mês para o outro, iniciando com 4 unidades em janeiro, 5 em fevereiro e 8 em março. Já, as vendas do João foram de 1 carro em janeiro, 2 em fevereiro e 2 em março, tendo um desempenho baixo em relação aos demais e merece atenção. 4.7 Sequência de exercícios nº 3 01 Considere a estatística de utilização de browser para acesso à internet em determinado mês. 27 Tabela 1.8 - Estatística web browser de determinado mês. Browser Porcentagem 45,9 25,9 15,1 10,6 2,1 0,2 0,2 0,1 0,1 Fonte: http://www.forumcommunity.net/?act=browser&l=5, acessado em 11/02/2015 a) Qual é a variável em estudo e de que tipo ela é? b) Qual é o tipo de gráfico mais adequado para apresentar os dados? Justifique a sua reposta. c) Construa o gráfico. d) Interprete os principais resultados do gráfico. 02. Os dados da tabela a seguir são referentes ao número de estabelecimentos em Foz do Iguaçu, por ano. Ano 2008 2009 2010 2011 2012 2013 Nº de hotéis 111 112 110 112 115 109 Nº de Pousadas 16 19 23 37 47 38 Fonte: Secretaria municipal de Turismo a) Qual é o tipo de gráfico mais adequado para apresentar os dados? Justifique a sua reposta. b) Construa o gráfico. c) Interprete os principais resultados do gráfico. 03) A tabela a seguir é referente à distribuição da vida útil, em horas, de ferramentas de corte em um processo industrial. Tabela 10 – Vida útil, em horas, de ferramentas de corte em um processo industrial Classes (Horas) N o de Ferram. Porcentagem Frequência acumulada Porcentagem acumulada 0,0I 24,9 2 2,86 2 2,857143 24,9I 49,8 4 5,71 6 8,571429 49,8I 74,7 12 17,14 18 25,71429 74,7I 99,6 30 42,86 48 68,57143 99,6I 124,5 18 25,71 66 94,28571 124,5I 149,4 4 5,71 70 100 TOTAL 70 100 Fonte: Dados fictícios http://www.forumcommunity.net/?act=browser&l=5 28 a) Qual é a variável em estudo e de que tipo ela é? b) Qual é o tipo de gráfico mais adequado para apresentar os dados? Justifique a sua reposta. c) Construa o gráfico. d) Interprete os principais resultados do gráfico. 5 Medidas de tendência central Foi visto em seções anteriores que, por meio de uma distribuição de frequências, se estabelece um sistema de classificação que descreve o padrão da variação de um determinado fenômeno. Todavia, somente com a distribuição de frequências não é possível resumir certas características importantes em estudo. Devido a isto são utilizadas as medidas de tendência central (média, moda, mediana, etc.) que resumem o comportamento da variável em estudo, através do ponto em torno do qual os dados se distribuem. 5.1 Média Aritmética simples A medida de tendência central mais utilizada para descrever resumidamente uma distribuição de frequências é a média, ou mais propriamente, a média aritmética x . A média aritmética pode ser simples ou ponderada como veremos a seguir. Obtém-se a média aritmética simples de um conjunto de valores x1, x2, . . ., xn, pelo quociente entre a soma desses valores e o número total de valores observados ( n ), ou seja: n x n xxx x n i i n 121 Em que: xi é o i-ésimo valor observado da variável em estudo; Por exemplo, suponha que em um escritório de consultoria ha cinco contadores de nível superior, cujos salários são os seguintes, em reais, 3000, 3600, 3000, 3400 e 4000 Logo, a média será dada por, 29 5 40003400300036003000 5 5 1i ix x 3400 reais 5.2 Média aritmética ponderada Portanto, o salário médio dos contadores desse escritório é de 3400 reais, sendo considerado um valor baixo, uma vez que esses contadores são de nível superior, sem considerar se os mesmos são casados, ou não. A média aritmética será considerada ponderada quando os valores do conjunto tiverem pesos diferentes. Obtêm-se a média aritmética ponderada de um conjunto de valores x1, x2, . . ., xn, dividindo o produto entre esses valores e seus respectivos pesos, pela soma total dos pesos, isto é, n i i n i ii n nn p px ppp pxpxpx x 1 1 21 2211 Assim, por exemplo, se um aluno da UNIOESTE teve média anual igual a 55 e nota do exame igual a 65, com pesos de 6 e 4, respectivamente, a sua média final será dada por: 2,60 )46( )468655( x Portanto, a média final do aluno foi igual 60,2 pontos. Neste caso, o aluno está aprovado 5.3 Média aritmética de dados tabulados Genericamente, se os valores x1, x2, . . ., xk, ocorrem f1, f2, . . ., fk, vezes, respectivamente, a média aritmética será calculada por: n fx f fx fff fxfxfx x k i ii k i i k i ii k kk 1 1 1 21 2211 30 Em que n é o número total de observações ou a soma total das frequências, e k é o número total de classes ou valores individuais. Exemplo A título de ilustração, considere os dados da Tabela 11. Tabela 11 - Distribuição de frequências do número de declarações de imposto de renda realizadas por um escritório de contabilidade, por dia, num total de 50 dias, em 2017. Número de declarações de imposto de renda realizadas por dia Frequência (Número de dias) 0 2 1 3 2 4 3 7 4 12 5 10 6 8 7 3 8 1 Total 50 Fonte: dados fictícios Logo, a média será, 1 30 33 13810127432 18378610512.47.34.23.12.0 9 1 9 1 1 1 i i i ii k i i k i ii f fx f fx x declaração. Portanto, em média, foi realizada uma declaração por dia, ou valor muito baixo, o que confirma a análise feita da tabela e do gráfico desses dados. Quando os dados são agrupados em classes e não se dispõe dos valores originais, é possível calcular a média aritmética por meio dos valores centrais das classes, utilizando a expressão anterior. n fx f fx x k i ii k i i k i ii 1 1 1 31 Em que: xi = (Li + Ls)/2, sendo Ls o limite superior da classe e Li o limite inferior. Exemplo Retornemos aos dados da distribuição de frequências dos valores de 49 notas fiscais emitidas por uma empresa, como mostra a tabela 1.9. Como sodados estão grupados em classes, o primeiro procedimento é o de calcular o valor médio de cada classe por xi = (Li+Ls) /2, com o mostra terceira coluna da tabela 1.9 TABELA 12 – Distribuição de frequências dos valores de 49 notas fiscais emitidas por uma empresa. Valores das notas fiscais (R$) Número de notas fiscais xi = (Li+Ls)/2 82,50 I 93,36 4 (82,50 + 93,36)/2 = 87,83 93,36 I 104,22 9 (93,36 + 104,22)/2= 98,79 104,22 I 115,08 12 (104,22 + 115,08)/2 =109,65 115,08 I 125,94 12 (115,08 + 125,94)/2 = 120,51 125,94 I 136,80 8 (125,94 + 136,80)/2 = 131,37 136,80 I 147,66 3 (136,80 + 147,66)/2 = 142,23 147,66 I 158,52 1 (147,66 + 158,52)/2 = 153,09 TOTAL 49 Fonte: Dados fictícios O segundo procedimento é o de multiplicar o valor médio de cada classe por sua respectiva frequência. O resultado da soma desses produtos é dividido pela soma das frequências, ou seja, 7 1 7 1 i i i ii f fx x reais xxxx x 114 138121294 )109,1531265,109979,98493,87( Portanto, o valor médio das notas fiscais foi de 114,0 reais. O contador deverá verificar se esse resultado é normal, ou não. Se não for, deverá investigar, o porquê. 5.4 Mediana A mediana (Md) é outra medida de tendência central, e pode ser definida como o valor que divide um conjunto de dados numéricos, de tal forma que metade, ou 50% dos itens sejam maiores ou iguais a este valor, e a outra metade ou os outros 50% dos valores sejam menoresou iguais ao mesmo. 32 A determinação da mediana de valores é feita a partir de dados ordenados. Existem dois casos a considerar: O primeiro, quando o número de observações é ímpar e o segundo quando o número de observações é par. O número de observações é impar Neste caso, é preciso achar o elemento mediano, o qual indica em que posição está a mediana, pela seguinte fórmula: 2 1n Emd Em que n é o número total de valores observados. Exemplo A auditoria de notas fiscais é uma função desenvolvida para ajudar na conferência de lançamentos relacionados ao valor contábil. Determinado profissional da área de contabilidade, a fim de realizar uma auditoria, anotou os valores de 49 notas fiscais emitidas por uma empresa. Os resultados, em reais, foram: 130,00 105,00 120,00 111,50 99,00 116,00 82,50 107,50 125,00 100,00 107,50 120,00 143,00 115,00 135,00 130,00 135,00 127,50 90,50 104,50 136,50 100,00 145,00 125,00 104,50 101,50 102,50 101,50 134,50 158,50 110,00 102,50 90,50 107,50 124,00 121,50 135,00 102,00 119,50 115,50 125,50 117,50 107,50 140,00 121,00 107,50 113,00 93,00 103,50 Solução O primeiro passo é o de ordenar a lista de dados brutos (Rol) 82,50 101,50 104,50 110,00 119,50 125,00 135,00 33 90,50 101,50 105,00 111,50 120,00 125,50 135,00 90,50 102,00 107,50 113,00 120,00 127,50 136,50 93,00 102,50 107,50 115,00 121,00 130,00 140,00 99,00 102,50 107,50 115,50 121,50 130,00 143,00 100,00 103,50 107,50 116,00 124,00 134,50 145,00 100,00 104,50 107,50 117,50 125,00 135,00 158,50 O segundo passo é calcular a posição da mediana 2 1n E md 2 149 mdE a mdE 25 posição Isto significa que a mediana está na vigésima quinta posição. Observa-se no conjunto ordenado que, vigésima quinta posição encontra- se o valor 115,00. Portanto, a Medina é Md = 115 reais Portanto, metade das notas fiscais tem valores maiores ou iguais a R$82,50 e menores ou iguais a R$115,00 e a outa metade apresenta valores maiores ou iguais a R$115,00 e menores ou iguais a R$158,50. O contador deverá verificar se esse resultado está dentro da normalidade. Caso não esteja, deverá tomar as providências cabíveis. O número de observações é par Quando o número de observações de dados brutos é par, o procedimento para calcular a mediana é diferente do caso anterior, isto é, a mediana é igual à média aritmética entre os dois valores centrais do conjunto ordenado. Exemplo Retornemos ao exemplo do número de declarações entregues, por dia, por um escritório de contabilidade, porém, agora queremos calcular a mediana. Os resultados foram: 5 3 2 1 4 5 5 6 7 4 6 5 4 5 3 6 7 7 5 5 34 4 6 6 4 2 3 0 5 6 3 8 4 4 4 3 0 1 3 2 4 1 4 5 4 6 2 5 6 4 3 Solução: O primeiro procedimento é o de ordenar os valores. 0 2 3 3 4 4 5 5 6 6 0 2 3 4 4 4 5 5 6 7 1 2 3 4 4 4 5 5 6 7 1 2 3 4 4 5 5 6 6 7 1 3 3 4 4 5 5 6 6 8 O segundo passo é o de achar as duas posições centrais, pois número de valores observados é n = 50, ou seja, par. Logo, as duas posições centrais são: anEmd 25 2 50 2 1 posição e anEmd 261 2 50 1 2 2 posição Olhando para os dados ordenados, percebe-se que, os valores das 25a e 26a posições, são iguais a 4, portanto a média entre os dois valores centrais, ou a mediana, será igual a 4, ou seja. 4 2 44 MdMd declarações realizadas por dia Portanto, em metade dos 50 dias, foram realizadas 4 declarações ou menos e, na outra metade, foram feitas de 4 a 8 declarações. Esse resultado é considerado ruim e o escritório deverá verificar o porquê desse baixo desempenho para poder melhorá-lo na próxima vez. 5.5 Moda (Mo) A moda (Mo) é outra medida de tendência central. Genericamente, a moda pode ser definida como o valor de maior frequência (predominante) de um conjunto de dados. Quando os 35 valores de um conjunto de dados ocorrem com a mesma frequência, o mesmo é chamado de amodal. Por outro lado, podem ocorrer conjuntos com mais de uma moda. Exemplo Retornemos ao exemplo do número de declarações entregues, por dia, por um escritório de contabilidade, porém, agora queremos calcular a mediana. Os resultados foram: 5 3 2 1 4 5 5 6 7 4 6 5 4 5 3 6 7 7 5 5 4 6 6 4 2 3 0 5 6 3 8 4 4 4 3 0 1 3 2 4 1 4 5 4 6 2 5 6 4 3 Solução: O primeiro procedimento é o de ordenar os valores. 0 2 3 3 4 4 5 5 6 6 0 2 3 4 4 4 5 5 6 7 1 2 3 4 4 4 5 5 6 7 1 2 3 4 4 5 5 6 6 7 1 3 3 4 4 5 5 6 6 8 O valor 4 é o mais frequente (12 ocorrências). Portanto, a moda é Mo = 4. Isto significa que foram realizadas 4 declarações por dia, com maior frequência que os demais resultados nos 50 dias. Observação: um conjunto de dados pode não ter moda, nesse caso, será chamado de amodal, ou pode ter mais de uma moda. Se tiver duas modas será chamado de bimodal. Exemplos Y = {4, 4, 5, 5, 6, 6,} 36 O conjunto Y é amodal, ou seja, todos os valores ocorrem duas vezes. Z = {1,2, 2, 2, 3, 3, 3, 4, 5, 5, 6, 6} As modas do conjunto Z são Mo1 = 2 e Mo2 = 3. Trata-se de um conjunto Bimodal, ou seja, os valores 2 e 3 ocorrem com maior frequência (3 vezes) 5.6 Sequência de exercícios nº 4 01. Na empresa de pré moldados S/A foi realizada a inspeção diária das alturas, em milímetros, de pavers (blocos de concreto para pavimentação). Para que não haja grandes variações, resultando no maior consumo de concreto e menor. Foi realizada no dia 19 de abril de 2005 essa inspeção, tendo o seguinte resultado: 60,0 61,5 61,3 61,3 60,4 59,4 59,7 60,7 60,2 59,2 a) Calcular média e interpretar o resultado. Resposta: 60,37 b) Calcular mediana e interpretar o resultado. Resposta: 60,3 c) Calcular moda e interpretar o resultado. Resposta: 61,3 02. A faculdade de engenharia e ciência aplicada da Universidade do Arizona tem um sistema VAX de computadores. Os tempos, em segundos, para quinze tarefas consecutivas foram registradas, sendo mostrados abaixo: 5,3 5,0 9,5 10,1 5,8 6,2 5,9 7,2 10 12,2 8,5 4,7 11,2 7,3 6,4 a) Calcular média e interpretar o resultado. Resposta: 7,6867 b) Calcular mediana e interpretar o resultado. Resposta: 7,2 c) Calcular moda e interpretar o resultado. Resposta: conjunto amodal 03. O número de acidentes de trabalho, por mês, foi anotado durante 24 meses, num canteiro de obras, composto por 50 operários. Os resultados estão na tabela a seguir: 37 Tabela 13 – Distribuição de frequências do número de acidentes por mês num canteiro de obras. Número de acidentes (x) Número de meses (f) 0 5 1 10 2 4 3 3 4 2 Total 24 Fonte: Dados fictícios a) Calcular média e interpretar o resultado. Resposta: 1,4583 04. A força de remoção para um conector é medida em um teste de laboratório. Dados de 40 corpos de prova são mostrados a seguir: Tabela 14 – Distribuição de frequências das forças de remoção. Força de remoção Nº de corpos de prova 170 I190 6 190 I210 12 210 I230 8 230 I250 11 250 I270 3 Total 40 Fonte: Montgomery, Runger e Rubely (2001) a) Calcular média e interpretar o resultado. Resposta: 216,5 6 Medidas Separatrizes Existem três tipos de medidas separatrizes, são elas: Os quartis, que dividem um conjunto de dados em quatro partes iguais, os decis que dividem em dez e os percentis que dividem em cem partes. Neste curso vamos nos ater apenas aos quartis 6.1 Quartis(Q) Os quartis são medidas separatrizes que, simultaneamente, dividem um grupo de dados em quatro partes iguais. Individualmente, cada quartil ou junta Q, assim como a mediana, divide o conjunto de dados em duas partes. O primeiro quartil ou junta (Q1) é o valor que deixa um quarto (25%) dos valores abaixo ou igual a ele e três quartos (75%), igualou acima. 38 O segundo quartil (Q2) é um valor que deixa metade (50%) dos dados abaixo ou igual e a outra metade acima ou igual ao mesmo. Assim, o segundo quartil (Q2) é uma media de tendência central, pois coincide com a mediana (Q2 = Md). O terceiro quartil ou junta (Q3) é um valor que deixa três quartos (75%) dos valores observados restantes abaixo ou igual ao mesmo e um quarto ou 25% igual ou superior. As seguir serão mostradas algumas regras úteis para o cálculo dos quartis: 1. Os dados devem estar dispostos em ordem crescente. 2. Calcula-se a ordem posição do quartil por meio da expressão 4 )1n(i EQi , com i = 1, 2, 3 Em que: i indica o número do quartil a ser calculado; n é o número de observações do conjunto de dados. 3. Se o a valor de EQi for um número inteiro, o quartil Qi será igual ao valor do conjunto de dados que estiver exatamente nesta posição 4. Se o valor de EQi não for um número inteiro e estiver na metade das posições anterior e posterior, o quartil será a média dos valores do conjunto de dados que estiverem nas posições anterior e posterior a EQi. 5. Se o valor de EQi não for um número inteiro e nem estiver na metade de duas outras posições, o resultado desta deverá seguir as regras de arredondamento para um número inteiro mais próximo, o qual dará a posição anterior ou posterior ao EQi. Selecione o valor numérico que estiver nesta nova posição. Exemplo A auditoria de notas fiscais é uma função desenvolvida para ajudar na conferência de lançamentos relacionados ao valor contábil. Determinado profissional da área de contabilidade, a fim de realizar uma auditoria, anotou os valores de 49 notas fiscais emitidas por uma empresa. Os resultados, em reais, foram: 39 130,00 105,00 120,00 111,50 99,00 116,00 82,50 107,50 125,00 100,00 107,50 120,00 143,00 115,00 135,00 130,00 135,00 127,50 90,50 104,50 136,50 100,00 145,00 125,00 104,50 101,50 102,50 101,50 134,50 158,50 110,00 102,50 90,50 107,50 124,00 121,50 135,00 102,00 119,50 115,50 125,50 117,50 107,50 140,00 121,00 107,50 113,00 93,00 103,50 Solução Dados ordenados O primeiro passo é o de apresentar os dados em ordem crescente. 82,50 101,50 104,50 110,00 119,50 125,00 135,00 90,50 101,50 105,00 111,50 120,00 125,50 135,00 90,50 102,00 107,50 113,00 120,00 127,50 136,50 93,00 102,50 107,50 115,00 121,00 130,00 140,00 99,00 102,50 107,50 115,50 121,50 130,00 143,00 100,00 103,50 107,50 116,00 124,00 134,50 145,00 100,00 104,50 107,50 117,50 125,00 135,00 158,50 Posição do primeiro quartil O segundo passo é calcular a posição do primeiro quartil 4 )1n(i EQi 4 )149(1 1 QiE a mdE 5,12 posição Cálculo do primeiro quartil O terceiro passo é o de achar o primeiro quartil. Haja vista que 12,5 está exatamente entre as posições 12 e 13, o procedimento será o de verificar quais são os valores que estão nessas posições e calcular a média aritmética dos mesmos, o resultado será o valor da mediana, ou seja, Q1 = (102,5+103,5)/2 = 103 reais 40 Interpretação do primeiro quartil Portanto, 25% das notas fiscais têm valores maiores ou iguais a R$82,50 e menores ou iguais a R$103,00. Os outros 75% das notas fiscais apresentam valores maiores ou iguais a R$103,00 e menores ou iguais a R$158,50. O contador deverá verificar se esse resultado está dentro da normalidade. Caso não esteja, deverá tomar as medidas cabíveis. Posição do segundo quartil 4 )1n(i EQi a QE 25 4 )149(2 2 posição Segundo quartil Na 25a posição ordenada encontra-se o valor 115. Logo, o segundo quartil é Q2 = Md = 115 reais Interpretação do segundo quartil Portanto, 50% das notas fiscais têm valores maiores ou iguais a R$82,50 e menores ou iguais a R$115,00. Os outros 50% das notas fiscais apresentam valores maiores ou iguais a R$115,00 e menores ou iguais a R$158,5. O contador deverá verificar se esse resultado está dentro da normalidade. Caso não esteja, deverá tomar as medidas cabíveis. Posição do terceiro quartil 4 )1n(i EQi a QE 5,37 4 )149(3 3 posição 41 Cálculo do terceiro quartil O terceiro passo é o de achar o terceiro quartil. Haja vista que 37,5 está exatamente entre as posições 37 e 38, o procedimento será o de verificar quais são os valores que estão nessas posições e calcular a média aritmética dos mesmos, o resultado será o valor da mediana, ou seja, reaisMdQ 50,126 2 50,12750,125 3 Interpretação do terceiro quartil Portanto, 75% das notas fiscais têm valores maiores ou iguais a R$82,50 e menores ou iguais a R$126,50. Os outros 25% das notas fiscais apresentam valores maiores ou iguais a R$126,50 e menores ou iguais a R$158,50. O contador deverá verificar se esse resultado está dentro da normalidade. Caso não esteja, deverá tomar as medidas cabíveis. 6.2 Sequência de exercícios nº 5 01. Na empresa de pré moldados S/A foi realizada a inspeção diária das alturas, em milímetros, de pavers (blocos de concreto para pavimentação). Para que não haja grandes variações, resultando no maior consumo de concreto e menor. Foi realizada no dia 19 de abril de 2005 essa inspeção, tendo o seguinte resultado: 60,0 61,5 61,3 61,3 60,4 59,4 59,7 60,7 60,2 59,2 a) Calcular o primeiro quartil e interpretar o resultado. Resposta: 59,7 b) Calcular o segundo quartil e interpretar o resultado. Resposta: 60,3 c) Calcular o terceiro quartil e interpretar o resultado. Resposta: 61,3 02. A faculdade de engenharia e ciência aplicada da Universidade do Arizona tem um sistema VAX de computadores. Os tempos, em segundos, para quinze tarefas consecutivas foram registradas, sendo mostrados abaixo: 42 5,3 5,0 9,5 10,1 5,8 6,2 5,9 7,2 10 12,2 8,5 4,7 11,2 7,3 6,4 a) Calcular o primeiro quartil e interpretar o resultado. Resposta: 4 b) Calcular o segundo quartil e interpretar o resultado. Resposta: 8 c) Calcular o terceiro quartil e interpretar o resultado. Resposta: 12 7 Medidas de dispersão As medidas de tendência central e as medidas separatrizes, como visto, dão uma ideia do comportamento de todo o conjunto de dados, através de um valor único. Porém, elas são insuficientes para descrever mais detalhadamente o comportamento da variação dos dados, como será visto a seguir. Considere os tempos, de três funcionários, para executar a mesma tarefa. Foram tomados os tempos (em segundos) de 5 tarefas para cada funcionário, fornecendo os seguintes resultados: Funcionário A: 10, 10, 10, 10, 10 Funcionário B: 11, 10, 9, 11, 9 Funcionário C: 3, 4, 5, 20, 18 Percebe-se que não há dispersão ou variação nos resultados do funcionário A. Ha pouca dispersão entre os valores do funcionário B e há uma dispersão maior entre os resultados do funcionário C. Porém, se calculando a média dos tempos de cada funcionário, obtém-se: segundosx A 10 5 1010101010 segundosxB 10 5 91191011 segundosx c 10 5 1820543 Portanto, apesar de a média ser uma medida importante, assim como a mediana e a moda, as mesmas não servem para verificar a dispersão ou variação de um conjunto de dados. A média dos tempos para executar uma tarefa é a mesma para os três funcionários, mas, observando mais detalhadamente os três grupos obtidos, pode-se notar que se distribuem diferentemente em relação à média (10segundos), como mostra a figura a seguir: 43 Figura 6.1 – Variação dos tempos medidos nos funcionários A, B e C. Para uma análise quantitativa dessa maior ou menor variação (ou dispersão) do conjunto de valores em torno do valor médio, deve-se estudar as medidas de dispersão. As principais são: a variância, o desvio padrão e o coeficiente de variação. 7.1 Variância e desvio padrãoNa figura 1.14 nota-se que, quanto mais os valores estão afastados da média, maior é dispersão ou variação entre os dados. A variância e o desvio padrão são medidas de dispersão baseadas nos desvios em relação à média. 1º caso) Quando se tratar de uma população Algumas vezes é possível trabalhar com toda a população. Assim, a variância de uma população, simbolizada por é dada por: N x N i i 1 2 2 )( Em que: 2 é a variância populacional; xi é o i-ésimo valor observado; é a média populacional; N é o número de valores observados na população ou tamanho da população. 44 Percebe-se que denominador da expressão apresentada nunca será negativo, uma vez que os valores dos quadrados dos desvios, 2)xi( , são sempre positivos. O desvio padrão de uma população finita, simbolizado por , é definido como a raiz quadrada da variância: 2 Exemplo Suponha que em um escritório de consultoria ha cinco contadores de nível superior, cujos salários, em reais, são os seguintes: 3000, 3600, 3000, 3400 e 4000 Pede-se: a) O cálculo da média b) O cálculo da variância c) O cálculo do desvio padrão e interprete o resultado. Solução: Haja vista que, no escritório de consultoria ha cinco contadores de nível superior e são apresentados os salários de todos eles, então, estamos trabalhando com uma população, logo, calculamos , 2 e . a) reais3400 5 40003400300036003000 b) xi xi - (xi - ) 2 3000 -400 160000 3600 200 40000 3000 -400 160000 3400 0 0 4000 600 360000 Total N i ix 1 2)( = 72000 45 Variância 144000 5 72000 )( 1 2 2 N x N i i reais 2 c) desvio padrão 379,47144000 2 reais Intepretação do desvio padrão Significa que, cada salário observado tem uma diferença em relação ao salário médio, cujo valor é de R$3400,00, porém, em média esta diferença é de R$379,47. 2º caso) Quando se tratar de uma amostra coletada de uma população infinita Na maioria dos casos, não é possível observar todos os elementos de uma população. Devido a isso são calculados a variância e o desvio padrão amostrais Quando a amostra for coletada de uma população infinita, utiliza-se a variância amostral S2. 1 )( 1 2 2 n xx s n i i Em que: xi é o i-ésimo valor observado; x é a média aritmética da amostra; n é o tamanho da amostra ou número de valores observados. A razão para se utilizar n - 1 como denominador, e não apenas n é a de que, se infinitas amostras ao acaso forem coletadas nessa população infinita, a média aritmética da variável S2 será 2. Assim, pode-se dizer que S2 é um estimador não tendencioso de 2 para populações infinitas. Nesse caso, o desvio padrão será 2ss 46 Exemplo Retornemos ao exemplo dos tempos, de três funcionários, para executar a mesma tarefa. Foram tomados os tempos (em segundos) de 5 tarefas para cada funcionário, fornecendo os seguintes resultados: Funcionário A: 10, 10, 10, 10, 10 Funcionário B: 11, 10, 9, 11, 9 Funcionário C: 3, 4, 5, 20, 18 Neste exemplo o tempo médio foi 10x segundos para cada um dos três funcionários. Pede- se: Solução: Neste exemplo, se considerarmos todas as tarefas que cada funcionário realiza na empresa, temos uma população infinita de operações. Assim, para cada funcionário temos uma amostra de tamanho n = 5 coletada de uma população infinita de tarefas. Dessa forma, pode ser utilizada a variância “s2” o desvio padrão "s" para medir a variação ou dispersão desse conjunto de dados. Para o funcionário C temos: a) 15 )10x( s 5 1i 2 i 2 Variância 5,68 4 )1018()1020()105()104()103( 222222 S segundos2 b) Desvio padrão é: segundos 8,368,5 S Portanto, cada tempo anotado do funcionário C para a realizar a tarefa, tem uma diferença em relação ao salário médio, cujo valor é 10 de segundos, porém, em média, essa diferença é de 68,5 segundos 47 O quadro a seguir mostra os resultados das variâncias e dos desvios padrão dos funcionários A, B e C. Funcionário Variância Desvio Padrão A 0 0 B 1 1 C 68,5 8,3 Percebe-se para funcionário A que, não há diferença entre os valores observados (sempre 10 s), devido a isso a variância e o desvio padrão são nulos. No funcionário B, houve uma pequena diferença entre os valores observados, por isso, a variância e o desvio padrão foram baixos (1s). No funcionário C, houve maior diferença maior entre os valores observados, assim, a variância e o desvio padrão foram maiores que os anteriores, ou seja, 68,5 segundos2 e 8s. 7.2. Coeficiente de variação O coeficiente de variação (CV) é uma medida de dispersão adimensional. A vantagem em se usar esta medida é sua facilidade de interpretação, uma vez que a mesma varia de 0 a 100%. Devido a isso pode-se dizer que o coeficiente de variação é uma medida pura, pois não possui unidade de medida como as anteriores. Aqui utilizaremos o coeficiente de variação de Pearson dado pelo quociente entre o desvio padrão (s) e a média amostral ( x ). O coeficiente de variação pode ser expresso em porcentagem, sendo uma medida relativa de dispersão em relação ao valor médio, ou seja, 100. x s cv Segundo Fonseca e Martins(1996), diz-se que a distribuição possui pequena variabilidade ou dispersão quando o resultado do CV for no máximo 10%; média dispersão quando estiver acima de 10% até 20%; e grande dispersão quando superar 20%, ou seja, Baixa dispersão: CV 10% Média dispersão: 10% < CV 20% Alta dispersão: CV > 20% O coeficiente de variação é particularmente útil quando são comparadas as variabilidades de dois ou mais conjuntos de dados que são expressos em diferentes unidades de medida. 48 Deve-se utilizar o coeficiente de variação, também, quando deseja-se comparar as dispersões de 2 conjuntos de dados com unidades de medida iguais, porém com médias muito diferentes de tal modo que, a comparação direta desvios padrão não é muito útil, uma vez que essa medida de variação leva em conta a soma dos quadrados dos desvios em relação à média. Exemplo Retornemos ao exemplo dos tempos, de três funcionários, para executar a mesma tarefa. Foram tomados os tempos (em segundos) de 5 tarefas para cada funcionário, fornecendo os seguintes resultados: Funcionário x S A 10 0 B 10 1 C 10 8,3 Nesse caso, os coeficientes de variação serão: %0100 10 0 100. x s cv A %10100 10 1 100. x s cvB %83100 10 3,8 100. x s cvB As dispersões dos tempos dos funcionários A e B são consideradas baixas(CV ≤ 10%). Já, a dispersão dos tempos do funcionário C é considerada alta(CV > 20%). 6.3 Sequência de exercícios nº 6 1) Uma pesquisa realizada com os clientes de um restaurante, levantou o grau de satisfação com a renda dos entrevistados e a renda média foi de R$1918,95.. O banco de dados a seguir mostra o resultado deste levantamento junto a 19 clientes. 800 2560 980 3500 750 1500 1000 1250 1600 3600 1450 1990 2500 3600 400 980 800 4200 3000 49 a) Calcular a variância. Resposta: 1389287,72 reais2 b) Calcular o desvio padrão e interpretar o resultado. Resposta: R$1178,68 c) Calcula o coeficiente de variação e interpretar o resultado. Resposta: 61,42% 2) O departamento de produção usa um procedimento de amostragem para testar a qualidade dos comprimentos do itens recém produzidos,. A regra de decisão é a seguinte: se uma amostra de 10 itens tem uma variância maior do que “ 0,005 “ cm2 a linha de produção deve ser paralisada para reparos. Suponha que a seguinte amostra foi coletada: 3,43 3,45 3,43 3,48 3,52 3,50 3,39 3,50 3,38 3,41 Sabendo que a média foi dos comprimentos foi 3,449 cm:
Compartilhar