Baixe o app para aproveitar ainda mais
Prévia do material em texto
Universidade Estadual do Oeste do Paraná Campus de Foz do Iguaçu Centro de Engenharias e Ciências Exatas EESSTTAATTÍÍSSTTIICCAA DDEESSCCRRIITTIIVVAA Carlos dos Santos Foz do Iguaçu Fevereiro/2015 1 Sumário 1 Introdução.....................................................................................................................2 2 Tipos de variáveis Estatísticas ................................................................................... 3 2.1 Sequência de exercícios nº 1 .................................................................................................... 4 3 Representação tabular ............................................................................................... 5 3.1 Tabelas de frequências de dados não agrupados em classes ........................................................ 6 3.2 Tabelas de frequências de variáveis qualitativas ........................................................................ 8 3.3 Tabelas de frequências de dados agrupados em classes .............................................................. 9 3.4 Sequência de exercícios nº 2 ................................................................................................... 12 4 Representação Gráfica ............................................................................................ 14 4.1 Gráfico de pontos ................................................................................................................... 14 4.2 Gráfico de frequências acumuladas ........................................................................................ 15 4.3 Histograma ............................................................................................................................ 16 4.4 Polígono de frequências .......................................................................................................... 17 4.5 Polígono de frequências acumuladas ....................................................................................... 18 4.6 Gráfico de Barras .................................................................................................................... 19 4.7 Gráfico de setores ................................................................................................................... 20 4.8 Gráfico de linhas..................................................................................................................... 22 4.9 Sequência de exercícios nº 3 ................................................................................................... 24 5 Medidas de tendência central .................................................................................. 26 5.1 Média Aritmética .................................................................................................................... 26 5.2 Mediana ................................................................................................................................. 29 5.2.1 Determinação da mediana de dados brutos ...................................................................... 29 5.2.2 Determinação da mediana de dados tabulados não-agrupados em classes ......................... 31 5.2.3 Determinação da mediana de dados tabulados e agrupados em classes ............................. 34 5.3 Moda (Mo) ............................................................................................................................. 36 5.3.1 Determinação da moda de valores não tabulados ............................................................ 36 5.3.2 Determinação da moda de valores tabulados e não agrupados em classes ......................... 36 5.3.3 Determinação da moda de valores tabulados e agrupados em classes.................................37 5.3.4 Sequência de exercícios nº 4 ........................................................................................... 38 6 Medidas Separatrizes............................................................................................... 39 6.1 Quartis(Q) .............................................................................................................................. 39 6.1.1 Determinação de quartis de dados brutos ......................................................................... 40 6.1.2 Determinação de quartis de dados tabulados .................................................................... 42 7 Medidas de dispersão .............................................................................................. 45 7.1 Variância e desvio padrão ....................................................................................................... 46 7.2 Desvio médio (Dm) ................................................................................................................ 50 7.3 Amplitude total ou Intervalo total ............................................................................................ 52 7.4 Intervalo Interquartil ............................................................................................................... 52 7.5. Coeficiente de variação .......................................................................................................... 53 8. Medidas de Assimetria e Curtose............................................................................ 55 8.1 Medidas de Assimetria ............................................................................................................ 55 8.2 Curtose ................................................................................................................................... 57 8.3 Sequência de exercícios nº 5 ................................................................................................... 60 2 Introdução A estatística é uma ciência formada por vários métodos aplicados a vários ramos do conhecimento humano para a obtenção e utilização de informações que possibilitam a tomada de decisão em determinada situação prática. A estatística descritiva é uma função (média, moda, mediana, desvio padrão, coeficiente de variação, etc.), cujo valor numérico descreve, por si só, determinada característica de um conjunto de dados, reduzindo-o a proporções mais facilmente interpretáveis. Em um sentido mais amplo, a estatística descritiva pode ser interpretada como a observação de fenômenos de mesma natureza, coleta de dados numéricos referentes a esses fenômenos, organização, classificação e apresentação desses dados por meio de gráficos e tabelas. Pode-se dizer que toda a ciência que manipula dados experimentais necessita da estatística como método de análise, para que o pesquisador possa tirar conclusões que tenham validade científica. Geralmente surge a seguinte pergunta: Porque utilizar os métodos estatísticos? A questão colocada não se refere à falta de informação, mas sim como utilizar a informação disponível para tomar melhores decisões. É a partir dessa perspectiva que se deve avaliar porque um profissional deve conhecer a estatística. Dentre as razões para aprender estatística, o profissional precisa: Aprender como apresentar e descrever informações de forma adequada. Saber como tirar conclusões a partir de grandes populações com base somente na informação obtida de amostras. Saber como melhorar os processos de produção ou prestação de serviços. Saber como obter previsões confiáveis a partir de variáveis de interesse. Na área de engenharia, a aplicação da estatísticaé muito vasta, estando presente principalmente, na análise de propriedades de materiais e no estudo do controle estatístico de qualidade industrial, onde as técnicas de controle têm evoluído e proporcionado resultados importantes. Os profissionais da área de informática avaliam dados de desempenho de novos sistemas, por meio de métodos estatísticos. Os programadores executam uma bateria completa de testes e fazem os ajustes necessários em quaisquer programas criados antes de apresentá-los para o cliente. Vários testes são realizados pelo programador em diferentes fases de desenvolvimento para verificar problemas de desempenho e de outros problemas. O teste ajuda a eliminar falhas e impede que programas de deixar de funcionar no futuro. A evolução das técnicas de gestão, nos campos da economia e administração é uma realidade devido a também, à utilização de métodos estatísticos, os quais auxiliam na tomada 3 de decisão. Enfim, todas as áreas do conhecimento humano podem e devem utilizar a estatística como ferramenta auxiliadora na descrição e tomada de decisão. Neste curso serão desenvolvidos os seguintes tópicos de estatística; Estatística descritiva, probabilidade, amostragem e inferência estatística. O estudo de amostragem possibilitará o conhecimento das principais técnicas de obtenção de amostras bem como suas aplicações. O estudo de probabilidades será necessário para que possam ser desenvolvidos os principais métodos de inferência estatística. A inferência estatística vai possibilitar a tomada de decisão acerca de populações (conjunto de elementos que têm pelo menos uma característica de interesse em comum) partindo de amostras (subconjuntos representativos da população). Por exemplo, suponha um processo produtivo onde um conjunto de 36 peças foi inspecionado. Nesse caso, as 36 peças retiradas da produção representam uma amostra da população de todas as peças produzidas, de maneira que somente com a aplicação dos métodos de inferência estatística será possível responder a determinadas perguntas como: o comprimento médio das peças produzidas é menor do que 5 cm? O número de peças observadas é suficiente para obter conclusões acerca da população? Inicialmente não nos preocuparemos em diferenciar se um conjunto de observações corresponde a uma amostra ou população, já que essa distinção será necessária a partir do estudo de amostragem. 2 Tipos de variáveis Estatísticas As características que descrevem a população são chamadas variáveis, e um valor observado com relação a uma variável é chamado dado ou observação. Variável Característica pela qual se deseja que a população seja descrita, ou por meio da qual, decisões acerca da população são tomadas. Por exemplo: altura de alunos, comprimento peças, preferência do eleitor, etc. Dado Observação ou realização referente a uma variável. Por exemplo, retirou-se uma peça da linha de produção e o comprimento anotado foi de 5cm . Isto é um dado. Na descrição ou análise de um conjunto de dados estatísticos, é possível associar certos tipos de variáveis, pois o tratamento matemático exigido e o método estatístico empregado dependerão do tipo de variável em estudo. Podem ser considerados dois tipos de variáveis, as qualitativas e as quantitativas. As qualitativas podem ser nominais ou ordinais, enquanto que as quantitativas podem ser discretas ou contínuas, como mostra o esquema a seguir: 4 contínuas discretas vasquantitati ordinais nominais asqualitativ variáveisdeTipos As variáveis qualitativas estão associadas a uma característica que denota qualidade ou atributo, sendo que as qualitativas nominais não seguem uma ordem pré-definida. Alguns exemplos de variáveis qualitativas nominais são: cor dos olhos dos operários de certa indústria (azuis, castanhos, verdes, etc), desempenho dos operários (ótimo, bom, regular, péssimo, etc), qualidade de produtos (defeituosos, perfeitos, recuperáveis, etc). Já, as qualitativas ordinais seguem uma determinada ordem. Um exemplo clássico desse tipo de variável é o grau de escolaridade (1 o grau, 2 o grau, 3 o grau, etc). As variáveis quantitativas estão associadas a valores numéricos, podendo ser discretas ou contínuas. Uma variável é dita discreta quando o número de valores for finito ou infinito enumerável. São exemplos de variáveis discretas: número de peças produzidas por certa indústria, número de defeitos encontrados em seus produtos, número de dias que choveu em certa localidade durante o mês de março, etc. A variável contínua é aquela que pode, ao menos teoricamente, assumir qualquer valor entre dois valores possíveis dessa variável. Alguns exemplos de variáveis contínuas são: comprimentos de parafusos fabricados por certa máquina, tempos gastos pelos operários para realizar certa tarefa, resistência à ruptura dos cabos produzidos por certa companhia, etc. Costuma-se dizer, de uma maneira geral, que as variáveis discretas estão associadas às contagens e as variáveis contínuas às medições (metros, kg, minutos, etc). 2.1 Sequência de exercícios nº 1 01 Dê a definição de estatística 02 Dê a definição de Estatística descritiva 03. Como a estatística é usada na sua área de formação? 04 Classificar cada uma das seguintes variáveis (qualitativa nominal, qualitativa ordinal, quantitativa discreta ou contínua): a) População: Válvulas fabricadas por certa indústria Variável: número de válvulas defeituosas em cada lote de 100 válvulas. b) População: cabos fabricados por certa companhia; 5 Variável: número de cabos defeituosos am cada lote de 100 cabos c) População: Cursos de matemática de nível superior Variável: colocação no último provão do MEC. d) População: Televisão de certa marca Variável: opinião dos compradores acerca da qualidade e) População: Cultivar de Milho A Variável: número de espigas produzidas por planta Variável: altura da planta f) População: Bois da raça Nelore Variável: Peso de abate 3 Representação tabular Quando um conjunto de observações de certo fenômeno não está devidamente organizado, são chamados de dados brutos, fornecendo poucas informações de interesse ao pesquisador. Dados brutos É uma listagem dos dados originais, apresentada de forma desordenada. A primeira forma de organiza-los é a de ordena-los, construindo o chamado Rol. Rol É uma listagem na qual os valores observados estão dispostos em ordem crescente, ou decrescente Apesar de o rol propiciar ao analista, mais informações, com menos esforço de visualização que os dados originais, não se sabe de imediato, quantos elementos ocorrem em cada categoria, exigindo para isso uma contagem. Esse problema se agrava com o aumento do número de observações, pois a consulta teria que ser feita diretamente à lista. Portanto, foi idealizada a distribuição de frequências, as quais associam os valores da variável estudada, com as respectivas frequências. Frequência Medida que quantifica a ocorrência de valores de uma variável Distribuição de frequência Consiste em uma função que associa os valores que uma variável assume com suas respectivas frequências de ocorrência. Assim, a representação tabular consiste em dispor a distribuição de frequências das categorias ou valores da variável em tabelas. Uma tabela pode apresentar e caracterizar os seguintes tipos de frequências: 6 Frequência )( )( )( )( farrelativafaabsoluta acumulada frrelativa fabsoluta simples Geralmente uma tabela é formada pelos seguinte componentes: Título, Cabeçalho, coluna indicadora, Corpo, Linha de totais e Rodapé. Conforme a Figura 1.1 O título deve conter as informações relativas ao conteúdo da tabela, a(s) variáve(is) dispostas, podendo ainda conter o local de coleta dos dados, e quando foi realizado o estudo. O cabeçalho especifica as variáveis e a frequência (ou outra característica) correspondente aos seus valores. O corpo é representado por uma série de colunas e subcolunas, dentro das quais são colocados os dados agrupados. No rodapé são colocadas a legenda e todas as observações que venham a esclarecer a interpretação da tabela. De um modo geral aí também é disposta a fonte dos dados (entidade que fornece), embora em alguns casos ela seja colocada no título. Segundo as regras da ABNT, as laterais da tabela não devem ser fechadas e não deve haver traços horizontais separando as linhas interiores da tabela. Figura 1.1 - Componentes de uma tabela Mais detalhes sobre normas tabelas deverão norma NBR 14724:2011 subitem 5.9, que por sua vez, remete as Normas de Apresentação Tabular do Instituto Brasileiro de Geografia e Estatística – IBGE (1993), as quais podem ser encontrado no seguinte site: http://biblioteca.ibge.gov.br/visualizacao/livros/liv23907.pdf 3.1 Tabelas de frequências de dados não agrupados em classes Classes são intervalos numéricos que representam os valores de uma variável 7 Nas tabelas com dados não-agrupados em classes, os valores são individuais da primeira coluna são individuais. Esse tipo de tabela é utilizado quando a variável em estudo é quantitativa discreta e possui no máximo dez valores individuais. Exemplo Considere a variável discreta X, representando o número de componentes eletrônicos defeituosos em cada lote 500 componentes produzidos. Foram inspecionados 50 lotes, fornecendo os seguintes valores para X: Dados brutos 5 3 2 1 4 5 5 6 7 4 6 5 4 5 3 6 7 7 5 5 4 6 6 4 2 3 0 5 6 3 8 4 4 4 3 0 1 3 2 4 1 4 5 4 6 2 5 6 4 3 Rol 0 2 3 3 4 4 5 5 6 6 0 2 3 4 4 4 5 5 6 7 1 2 3 4 4 4 5 5 6 7 1 2 3 4 4 5 5 6 6 7 1 3 3 4 4 5 5 6 6 8 Tabela 1.1 Número de componentes eletrônicos defeituosos em cada lote de 500 componentes Número de Componentes defeituosos Número de lotes (f) Porcentagem fr(%) Número de lotes (fa) Porcentagem Acumulada far(%) 0 2 (2/50)*100 = 4 2 4 1 3 (3/50)*100 = 6 5 10 2 4 (4/50)*100 = 8 9 18 3 7 (7/50)*100 = 14 16 32 4 12 (12/50)*100 = 24 28 56 5 10 (10/50)*100 = 20 38 76 6 8 (8/50)*100 = 16 46 92 7 3 (3/50)*100 = 6 49 98 8 1 (1/50)*100 = 2 50 100 Total 50 100 Fonte: dados fictícios Observa-se que apenas 2 lotes não apresentaram componentes defeituosos, representando, 4% do total de lotes inspecionados; o número de componentes eletrônicos defeituosos mais frequente foi o de 4 componentes, ocorrendo em 12 lotes, o equivalente a 24% dos lotes; ocorreu o número de 5 componentes defeituosos em 10 lotes, o equivalente a 20% dos 50 lotes, sendo o segundo predominante. 8 Ocorreram 28 lotes, o equivalente a 56% do total de lotes inspecionados, com 4 componentes defeituosos ou menos. 3.2 Tabelas de frequências de variáveis qualitativas As tabelas de variáveis qualitativas podem ser de entrada simples, de dupla entrada, e de múltipla entrada. A cada entrada corresponde uma linha (ou coluna) de totais. Nesse tipo de tabela, as categorias devem ser organizadas, de forma que haja uma ordem decrescente de frequências. Exemplo Suponha que a empresa A, a fim de realizar torneios internos, resolveu realizar uma pesquisa sobre a preferência esportiva de seus funcionários, resultando a Tabela 1.1 Tabela 1.2 - Preferência esportiva dos Funcionários da empresa A Preferência Número de Funcionários (f) Porcentagem fr(%) Número de funcionários fa Porcentagem far(%) Futebol 40 (40/104)*100 = 38,46 0 + 40 = 40 0 + 38,46 = 38,46 Vôlei 32 (32/104)*100 = 30,77 40+ 32 = 72 38.46 + 30,77 = 69,23 Basquete 24 (24/104)*100 = 23,08 72 + 24 =96 60,23 + 23,08 = 92,31 Handebol 8 (8/104)*100 = 7,69 96 + 8 = 104 92,31 + 7,69 = 100,00 TOTAL 104 100 Fonte: dados fictícios Percebe-se que a preferência esportiva de maior frequência foi o futebol com 40 de 104 funcionários, o equivalente a 38,46. Nota-se que o vôlei foi o segundo esporte preferido, com 32 funcionários, o equivalente a 30,77%. Observa-se, ainda, que, o futebol e o vôlei somaram juntas 72 funcionários, o equivalente a 69,23% do total, ou seja, a maioria. O basquete vem em terceiro, com 96% da preferência. É comum, no entanto, a necessidade de apresentar, numa só tabela, mais do que uma característica em estudo. Assim, torna-se necessário o uso de tabelas de dupla entrada. A Tabela 1.2, por exemplo, mostra a preferência esportiva dos funcionários da empresa A, levando em conta variável sexo. 9 Tabela 1.3 - Preferência esportiva dos funcionários da empresa A, segundo o sexo. Preferência esportiva Masculino Feminino Total Nº de funcionários Porcentagem Nº de funcionários Porcentagem Futebol 30 75,0 10 25,0 40 Vôlei 12 37,5 20 62,5 32 Basquete 14 58,3 10 41,7 24 Handebol 2 25,0 6 75,0 8 Total 58 46 104 Fonte: Dados Fictícios Percebe-se que o número total de homens é diferente do número de mulheres, portanto não é possível fazer uma comparação entre homens e mulheres diretamente pela frequência Absoluta. Por outro lado, esta comparação pode ser feita por meio das porcentagens. Percebe-se, portanto, que dos funcionários que preferem futebol, 75% são homens e 25% são mulheres. Daqueles funcionários que preferem o vôlei, 37,5% são do sexo masculino e 62,5% são do sexo feminino. No basquete, 58,3% são homens e 41,7% são mulheres. No handebol, o número de funcionários é insuficiente. Portanto, é possível organizar um torneio de futebol masculino ou misto, um torneio de vôlei feminino ou misto e um torneio de basquete misto. 3.3 Tabelas de frequências de dados agrupados em classes Os dados tabulados e agrupados em classes são utilizados quando a variável em estudo é quantitativa contínua ou, quando é discreta, mas o número de valores individuais é maior do que 10. Neste último caso, o procedimento de agrupar dados individuais, em classes, visa evitar certos inconvenientes, tais como: - Grande extensão da tabela, dificultando tanto quanto os dados brutos, a leitura e a interpretação dos resultados; - Aparecimento de diversos valores da variável com frequência nula. Exemplo Suponha que um fabricante de autopeças, a fim de realizar o controle de qualidade, mediu o comprimento em milímetros de um determinado tipo peça, cujos dados são apresentados a seguir: 10 130,00 105,00 120,00 111,50 99,00 116,00 82,50 107,50 125,00 100,00 107,50 120,00 143,00 115,00 135,00 130,00 135,00 127,50 90,50 104,50 136,50 100,00 145,00 125,00 104,50 101,50 102,50 101,50 134,50 158,50 110,00 102,50 90,50 107,50 124,00 121,50 135,00 102,00 119,50 115,50 125,50 117,50 107,50 140,00 121,00 107,50 113,00 93,00 103,50 a) O primeiro passo é o de ordenar a lista de dados brutos (Rol) 82,50 101,50 104,50 110,00 119,50 125,00 135,00 90,50 101,50 105,00 111,50 120,00 125,50 135,00 90,50 102,00 107,50 113,00 120,00 127,50 136,50 93,00 102,50 107,50 115,00 121,00 130,00 140,00 99,00102,50 107,50 115,50 121,50 130,00 143,00 100,00 103,50 107,50 116,00 124,00 134,50 145,00 100,00 104,50 107,50 117,50 125,00 135,00 158,50 b) Encontrar a amplitude total do conjunto de valores observados, a qual é dada por: At = Maior valor observado – Menor valor observado At = 158,50 – 82,50 = 76 c) Escolher o número de classes (k). Alguns autores propõem que se utilize a fórmula de Sturges, expressada por: K = 1 + 3,3*log n em que n é o número total de observações. O número k de classes geralmente terá casas decimais, portanto, convém arredondá-lo para um número inteiro, usando as regras de arredondamento, de forma que a última classe inclua o maior valor observado. Apesar de realizar este procedimento, podem ocorrer alguns casos em que o maior valor observado não venha a ser incluído na última classe. Então, faz-se necessário arredondar também a amplitude C do intervalo de classe. Assim, para o exemplo dado tem-se K = 1 + 3,3 x log 49 k = 6,577... k = 7 Portanto, a tabela deverá ter sete classes ou intervalos. 11 d) Determinar a amplitude do intervalo de classe, dada pela fórmula a seguir: C = k A t No exemplo dado tem-se C = 7 76 = 10,85714285714 C = 10,86 Nesse exemplo não foi preciso aumentar a amplitude do intervalo de classe. Geralmente surge a seguinte pergunta: Quando se sabe que é preciso aumentar a amplitude C? É preciso fazer seguinte cálculo: Limite superior da última classe = menor valor +C.K Limite superior da última classe = 82,5 +10,86 * 7 = 158,52 > 158,5 (máximo valor observado). Ok, então as classes da tabela já podem ser construídas. No exemplo dado, se fossem construídas as k =7 classes e a última dessas não incluísse o maior valor observado (158,5), o leitor deveria retornar à amplitude C e arredondá-la para mais. Nesse caso teríamos C = 10,87. Caso o problema persistisse, o processo deveria ser repetido. Logo, a nova amplitude de classe seria C = 10,86. e) Determinar os limites de classes. Muitos autores adotam os seguintes símbolos: I : indica inclusão na classe do valor situado à sua esquerda e exclusão do valor situado à sua direita. I : indica exclusão na classe do valor situado à sua esquerda e inclusão do valor situado à sua direita. II : indica inclusão na classe dos valores situados a sua esquerda e à direita. Adotaremos aqui, o procedimento de somar o menor valor observado à amplitude C. O resultado desta soma será somado novamente à amplitude C, e assim sucessivamente, até que sejam criadas todas as classes necessárias. Neste exemplo, C = 10,86, e o menor valor o é 82,50, então, Para 82,50 + 10,86 = 93,36 Tem-se 82,50 I 93,36 Para 93,36 + 10,86 =104,22 tem-se 93,36 I 104,22 Para 104,22 + 10,86 =115,08 tem-se 104,22 I 115,08 Para 115,08 + 10,86 =125,94 tem-se 115,08 I 125,94 Para 125,94 + 10,86 =136,80 tem-se 125,94 I 136,80 12 Para 136,80 + 10,86 =147,66 tem-se 136,80 I 147,66 Para 147,66 + 10,86 =158,52 tem-se 147,66 I 158,52 Nota-se que a última classe 147,66 I 158,52 já inclui o maior valor observado (158,50), então não é preciso construir mais classes. O passo seguinte é o de retornar aos dados ordenados (ROL) e fazer a contagem dos valores incluídos em cada classe. Nesses dados percebe-se que os quatro primeiros valores (82.50; 90,50; 90,50 e 93) estão dentro da classe 82,50 I 93,36. Portanto, a frequência desta categoria é 4. As frequências de todas as classes estão na tabela 1.4. TABELA 1.4 - Comprimento em milímetros de auto-peças do tipo A Classes Comprimento (mm) n o de peças Frequência acumulada Porcentagem Porcentagem acumulada 82,50 I 93,36 4 4 8,2 8,2 93,36 I 104,22 9 13 18,4 26,5 104,22 I 115,08 12 25 24,5 51,0 115,08 I 125,94 12 37 24,5 75,5 125,94 I 136,80 8 45 16,3 91,8 136,80 I 147,66 3 48 6,1 98,0 147,66 I 158,52 1 49 2,0 100,0 TOTAL 49 Fonte: Dados fictícios Nota-se que, das 49 peças observadas, 12 o equivalente 24,5% apresentaram comprimento maior ou igual a 104,22 e menor do que 115,08mm. Outras 12 apresentaram comprimento maior ou igual a 115,08 e menor do que 125,94mm. Então, estas foram as duas classes com maior frequência. Se forem somadas as frequências dessas duas categorias haverá 24 peças, ou seja, quase metade das 49 peças observadas. No cruzamento da terceira coluna da tabela com a linha da classe 115,08 I 125,94 ocorreu o número 37, isto significa que 37 peças, o equivalente 75,5% das 49 inspecionadas apresentaram comprimento igual ou superior a 85, 5 e inferior a 125,94 mm. A partir dessas informações o fabricante poderá saber se os resultados estão dentro das especificações, ou não. 3.4 Sequência de exercícios nº 2 01 Foi feita uma pesquisa com uma amostra de 80 alunos de instituições de ensino superior. Uma das variáveis em estudo foi o número de pessoas na família. O resultado foi o seguinte: 13 2 3 5 4 2 3 1 5 3 2 2 2 1 3 2 2 3 3 4 1 1 2 2 2 3 3 3 4 4 4 5 5 5 6 4 2 3 5 2 2 5 4 3 2 2 2 3 2 2 3 2 5 3 5 2 3 2 2 4 5 2 2 2 3 4 4 5 5 3 3 2 2 2 1 5 5 1 2 2 3 a) Qual é a variável em estudo e de que tipo ela é? b) Qual é o tipo de tabela mais adequado para os dados? Justifique a sua reposta. c) Construa a tabela com todos os tipos de frequências. d) Interprete os principais resultados da tabela. 02 Foram inspecionadas 50 peças produzidas por uma máquina. A e a classificação foi a seguinte: P = perfeita, R = recuperável e D = defeituosa. O resultado foi o seguinte: P D P P D D P D R R P P P R R P P P R R R P D P D P R R R P P R R R P P P P R D D P P P P D D R D D a) Qual é a variável em estudo e de que tipo ela é? b) Qual é o tipo de tabela mais adequado para os dados? Justifique a sua reposta. c) Construa a tabela com todos os tipos de frequências. d) Interprete os principais resultados da tabela. 03. O tempo necessário para realizar certa operação industrial foi cronometrado (em segundos), sendo feitas 40 determinações 45 37 39 48 51 40 53 49 39 41 45 43 45 34 45 35 41 57 38 46 46 58 57 36 58 35 31 59 44 57 45 44 38 43 33 56 47 48 44 49 14 a) Qual é a variável em estudo e de que tipo ela é? b) Qual é o tipo de tabela mais adequado para os dados? Justifique a sua reposta. c) Construa a tabela com todos os tipos de frequências. d) Interprete os principais resultados da tabela. 4 Representação gráfica A apresentação de dados também pode ser feita mediante gráficos. Gráfico: Diagrama ou figura para ilustração de fenômenos ou tendências, no qual existem escalas definidas As tabelas de frequência têm utilidade como instrumento de análise e de apresentação de dados estatísticos. A apresentação gráfica é um complemento das tabelas e possui uma vantagem adicional de propiciar a visualização mais rápida do comportamento da característica que está sendo estudada, bem como sua variação. Neste curso serão apresentados os principais tipos de gráficos, são eles: Gráficos de pontos,de frequências acumuladas, histograma, polígono de frequências, polígono de frequências acumuladas, gráficos em barras simples, gráfico em barras compostas (horizontais e verticais), gráfico em setores e gráficos em linhas (simples e compostas). 4.1 Gráfico de pontos Esse tipo de gráfico pode ser utilizado quando a variável em estudo é discreta e possui no máximo dez valores individuais. Retornando ao exemplo dos componentes eletrônicos defeituosos tem-se: Número de Componentes defeituosos Número de lotes (f) 0 2 1 3 2 4 3 7 4 12 5 10 6 8 7 3 8 1 Total 50 A variável “número de componentes defeituosos” é quantitativa discreta e possui apenas 9 valores individuais, portanto o gráfico de pontos é o mais adequado pra apresentar os dados. 15 Componentes eletrônicos defefeituosos 0 2 4 6 8 10 12 14 0 1 2 3 4 5 6 7 8 9 Nº de componentes defeituosos Nº d e lo te s Fonte: Dados fictícios Figura 1.2 - Número de componentes eletrônicos defeituosos em cada lote de 500 unidades. Percebe-se de imediato na Figura 1.2, sem verificar números, que as frequências crescem até o valor 4 e depois decrescem e, que o número de componentes eletrônicos defeituosos mais frequente foi 4, e o segundo predominante foi o de 5 unidades, por lote de 500 peças. 4.2 Gráfico de frequências acumuladas Esse tipo de gráfico também é utilizado para apresentar o comportamento de variáveis quantitativas discretas com no máximo dez valores individuais, porém, o mesmo representa as frequências acumuladas absolutas (fa) ou acumuladas relativas (far). No exemplo dos componentes eletrônicos tem-se: Número de Componentes defeituosos Número de lotes (fa) 0 2 1 5 2 9 3 16 4 28 5 38 6 46 7 49 8 50 16 Figura 1.3 – Frequência acumulada de componentes eletrônicos defeituosos. 4.3 Histograma O histograma de frequências é uma representação gráfica formada por retângulos justapostos, de base igual à amplitude do intervalo de classe (C) e altura igual à frequência simples absoluta(f) ou frequência relativa fr (%). Esse tipo de gráfico pode ser utilizado no caso de variáveis quantitativas contínuas. Na tabela 1.5 tem-se um exemplo de variável quantitativa contínua. Tabela 1.4 – Vida útil, em horas, de ferramentas de corte em um processo industrial Classes (Horas) N o de Ferram. Porcentagem Frequência acumulada Porcentagem acumulada 0,0I 24,9 2 0,0286 100 = 2,86 0 + 2 = 2 0 + 2,86 = 2,86 24,9I 49,8 4 0,0571 100 = 5,71 2 + 4 = 6 2,86 + 5,71 = 8,57 49,8I 74,7 12 0,1714 100 =17,14 6 + 12 =18 8,57 + 17,14 = 5,71 74,7I 99,6 30 0,4286 100 = 42,86 18 + 30 = 48 25,71 + 42,86 = 68,57 99,6I 124,5 18 0,2571 100 = 0,2571 48 + 18 = 66 68,57 + 25,71 = 94,28 124,5I 149,4 4 0,0571 100 = 0,0571 66 + 4 = 70 94,28 + 5,71 = 100 TOTAL 70 100 Fonte: Dados fictícios Os dados das duas primeiras colunas da tabela acima estão representados na Figura 1.4 Fonte: Dados fictícios Figura 1.4 – Histograma de frequências 17 Percebe-se que a faixa de tempo duração de maior frequência foi superior ou igual a 74,7 e inferior a 99,6 horas, com 30 ferramentas de um total de 70. Ocorreram 18 ferramentas, sendo esta a segunda maior frequência, com tempo maior ou igual a 99,6 e menor que 124,5 horas de duração. Ocorreram apenas duas ferramentas, sendo esta a menor frequência, com tempo de duração menor a 24,9 horas. O pesquisador deverá verificar qual é o tempo mínimo exigido para esse tipo de ferramenta para concluir se o resultado está bom, ou não. 4.4 Polígono de frequências O polígono de frequências é obtido pelo ligamento dos pontos médios dos retângulos formados no histograma, por meio de uma linha. A área entre o eixo das abscissas e esta linha formará um polígono. Esse tipo de gráfico auxiliará na avaliação de uma importante distribuição de probabilidade, a chamada distribuição normal, a qual será mostrada em seções posteriores. O polígono de frequências construído com o auxílio do histograma apresentado anteriormente está apresentado na Figura 1.5. Fonte: Dados fictícios Figura 1.5 – Polígono de frequências O Polígono de frequências serve para estudar se a formada distribuição de frequências se aproxima da distribuição normal, mostrada na figura 1.6. 18 3210-1-2-3 0,4 0,3 0,2 0,1 0,0 X Gráfico da distribução normal Figura 1.6 – Distribuição normal Olhando para o polígono de frequências (figura 1.5), nota-se que ele tem aproximadamente a forma da distribuição normal (figura 1.6). Essa informação pode servir, por exemplo, para o pesquisador decidir em aplicar o intervalo de confiança da média ou realizar o teste de hipótese da média, utilizando a distribuição normal ou a distribuição aproximadamente normal (distribuição t de student), as quais serão estudadas no decorrer do curso. 4.5 Polígono de frequências acumuladas Assim como o gráfico anterior, o polígono de frequências cumuladas também é utilizado para a representação e descrição de variáveis quantitativas contínuas. Porém, agora os retângulos representam frequências acumuladas ao invés de frequências simples. Fonte: Dados fictícios Figura 1.7 - Polígono de frequências acumuladas 19 4.6 Gráfico de Barras Os gráficos de Barras simples têm por finalidade comparar categorias de uma variável, por meio de retângulos de larguras iguais e alturas proporcionais às frequências de cada categoria. Cada barra representa uma categoria. Na construção de um gráfico de Barras devem ser seguidas algumas normas: As barras devem ter as mesmas larguras.; As barras devem ser separadas pelo mesmo espaço; O gráfico deverá ter uma linha zero claramente definida e uma escala de valores ininterrupta, caso contrário, a leitura e a interpretação do gráfico poderão ficar distorcidas. O gráfico em barras verticais simples é o mais adequado para comparar categorias de uma variável qualitativa, como mostra a Figura 1.8. Preferência Porcentagem Futebol 38,5 Vôlei 30,8 Basquete 23,1 Handebol 7,7 TOTAL 100 Fonte: Dados fictícios Figura 1.8 – Preferência esportiva de funcionários da empresa A. É possível comparar duas categorias ou mais de uma variável qualitativa, dentro de uma categoria de outra variável qualitativa, por meio de um gráfico de barras compostas. Retornemos ao exemplo da preferência esportiva, segundo o sexo. 20 Preferência esportiva Masculino Feminino Total Nº de funcionários Porcentagem Nº de funcionários Porcentagem Futebol 30 75,0% 10 25,0% 40 Vôlei 12 37,5% 20 62,5% 32 Basquete 14 58,3% 10 41,7% 24 Handebol 2 25,0% 6 75,0% 8 Fonte: Dados fictícios Figura 1.9 – Preferência esportiva, segundo o sexo, de funcionários da empresa A. A interpretação do gráfico é a mesma da tabela. 4.7 Gráfico de setores O gráficos de setores ou setograma, é usado para representar valores absolutos ou porcentagens de variáveis qualitativas. A construção desse tipo de gráfico, manualmente, pode ser feita com o auxílio de um transferidor. Faz-se a marcação dos ângulos correspondentes às quantidades, partindo de um ponto qualquer da circunferência e seguindo o sentido dos ponteiros do relógio. No transferidor, 360 oequivale à frequência total absoluta. O grau equivalente a quantidade de cada categoria será calculado por regra de três simples, como mostra o exemplo a seguir: 21 Tabela 1.6 – Produção Agrícola do estado em toneladas (t) no ano X. Produtos Quantidade ( t ) Porcentagem Café 400 000 55,56 Açúcar 200 000 27,78 Milho 100 000 13,89 Feijão 20 000 2,78 Total 720 000 100 Fonte: Dados fictícios Cálculo do setor Correspondente ao café 720 000 360 0 400 000 x o o200 000720 360000400 x Cálculo do setor Correspondente ao açúcar 720 000 360 0 200 000 x o o100 000720 360000200 x Cálculo do setor Correspondente ao milho 720 000 360 0 100 000 x o o50 000720 360000100 x Cálculo do setor Correspondente ao feijão 720 000 360 0 20 000 x o o10 000720 36000020 x Resta agora, a construção do gráfico. Com o auxílio do transferidor, faz-se a marcação dos ângulos correspondentes às quantidades, partindo de um ponto qualquer da circunferência e seguindo o sentido dos ponteiros do relógio. 22 Fonte: Dados fictícios Figura 1.10 - Produção Agrícola do estado em toneladas (t) no ano X. Na figura 1.10 percebe-se de imediato que, a produção maior do estado no ano X foi a do café com 55,8% da produção total. A segunda maior produção foi a do açúcar com 27,8%, a terceira foi a do milho com 13,9% e a quarta foi a do feijão com 2,8%. 4.8 Gráfico de linhas O gráficos de linhas têm sido utilizados para a representação de características cronológicas (quando um dos fatores for o tempo), isto porque quando for medida a mesma característica durante um grande número de períodos de tempo, a representação dos valores através de barras pode conduzir a uma excessiva concentração de dados. Como as quantidades são indicadas pelas alturas das barras, estas podem ser substituídas por uma linha que siga os movimentos de suas partes superiores. Para construir o gráfico de linhas, basta marcar os pontos correspondentes aos valores observados em cada período e uni-los por meio de um traço contínuo. A título de ilustração, suponha que se queira representar o número de vendas de tratores de esteira produzidos pela empresa Z, no de período de 1994 a 2001, como mostra a Tabela 1.7. 23 Tabela 1.7 – Vendas de tratores de esteira – empresa Z 1994-2001 Ano Número de tratores 1994 200 1995 350 1996 400 1997 500 1998 550 1999 600 2000 600 2001 700 Fonte: Dados fictícios Os dados da tabela 1.7 podem ser expostos num gráfico em linha, como mostra a figura 1.10. Fonte: Dados fictícios Figura 1.11 - Vendas de tratores de esteira – empresa Z 1994-2001 No gráfico apresentado nota-se que o número de vendas de tratores de esteira pela empresa Z, aumentou em quase todos os anos, em relação ao ano anterior, sendo que o maior aumento registrado foi do ano de 1994 para 1995, com aumento de 150 unidades. Apenas de 1999 a 2000, o número de vendas manteve-se estável, com 600 vendas em cada ano. Levando em conta o primeiro e o último ano (1994 e 2001), o número de vendas aumentou de 200 para 700 vendas anuais. Isso mostra que houve um desenvolvimento da empresa, no período, no que se refere à produção. As linhas são particularmente mais eficientes que as colunas quando existem intensas flutuações das quantidades da característica que está sendo estudada, ou quando há necessidade de se representar a mesma característica advinda de origens diferentes Por exemplo, suponha que se queira comparar o número de vendas de carros novos de passeio, realizadas por 3 funcionários da concessionária A, durante o primeiro trimestre. 24 Tabela 1.8 - Número de vendas de carros novos de passeio, realizadas por 3 funcionários do da concessionária A. Janeiro Fevereiro Março João 1 2 2 Atônio 4 5 8 Fernando 10 12 11 Total 15 18 21 Fonte: Dados fictícios . Fonte: Dados fictícios Figura 1.12 - Número de vendas de carros novos de passeio, realizadas por 3 funcionários do da concessionária A. No gráfico apresentado, observa-se que o Fernando teve 10 vendas em janeiro, 12 em fevereiro e 11 em Março, tendo um bom desempenho. O número de vendas do Atônio sempre cresceu de um mês para o outro, iniciando com 4 unidades em janeiro, 5 em fevereiro e 8 em março. Já, as vendas do João foram de 1 carro em janeiro, 2 em fevereiro e 2 em março, tendo um desempenho ruim e merece atenção. 4.9 Sequência de exercícios nº 3 01 Considere a estatística de utilização de browser para acesso à internet em determinado mês. 25 Tabela 1.8 - Estatística web browser de determinado mês. Browser Porcentagem 45,9 25,9 15,1 10,6 2,1 0,2 0,2 0,1 0,1 Fonte: http://www.forumcommunity.net/?act=browser&l=5, acessado em 11/02/2015 a) Qual é a variável em estudo e de que tipo ela é? b) Qual é o tipo de gráfico mais adequado para apresentar os dados? Justifique a sua reposta. c) Construa o gráfico. d) Interprete os principais resultados do gráfico. 02 Os dados da tabela a seguir são referentes ao número de estabelecimentos em Foz do Iguaçu, por ano. Ano 2008 2009 2010 2011 2012 2013 Nº de hotéis 111 112 110 112 115 109 Nº de Pousadas 16 19 23 37 47 38 Fonte: Secretaria municipal de Turismo a) Qual é o tipo de gráfico mais adequado para apresentar os dados? Justifique a sua reposta. b) Construa o gráfico. c) Interprete os principais resultados do gráfico. 26 03 A tabela a seguir é referente à distribuição de frequências de comprimentos, em milímetros, de auto peças fabricadas por uma indústria. TABELA 1.4 - Comprimento em milímetros de auto-peças do tipo A Classes Comprimento (mm) n o de peças (f) Frequência acumulada (fa) Porcentagem fr(%) Porcentagem acumulada (far (%)) 82,50 I 93,36 4 4 8,2 8,2 93,36 I 104,22 9 13 18,4 26,5 104,22 I 115,08 12 25 24,5 51,0 115,08 I 125,94 12 37 24,5 75,5 125,94 I 136,80 8 45 16,3 91,8 136,80 I 147,66 3 48 6,1 98,0 147,66 I 158,52 1 49 2,0 100,0 TOTAL 49 Fonte: Dados fictícios a) Qual é a variável em estudo e de que tipo ela é? b) Qual é o tipo de gráfico mais adequado para apresentar os dados? Justifique a sua reposta. c) Construa o gráfico. d) Interprete os principais resultados do gráfico. 5 Medidas de tendência central Foi visto em seções anteriores que, por meio de uma distribuição de frequências, se estabelece um sistema de classificação que descreve o padrão da variação de um determinado fenômeno. Todavia, somente com a distribuição de frequências não é possível resumir certas características importantes em estudo. Devido a isto são utilizadas as medidas de tendência central (média, moda, mediana, etc) que resumem o comportamento da variável em estudo, através do ponto em torno do qual os dados se distribuem. 5.1 Média Aritmética A medida de tendência central mais utilizada para descrever resumidamente uma distribuição de frequências é a média, ou mais propriamente, a média aritmética x . A média aritmética pode ser simples ou ponderada como veremos a seguir. Obtém-se a média aritmética simples de um conjunto de valores x1, x2,. . ., xn, pelo quociente entre a soma desses valores e o número total de valores observados ( n ), ou seja: n x n xxx x n i i n 121 27 em que: xi é o i-ésimo valor observado da variável em estudo; Por exemplo, suponha que em um escritório de consultoria ha cinco contínuos, cujos salários são os seguintes, em reais, 800, 780, 820, 810 e 790, logo, a média será dada por, 800 5 790810820780800 5 5 1 i ix x Portanto, a média aritmética dos salários ou o salário médio dos contínuos desse escritório, é de 800 reais, sendo considerado um valor baixo. A média aritmética será considerada ponderada quando os valores do conjunto tiverem pesos diferentes. Obtêm-se a média aritmética ponderada de um conjunto de valores x1, x2, . . ., xn, dividindo o produto entre esses valores e seus respectivos pesos, pela soma total dos pesos, isto é, n i i n i ii n nn p px ppp pxpxpx x 1 1 21 2211 Assim, por exemplo, um professor pode realizar uma prova e um trabalho bimestralmente, atribuindo a cada um, os pesos 3 e 7. Se um aluno tiver recebido as notas 8 e 6, nesta ordem, sua média ponderada será 6,6 10 66 73 7.63.8 p px x 2 1i i 2 1i ii Portanto, a média ou nota bimestral do aluno, foi 6,6 pontos. Se este aluno for da UNIOESTE, o mesmo terá que se recuperar no próximo bimestre. Genericamente, se os valores x1, x2, . . ., xk, ocorrem f1, f2, . . ., fk, vezes, respectivamente, a média aritmética será calculada por: 28 n fx f fx fff fxfxfx x k i ii k i i k i ii k kk 1 1 1 21 2211 em que n é o número total de observações ou a soma total das frequências, e k é o número total de classes ou valores individuais. A título de ilustração, considere os dados da Tabela 1.8 Tabela 1.8 – Distribuição de frequências do número de defeitos por peça de certa indústria i Número de defeitos Número de peças (f) 1 0 12 2 1 8 3 2 7 4 3 1 5 4 2 Logo, a média será, defeitos f fx f fx x i i i ii k i i k i ii 1 30 33 217812 2.41.37.28.112.0 5 1 5 1 1 1 Portanto, o número médio de defeitos por peça produzida, foi 1. O ideal seria que essa média fosse zero ou bem próxima de zero. Se os dados da tabela forem observados mais atentamente, notar-se-á que, 12 peças não apresentaram defeito o equivalente a 40% do total, consequentemente, 60% apresentaram pelo menos um defeito. As causas dessa porcentagem alta de peças defeituosas deverão ser investigadas, afim de que esse quadro venha a melhorar. Será que a máquina está com defeito? Será que o operador está sonolento ou mal treinado? Será que a matéria prima é de baixa qualidade? Enfim, devem ser apuradas as possíveis causas, e eliminá-las, afim de que o problema seja solucionado. Quando os dados são agrupados em classes e não se dispõe dos valores originais, é possível calcular a média aritmética por meio dos valores centrais das classes, utilizando a expressão anterior. n fx f fx x k i ii k i i k i ii 1 1 1 29 em que: xi = (Li + Ls)/2, sendo Ls o limite superior da classe e Li o limite inferior. Retorne aos dados da tabela 1.4. Suponha que o comprimento médio das peças não pode ser menor que 82,5mm, nem maior que 148mm. Classes Comprimento (mm) n o de peças (f) xi 82,50 I 93,36 4 (82,50 + 93,36)/2 = 87,93 93,36 I 104,22 9 (93,36 + 104,22) /2 = 98,79 104,22 I 115,08 12 (104,22 + 115,08) /2 = 109,65 115,08 I 125,94 12 (115,08 + 125,94) /2 = 120,51 125,94 I 136,80 8 (125,94 + 136,80) /2 = 131,37 136,80 I 147,66 3 (136,80 + 147,66) /2 = 142,23 147,66 I 158,52 1 (147,66 + 158,52) /2 = 153,09 TOTAL 49 7 1 7 1 i i i ii f fx x 97,114 138121294 )1x09,15312x65,1099x79,984x93,87( x mm Portanto, o comprimento médio das pecas produzidas pela indústria é de 114,97 mm. Portanto, a produção está sob controle, uma vez eu este valor está entre o intervalo especificado. 5.2 Mediana A mediana (Md) é outra medida de tendência central, e pode ser definida como o valor que divide um conjunto de dados numéricos, de tal forma que metade, ou 50% dos itens sejam maiores ou iguais a este valor, e a outra metade ou os outros 50% dos valores sejam menores ou iguais ao mesmo. 5.2.1 Determinação da mediana de dados brutos A determinação da mediana de valores não-tabulados é feita a partir de dados ordenados. Existem dois casos a considerar: O primeiro, quando o número de observações é impar e o segundo quando o número de observações é par. 30 5.2.1.1 O número de observações é impar Neste caso, é preciso achar o elemento mediano, o qual indica em que posição está a mediana, pela seguinte fórmula: 2 1n Emd em que n é o número total de observações. Exemplo: Calcular a mediana do conjunto X = {12, 3, 6, 30, 2, 15, 23,} Solução: O primeiro passo é ordenar os dados. Desta forma temos: X = {2, 3, 6, 12, 15, 23, 30}. O segundo passo é calcular o elemento mediano. 2 1n Emd 2 17 Emd 4Emd Isto significa que a mediana está na quarta posição. Observa-se no conjunto ordenado X = {2, 3, 6, 12, 15, 23, 30} que, na quarta posição encontra- se o valor 12. Portanto, a Medina é Md = 12. Percebe-se, portanto, que metade ou 50% dos valores deste conjunto de dados são menores do que 12 e a outra metade, ou 50% dos valores, são maiores do que o mesmo. 5.2.1.2 O número de observações é par Quando o número de observações de dados brutos é par, o procedimento para calcular a mediana é diferente do caso anterior, isto é, a mediana é igual à média aritmética entre os dois valores centrais do conjunto ordenado. Exemplo: Seja o conjunto X = {6, 9, 20,12, 3, 14, 15, 17}. Solução: 31 Ordenando os dados tem-se X = {3, 6, 9, 12 ,14, 15, 17, 20}. A média aritmética entre os dois elementos centrais deste conjunto é a mediana. Logo, 13Md 2 1412 Md Portanto, metade ou 50% dos valores restantes observados neste conjunto são menores do que 13 e a outra metade é maior. A média pode não ser a medida de tendência central mais adequada para representar um conjunto de valores quando houver valores discrepantes (valores muito maiores ou muito menores dos demais), pois a mesma é afetada por valores extremos. Para ilustrar este fato, suponha o seguinte conjunto de dados: 5 7 8 10 12 15 do quais obtém-se 5,9 6 1575 x e Md = 2 108 9,0 Suponha agora, que o valor 15 seja trocado por 150. 5 7 8 10 12 150 A média é alterada para 32x , enquanto que a mediana não se altera, ou seja, Md = 9,0. Considere por exemplo, em que pretende-se verificar o número médio diário de freqüentadores da cantina da UNIOESTE-FOZ, afim de dimensionar a quantidade de estoque de produtos duranteo período de um mês. Suponha que numa data verificou-se um número muito acima do normal, pois nesta houve o Encontro Paranaense dos Estudantes de Matemática (EPREM). Seguramente o número de frequentadores nesse dia elevará muito o valor da média, o qual não estará representando o número médio de freqüentadores em dias normais. Conseqüentemente, o administrador da cantina teria que gastar muito mais do que gastaria normalmente, cometendo um erro operacional. 5.2.2 Determinação da mediana de dados tabulados não-agrupados em classes Quando os dados já estiverem tabulados e não-agrupados em classes, também deve ser verificado se o número total de valores observados é par ou é impar e calcular o elemento 32 mediano, da mesma forma que o caso de dados não tabulados. Porém, deve ser levado em conta a coluna de frequência absoluta acumulada (fa) . 5.2.2.1 O número de observações é ímpar Tabela 1.9 Número de defeitos por peça. Nº de defeitos por peça (x) N o de Peças (f) Frequência acumulada 0 2 2 1 4 6 2 7 13 3 2 15 TOTAL 15 Observa-se que o número total de observações é impar (n = 15), então, calcula-se o elemento mediano da seguinte forma: 2 1n Emd 2 115 Emd 8Emd Deve-se, portanto, percorrer a coluna de frequências acumuladas até achar um valor maior ou igual a 8. Na coluna de frequências acumuladas verifica-se que, para o número de defeitos igual a zero existem duas peças. Portanto, a mediana não poder ser zero, uma vez que a mediana equivale à oitava observação. A frequência acumulada seguinte até o valor 1, é 6, que por ser inferior a 8Emd indica que o número 1 não pode ser a mediana. Já, a frequência acumulada até o número de defeitos igual a 2, é 13, ou seja, superior a 8. Portanto, a mediana será: Md = 2 defeitos Isto significa que metade, ou 50% das peças, teve o número de defeitos menor ou igual a 2, e a outra metade, ou 50 o %, teve número de defeitos maior ou igual a 2. 33 5.2.2.2 O número de observações é par Exemplo TABALEA 1.10. Distribuição das idades em anos completos dos jogadores da escola de Futebol Paulistinha. Idades Frequência (fi) (n o de Jogadores) Frequência acumulada 14 5 5 15 13 18 16 10 28 TOTAL 28 Fonte: Fogo (2000) Observa-se que o número total de observações é par, ou seja, n = 28. Portanto, a mediana é a média aritmética entre os dois valores centrais, como visto no caso de dados não tabulados. O elemento mediano é o que dá a posição do primeiro valor central. Este é calculado da seguinte forma: 14E 2 28 E 2 n E mdmdmd Deve-se, portanto, percorrer a coluna de frequências acumuladas até achar um valor maior ou igual a Emd = 14. Na coluna de frequências acumuladas verifica-se que para a idade igual a 14, existem 5 jogadores. Portanto, o primeiro valor central não pode ser 14, uma vez que o primeiro valor central equivale ao 14 o valor observado e não ao 5 o Já a frequência acumulada até a idade igual a 15 anos, inclusive, é 18, ou seja, maior que Emd = 14. Portanto, o primeiro valor central é 15. O segundo valor central equivale àquele que estiver na posição logo após à do primeiro. O primeiro valor central está na 14 a posição, portanto o segundo está na 15 a . Observando a coluna de frequências acumuladas percebe-se que o 15 o valor observado também é 15. Portanto, a mediana é dada por 15 2 1515 Md Portanto, isto significa que metade ou 50% dos alunos têm idade menor ou igual a 15 e a outra metade, ou 50%, têm idade maior ou igual a 15. 34 5.2.3 Determinação da mediana de dados tabulados e agrupados em classes Quando os dados da tabela estiverem agrupados em classes utiliza-se a seguinte expressão para calcular a mediana: md tanmd f faE CLiMd Em que: Li é o limite inferior da classe que contém a mediana; C é a amplitude do intervalo de classe, ou seja, a diferença entre os limites superior (Ls) e inferior (Li) de qualquer classe ( C = Ls -Li); Emd é o elemento mediano. Tratando-se de dados tabulados e agrupados em classes, o elemento mediano, independentemente de o número de observações ser par ou ímpar, será sempre: 2 n Emd ; faant é a frequência acumulada absoluta até a classe anterior à classe da mediana; fmd é a frequência simples absoluta da classe da mediana. Exemplo: A Lógica Transistor-Transistor (Transistor-Transistor Logic ou simplesmente TTL) é uma classe de circuitos digitais construídos de transistores de junção bipolar (BJT), e resistores. É chamada lógica transistor-transistor porque ocorrem as funções porta lógica e de amplificação pelos transistores (em contraste com a RTL e a DTL). Isso é notável por ser uma família difundida de circuitos integrados (CI), usada por muitas aplicações como computadores, controle industrial, eletrônica de consumo, sintetizadores etc. Por causa do grande uso desta família lógica, sinais de entrada e saída de equipamentos eletrônicos pode ser chamada entrada ou saída "TTL", significantemente compatível com os níveis de tensão usados. Estes circuitos têm como principal característica a utilização de sinais de 5 volts para níveis lógicos altos. Seus circuitos integrados são constituídos basicamente de transístores, o que os torna pouco sensíveis à eletricidade estática. Objetivando realizar o controle da tensão de entrada de 94 exemplares desse tipo de circuito, foi construída a seguinte tabela: 35 Tabela 1.11 – Distribuição de frequências da tensão de entrada de circuitos TTL. Tensão (em volts) Frequência Frequência acumulada 1,5 I 2,0 2 2 2,0 I 2,5 15 17 2,5 I 3,0 30 47 3,0 I 3,5 33 80 3,5 I 4,0 10 90 4,0 I 4,5 3 93 4,5 I 5,0 1 94 TOTAL 94 Fonte: Dados fictícios 47E 2 94 E 2 n E mdmdmd Deve-se, portanto, percorrer a coluna de frequências acumuladas até achar um valor maior ou igual a 47. Percebe-se que a frequência acumulada até a classe 2,5 I 3,0 é 47, então esta é a classe da mediana. A amplitude do intervalo de classe é: C = Ls -Li = 3,0 – 2,5 = 0,5. Poderíamos calcular a amplitude de qualquer classe, uma vez que o valor de “C” sempre será o mesmo A frequência acumulada até a classe anterior (2,0 I 2,5) à classe da mediana é: faant = 17 A frequência simples da classe (2,5 I 3,0) da mediana é: fmd = 30 Logo, a mediana é: v3Md 30 1747 .0,52,5M f fE cLMd d md antmd a i Portanto, dos 94 circuitos, metade, ou 47, apresentaram tensão maior ou igual a 1,5 e inferior a 3 volts, ou os outros 47, tiveram tensão maior ou igual a 3 e inferior a 5 volts. Portanto, todos os circuitos apresentaram sinais de tensão abaixo de 5 volts. Isso não é bom, pois estes circuitos têm como principal característica a utilização de sinais de 5 volts para níveis lógicos altos. 36 5.3 Moda (Mo) A moda (Mo) é outra medida de tendência central. Genericamente, a moda pode ser definida como o valor de maior frequência (predominante) de um conjunto de dados. Quando os valores de um conjunto de dados ocorrem com a mesma frequência, o mesmo é chamado de amodal. Por outro lado, podem ocorrer conjuntos commais de uma moda. 5.3.1 Determinação da moda de valores não tabulados Exemplo: considere o seguinte conjunto numérico X = {4, 5, 5, 6, 6, 6, 7, 7, 8, 8} O valor 6 é o mais frequente (3 ocorrências). Portanto, a moda é Mo = 6. Y = {4, 4, 5, 5, 6, 6,} O conjunto Y é amodal, ou seja, todos os valores ocorrem duas vezes. Z = {1,2, 2, 2, 3, 3, 3, 4, 5, 5, 6, 6} As modas do conjunto Z são Mo1 = 2 e Mo2 = 3. Trata-se de um conjunto Bimodal, ou seja, os valores 2 e 3 ocorrem com maior frequência (3 vezes) 5.3.2 Determinação da moda de valores tabulados e não agrupados em classes Quando os valores de dados tabulados são individuais, a determinação da moda é imediata, bastando verificar na tabela o valor de maior frequência. Exemplo: Considere o exemplo do número de lesões em atletas após uma maratona Nº de defeitos por peça (x) Nº de peças (f) 0 2 1 4 2 7 3 2 37 Portanto, a moda é Mo = 2 lesões, ou seja, houve maior frequência de peças com dois defeitos. 5.3.3 Determinação da moda de valores tabulados e agrupados em classes Tratando-se de uma tabela de frequências com valores tabulados e agrupados em classes, o procedimento não é imediato, sendo disponíveis alguns métodos de cálculo. Aqui mostraremos o método de Czuber que leva em consideração as frequências das classes adjacentes e da classe modal, ou seja: )f(f2f ff .CLiMo posttanmo tanmo em que: Li é o limite inferior da classe modal; C é a amplitude do intervalo de classe, ou seja, a diferença entre os limites superior (Ls) e inferior (Li) de qualquer classe ( C = Ls -Li); fmo é a frequência absoluta simples da classe modal; fant é a frequência absoluta simples da classe anterior à classe modal; fpost é a frequência absoluta simples da classe posterior à classe modal. Exemplo Retornando ao exemplo da tensão de entrada de circuitos TTL, em volts, tem-se: Tensão (em volts) Frequência 1,5 I 2,0 2 2,0 I 2,5 15 2,5 I 3,0 30 3,0 I 3,5 33 3,5 I 4,0 10 4,0 I 4,5 3 4,5 I 5,0 1 A classe de maior frequência é 3,0 I 3,5 e C = Ls – Li = 3,5 – 3,0 = 0,5 logo: )ff(f2 ff .cLiMo posttanmo tanmo )1030(33.2 3033 .5,03Mo 26 3 .5,03Mo 26 5,1 3Mo 06,3 oM v 38 Isto significa que as tensões de entrada dos circuitos analisados, estão se concentrando em torno de 3,06 volts, uma vez que este valor pertence à classe de maior frequência. 1.5.4 Sequência de exercícios nº 4 01. Na empresa de pré moldados S/A foi realizada a inspeção diária das alturas, em milímetros, de pavers (blocos de concreto para pavimentação). Para que não haja grandes variações, resultando no maior consumo de concreto e menor. Foi realizada no dia 19 de abril de 2005 essa inspeção, tendo o seguinte resultado: 60,0 61,5 61,3 61,3 60,4 59,4 59,7 60,7 60,2 59,2 a) Calcular média e interpretar o resultado. Resposta: 60,37 b) Calcular mediana e interpretar o resultado. Resposta: 60,3 c) Calcular moda e interpretar o resultado. Resposta: 61,3 02. A faculdade de engenharia e ciência aplicada da Universidade do Arizona tem um sistema VAX de computadores. Os tempos, em segundos, para quinze tarefas consecutivas foram registradas, sendo mostrados abaixo: 5,3 5,0 9,5 10,1 5,8 6,2 5,9 7,2 10 12,2 8,5 4,7 11,2 7,3 6,4 a) Calcular média e interpretar o resultado. Resposta: 7,6867 b) Calcular mediana e interpretar o resultado. Resposta: 7,2 c) Calcular moda e interpretar o resultado. Resposta: conjunto amodal 03. O número de acidentes de trabalho, por mês, foi anotado durante 24 meses, num canteiro de obras, composto por 50 operários. Os resultados estão na tabela a seguir: Tabela 1.5.1 – Distribuição de frequências do número de acidentes por mês num canteiro de obras Número de acidentes (x) Número de meses (f) 0 5 1 10 2 4 3 3 4 2 Total 24 Fonte: Dados fictícios 39 a) Calcular média e interpretar o resultado. Resposta: 1,4583 b) Calcular mediana e interpretar o resultado. Resposta: 2 c) Calcular moda e interpretar o resultado. Resposta: 1 04. A força de remoção para um conector é medida em um teste de laboratório. Dados de 40 corpos de prova são mostrados a seguir: Tabela 1.5.1 – Distribuição de frequências do número de acidentes por mês num canteiro de obras Força de remoção Nº de corpos de prova 170 I190 6 190 I210 12 210 I230 8 230 I250 11 250 I270 3 Total 40 Fonte: Montgomery, Runger e Rubely (2001) a) Calcular média e interpretar o resultado. Resposta: 216,5 b) Calcular mediana e interpretar o resultado. Resposta: 215 c) Calcular moda e interpretar o resultado. Resposta: 202 6 Medidas Separatrizes Existem três tipos de medidas separatrizes, são elas: Os quartis, que dividem um conjunto de dados em quatro partes iguais, os decis que dividem em dez e os percentis que dividem em cem partes. Neste curso vamos nos ater apenas aos quartis 6.1 Quartis(Q) Os quartis são medidas separatrizes que, simultaneamente, dividem um grupo de dados em quatro partes iguais. Individualmente, cada quartil ou junta Q, assim como a mediana, divide o conjunto de dados em duas partes. O primeiro quartil ou junta (Q1) é o valor que deixa um quarto (25%) dos valores abaixo ou igual a ele e três quartos (75%), igual ou acima. O segundo quartil (Q2) é um valor que deixa metade (50%) dos dados abaixo ou igual e a outra metade acima ou igual ao mesmo. Assim, o segundo quartil (Q2) é uma media de tendência central, pois coincide com a mediana (Q2 = Md). O terceiro quartil ou junta (Q3) é um valor que deixa três quartos (75%) dos valores observados restantes abaixo ou igual ao mesmo e um quarto ou 25% igual ou superior. 40 6.1.1 Determinação de quartis de dados brutos As seguir serão mostradas algumas regras úteis para o cálculo dos quartis de dados brutos: 1. Os dados devem estar dispostos em ordem crescente. 2. Calcula-se a ordem posição do quartil por meio da expressão 4 )1n(i EQi , com i = 1, 2, 3 em que: i indica o número do quartil a ser calculado, e n é o número de observações do conjunto de dados. 3. Se o a valor de EQi for um número inteiro, o quartil Qi será igual ao valor do conjunto de dados que estiver exatamente nesta posição 4. Se o valor de EQi não for um número inteiro e estiver na metade das posições anterior e posterior, o quartil será a média dos valores do conjunto de dados que estiverem nas posições anterior e posterior a EQi. 5. Se o valor de EQi não for um número inteiro e nem estiver na metade de duas outras posições, o resultado desta deverá seguir as regras de arredondamento para um número inteiro mais próximo, o qual dará a posição anterior ou posterior ao EQi. Selecione o valor numérico que estiver nesta nova posição. Exemplo Suponha que foram medidos os diâmetros, em milímetros, de determinado tipo peça. O analista dispôs de uma amostra de 6 peças com os seguintes resultados: 10,3 4,9 8,9 11,7 6,3 7,7 Dados ordenados 4,9 6,3 7,7 8,9 10,3 11,7 Cálculo dos quartis: Posição do primeiro quartil posição2,751 4 )16(1 E a1Q ordenada 41 Após ordenar os dados, o elementoque ficou na segunda posição foi 6,3. Logo, o primeiro quartil é Q1 = 6,3 mm Portanto, 25% das peças apresentaram diâmetro menor que 6,3mm, e 75% apresentaram diâmetro maior que este valor. Suponha que se queira achar a porcentagem correta de valores abaixo de 6,3. Verifica- se no conjunto de dados que, há apenas um valor inferior a este de um total de seis valores. Portanto a porcentagem correta de valores abaixo de 6,3 será 17%100(1/6) (arredondado). Portanto ocorre um erro, pois %25 dos valores deveriam estar abaixo de 6,3 e não 17%.. O leitor deverá levar em conta que, nesse exemplo, o tamanho da amostra é de apenas seis elementos. Ã medida em que é aumentado o tamanho da amostra, o erro diminui. Posição do segundo quartil a 2Q 5,3 4 )16(2 E posição ordenada Já que este valor está na mesma distância das posições 3 e 4, o valor segundo quartil será dado pela média aritmética valores que estão nessa duas últimas posições, no conjunto de dados ordenados. Assim, o segundo quartil é mm3,8Q 2 9,87,7 2 Portanto, 50% das peças apresentaram diâmetro menor que 8,3mm, e 50% apresentaram diâmetro maior que este valor. Posição do terceiro quartil posição525,5 4 )16(3 E a3Q ordenada Na quinta posição ordenada encontra-se o valor 10,3. O Logo, o terceiro quartil é Q3 = 10,3 mm Portanto, 75% das peças apresentaram diâmetro menor que 10,3mm, e 25% apresentaram diâmetro maior que este valor. 42 6.1.2 Determinação de quartis de dados tabulados Se ao analista não dispor dos dados brutos, é possível calcular os quartis por meio de tabelas com uma aproximação razoável. Neste caso, a posição do quartil será dada por: 4 ni QiE , i = 1, 2, 3 em que: i indica o número do quartil a ser calculado. n é o número de observações do conjunto de dados ou frequência total. O valor do quartil a ser calculado pode ser dado por: Qi tanQi f faE .cLiQi em que: Li é o limite inferior da classe em que contem o quartil que está sendo calculado; C é a amplitude do intervalo de classe, ou seja, a diferença entre os limites superior (Ls) e inferior (Li) de qualquer classe ( C = Ls -Li); faant é a frequência acumulada até a classe anterior à classe do quartil em questão; fQi é a frequência da classe do quartil que está sendo calculado.. A título de ilustração, suponha a distribuição de frequências das estaturas de 100 funcionários de certa empresa, como mostra a tabela 1.12. Tabela 1.12 Distribuição de frequências das estaturas de 100 funcionários de certa empresa Estaturas (em metros) Número de Funcionários (f) Fa 1,40 I 1,50 5 5 1,50 I 1,60 10 15 1,60 I 1,70 30 45 1,70 I 1,80 40 85 1,80 I 1,90 10 95 1,90 I 2,00 5 100 TOTAL 100 O elemento que indica a posição do primeiro quartil é 4 ni QiE 25 4 100x1 1QE . 43 Deve-se, portanto, percorrer a coluna de frequências acumuladas (fa) até achar um valor maior ou igual a 25 para obter a classe do primeiro quartil. Percebe-se que a frequência acumulada até a classe 1,60 I 1,70 é 45 > 25, então esta é a classe do primeiro quartil A amplitude do intervalo de classe é: C = Ls - Li = 1,60 - 1,70 = 0,10 A frequência acumulada até a classe anterior (1,50 I 1,60) à classe do primeiro quartil é faant = 15 A frequência simples da classe do primeiro quartil (1,60 I 1,70) é. fQ1 = 30 Logo, o valor do primeiro quartil é: m6311Q 30 1525 1006011Q 1Qf antfa1QEcLi1Q ,,, Portanto, 25% dos funcionários dessa empresa apresentaram estatura menor ou igual a 1,63m, e 75% apresentaram estaturas maiores ou iguais a este valor. Cálculo do segundo quartil ou mediana 50mdE 2 100 mdE 2 n mdE 71,1Q 40 4550 .1,070,1Q f faE .cLiMdQ 22 md antmd 2 m Portanto, 50% dos funcionários dessa empresa apresentaram estatura menor ou igual a 1,71m, e 50% apresentaram estaturas maiores ou iguais a este valor. Cálculo do terceiro quartil 4 ni EQi 75 4 1003 3 x EQ 44 78,1 40 4575 .10,070,1. 33 1 3 3 QQ f fE clQ Q antQ m Portanto, 75% dos funcionários dessa empresa apresentaram estatura igual ou inferior a 1,78m, e 25% apresentaram estatura igual ou superior a esse valor. 6.2 Sequência de exercícios nº5 01. Na empresa de pré moldados S/A foi realizada a inspeção diária das alturas, em milímetros, de pavers (blocos de concreto para pavimentação). Para que não haja grandes variações, resultando no maior consumo de concreto e menor. Foi realizada no dia 19 de abril de 2005 essa inspeção, tendo o seguinte resultado: 60,0 61,5 61,3 61,3 60,4 59,4 59,7 60,7 60,2 59,2 a) Calcular primeiro quartil e interpretar o resultado. Resposta: 59,7 b) Calcular segundo quartil e interpretar o resultado. Resposta: 60,3 c) Calcular terceiro quartil e interpretar o resultado. Resposta: 61,3 02. A faculdade de engenharia e ciência aplicada da Universidade do Arizona tem um sistema VAX de computadores. Os tempos, em segundos, para quinze tarefas consecutivas foram registradas, sendo mostrados abaixo: 5,3 5,0 9,5 10,1 5,8 6,2 5,9 7,2 10 12,2 8,5 4,7 11,2 7,3 6,4 a) Calcular primeiro quartil e interpretar o resultado. Resposta: 5,8 b) Calcular segundo quartil e interpretar o resultado. Resposta: 7,2 c) Calcular terceiro quartil e interpretar o resultado. Resposta: 10 04. A força de remoção para um conector é medida em um teste de laboratório. Dados de 40 corpos de prova são mostrados a seguir: Tabela 1.5.1 – Distribuição de frequências do número de acidentes por mês num canteiro de obras Força de remoção Nº de corpos de prova 170 I190 6 190 I210 12 210 I230 8 230 I250 11 250 I270 3 Total 40 Fonte: Montgomery, Runger e Rubely (2001) 45 a) Calcular primeiro quartil e interpretar o resultado. Resposta: 196,6667 b) Calcular segundo quartil e interpretar o resultado. Resposta: 215 c) Calcular terceiro quartil e interpretar o resultado. Resposta: 237,2727 7 Medidas de dispersão As medidas de posição, como visto, dão uma idéia de todo o conjunto, através de um valor único. Porém, elas são insuficientes para descrever mais detalhadamente o comportamento da variação de todo o conjunto, como será visto a seguir. Considere os tempos, de três máquinas semelhantes, para executar certa operação industrial. Foram tomados os tempos (em segundos) de 5 operações para cada máquina, fornecendo os seguintes resultados: Máquina A: 10, 10, 10, 10, 10 Máquina B: 11, 10, 9, 11, 9 Máquina C: 3, 4, 5, 20, 18 Calculando a média aritmética para cada máquina, obtém-se ,10 sxxx CBA Ou seja, o tempo para executar a operação é o mesmo para as três máquinas. Mas, observando mais detalhadamente os três grupos obtidos, pode-se notar que se distribuem diferentemente em relação à média (10 s), como mostra o esquema a seguir: Figura 1.14 – Variação dos tempos medidos nas máquinas A, B e C. Para uma análise quantitativa
Compartilhar