Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística para gestores Raul Sena Ferreira Sumário 03 CAPÍTULO 2 – Aspectos da Estatística .............................................................................07 Introdução ....................................................................................................................07 2.1 Gráficos ..................................................................................................................07 2.1.1 Noções sobre gráficos .....................................................................................07 2.1.2 Tabela de frequência .......................................................................................08 2.1.3 Histograma .....................................................................................................08 2.1.4 Temporal ou sequencial ...................................................................................09 2.1.5 Probabilidade .................................................................................................10 2.1.6 Pizza ..............................................................................................................11 2.1.7 Dispersão .......................................................................................................11 2.1.8 Boxplot ..........................................................................................................12 2.2 Distribuição de frequência .........................................................................................13 2.2.1 Utilização dos dados de frequência absoluta ou relativa ......................................14 2.3 Medidas de tendência central e de dispersão ..............................................................17 2.3.1 Média, mediana e moda ..................................................................................17 2.3.2 Quartis ..........................................................................................................18 2.3.3 Decis .............................................................................................................19 2.3.4 Percentis .........................................................................................................19 2.3.5 Desvio padrão ................................................................................................20 2.4 Amostragem ............................................................................................................21 2.4.1 Amostragens não aleatórias ..............................................................................21 2.4.2 Amostragem aleatória simples ..........................................................................22 2.4.3 Amostragem sistemática ...................................................................................22 2.4.4 Amostragem estratificada .................................................................................22 2.4.5 Amostragem de voluntários ..............................................................................23 2.4.6 Amostragem por bola de neve ..........................................................................23 2.4.7 Amostragem por cotas .....................................................................................23 2.4.8 Amostragem por escolha racional .....................................................................23 2.4.9 Amostragem acidental .....................................................................................24 04 Laureate- International Universities Estatística para gestores 2.4.10 Amostragem com reposição ............................................................................24 2.4.11 Amostragem sem reposição ............................................................................24 2.5 Correlação e regressão linear ....................................................................................24 2.5.1 Correlação .....................................................................................................25 2.5.2 Regressão linear ..............................................................................................25 Síntese ..........................................................................................................................29 Referências Bibliográficas ................................................................................................30 05 Capítulo 2 07 Introdução A Estatística, ciência que propõe o planejamento do experimento, a construção de modelos, a coleta, o processamento e a análise de dados e sua consequente transformação em informação, para postular, refutar ou validar hipóteses científicas sobre um fenômeno observável, é necessá- ria em quase todas as áreas do conhecimento, imprescindível inclusive nas atividades diárias de gestores de todos os segmentos produtivos. Este capítulo visa a apresentar os métodos inferenciais permitindo tirar conclusões que transcendam os dados obtidos inicialmente. Ele se subdivide em cinco partes. A primeira mostrará como definir fenômenos estatísticos analisando diversas séries gráficas. Veremos, em seguida, como os dados estatísticos resultantes das variáveis quantitativas podem ser descritos analisando séries gráficas. Depois, aprenderemos a identificar uma distribuição de frequência e a sua representação gráfi- ca, analisando o comportamento do fenômeno em estudo. Mais adiante, descreveremos como um controle de processo produtivo é realizado, analisando uma abordagem estatística simples, que permitirá distinguir as causas comuns de variação. E, finalmente, observaremos algumas técnicas usadas para definir uma análise simultânea de duas ou mais variáveis, analisando se existe alguma correlação significativa entre elas. Desde já, tenha um bom estudo! 2.1 Gráficos O gráfico é a expressão visual dos dados ou valores obtidos a partir de uma amostra, facilitando o entendimento e ajudando na descoberta de informações de valor. Gráficos costumam ser muito utilizados para facilitar a visualização e o entendimento dos mais diversos fenômenos. Veremos, agora, alguns fenômenos estatísticos, analisando diversas séries gráficas. 2.1.1 Noções sobre gráficos O gráfico é uma representação com forma geométrica elaborada de modo exato, preciso e or- ganizado conforme o seu tipo. Antes de explicarmos os vários tipos de gráficos, é preciso saber qual o tipo de variável com a qual estamos interessados em trabalhar. • Variáveis qualitativas: medem uma qualidade; podem ser ordinais, isto é, possuem uma ordem natural, como uma nota de um filme (péssimo, ruim, regular, bom ou ótimo); ou nominais, ou seja, quando não há uma ordem natural. • Variáveis quantitativas: medem uma quantidade. Podem ser discretas, em que os possíveis valores são contáveis, ou seja, o número de portas de um almoxarifado; ou contínuas, isto é, que podem ser observados quaisquer valores dentro de um intervalo, exemplo: o peso de um produto. Agora que já conhecemos os tipos possíveis dos dados, vamos conhecer os gráficos que podem ser construídos com esses dados. Aspectos da Estatística 08 Laureate- International Universities Estatística para gestores 2.1.2 Tabela de frequência É um quadro que tem por objetivo organizar os dados em formato de tabela, separados por fre- quências. Veja o exemplo a seguir. Uma prova de estatística foi aplicada para uma turma de gestores. 1 aluno tirou 1,8; outros 2 alunos tiraram 3,5 e 3,7, respectivamente. Outros 10 alunos tiraram entre 4 e 6. Outros 6 alunos tiraram entre 6 e 8. E os últimos 17 alunos tiraram entre 8 e 10. Já possuímos os dados, porém temos de organizá-los. Para fazer isso, criaremos uma tabela de frequência e intervalos da classe. Classe Intervalo Frequência Percentual 1 0 |-- 2 1 2,78% 2 2 |-- 4 2 5,56%3 4 |-- 6 10 27,78% 4 6 |-- 8 6 16,67% 5 8 |-- 10 17 47,22% Total 36 100% Tabela 1 – Exemplo de tabela de frequência. Fonte: Elaborada pelo autor, 2015. Frequência é o número de ocorrências de um determinado valor, ou seja, é a quantidade de vezes que o evento ocorre. A frequência de variáveis contínuas pode ser obtida, nesse caso, ao dividir o conjunto de valores de intervalos de classe e apontando a frequência dos valores de cada intervalo. A tabela que retrata todos esses valores possui o nome de distribuição de frequência. Já as classes são os intervalos de variação de uma variável, em geral representadas por i, como em i = 1, 2, 3... k (nesse caso, k é o número total das classes). Dizemos que os limites das classes são os extremos de cada uma. Dessa forma, a classe é representada por i, o seu limite superior é representado por Li e o inferior é representado por li. E o intervalo de classe é o tamanho do intervalo da classe propriamente dito, representado por h. O ponto médio da classe é o ponto que divide a classe em duas partes iguais. Devemos destacar também os conceitos de amplitude total e amostral de uma distribuição. Am- plitude total é o intervalo total compreendido por todas as classes da distribuição, representada por AT. Já a amplitude amostral é o intervalo entre o maior valor e o menor valor da amostra, representada por AA. 2.1.3 Histograma Equivalente a uma tabela de frequência, ele possui, na sua escala horizontal, os valores de dados a serem apresentados, e na escala vertical, as suas frequências. É utilizado para dados contínuos. Veja um exemplo simples, usando a tabela do exemplo anterior: 09 Fr eq uê nc ia 20 4 6 8 10 Notas 10 8 6 4 2 17 Histograma das notas de estatística Figura 1 – Exemplo de histograma. Fonte: Elaborada pelo autor, 2015. De modo prático, podemos dizer que o histograma pode ser aplicado, por exemplo, nos proces- sos da qualidade, em situações menos complexas de gerenciamento ou até mesmo de marketing, servindo para estabelecer a análise comparativa de dados históricos (MAGALHÃES, 2009). 2.1.4 Temporal ou sequencial Mostra a evolução de uma variável ao longo do tempo. A seguir, apresentamos uma figura que ilustra o exemplo de uma tabela temporal de juros. 0,00% 2,00% 4,00% 6,00% 8,00% 10,00% 12,00% 14,00% 16,00% 18,00% 1960 1965 1970 1975 1980 1985 1990 1995 Ano Ta xa Figura 2 – Exemplo de gráfico que mostra a variável temporal ou sequencial. Fonte: Martins, s.d. 10 Laureate- International Universities Estatística para gestores Também é uma ferramenta muito difundida nos processos de qualidade ou planejamento das corporações. Por exemplo, se uma empresa possui a produção de 300 mil peças por mês, máxi- mo de defeitos constatados de 4,5% em outubro e mínimo de 1,0% ocorrido no mês de setembro, logo, possui uma média de ocorrência de 2,34%. 2.1.5 Probabilidade Os gráficos de probabilidade são bons para visualizar a distribuição dos dados em uma amostra pequena, ao contrário do histograma, que é mais indicado para amostras maiores. Repare que, para montá-lo, basta que saibamos os valores das coordenadas nos eixos dos gráficos. Para facilitar, lembre-se de que os eixos funcionam da mesma forma como aprendemos na escola, só que no lugar de X e Y temos antes e depois. Antes 220 D ep oi s 220 200 180 160 140 160 180 200140 Depois > Antes Depois = Antes Depois < Antes Pressão Sistólica Figura 3 – Exemplo de gráfico de probabilidade. Fonte: Rodrigues, 2011. Por exemplo, a Figura 3 mostra uma população de 12 pacientes que têm a pressão medida antes e depois de tê-la reduzida por um remédio. Veja que o primeiro ponto, da esquerda para direita, por exemplo, nada mais é que aproximadamente o ponto (157; 142). 11 2.1.6 Pizza Os gráficos de pizza são recomendados quando as variáveis não possuem nomes extensos e a quantidade de variáveis é pequena. São gráficos usados rotineiramente na área financeira e social (MACHADO, 2012). Qual seu sabor favorito? Creme Morango Chocolate Flocos Outros 18% 11% 13% 18% 40% Figura 4 – Exemplo de gráfico de pizza. Fonte: Filho, 2015. Esse exemplo ilustra um gráfico feito em cima de uma pesquisa em que, hipoteticamente, dese- java-se saber qual o sabor favorito dos consumidores em relação a um determinado produto. 2.1.7 Dispersão A dispersão, comumente chamada de variabilidade ou espalhamento, mostra como se encontra uma distribuição, seja esticada ou reduzida (teórica ou que define uma amostra). A variância, o desvio padrão e a amplitude interquartil são exemplos de medidas de dispersão. O diagrama de dispersão é um gráfico em que pontos no eixo X e Y são usados para representar simultaneamente os valores de duas variáveis quantitativas de um conjunto de dados. 12 Laureate- International Universities Estatística para gestores 5,00 4,50 4,00 3,50 3,00 2,50 2,00 10/09 17/09 24/09 01/09 05/10 Figura 5 – Exemplo de gráfico de dispersão. Fonte: Filho, 2015. É um recurso muito usado no marketing, por exemplo, na relação de causa e efeito, pois é veri- ficado se há uma possível relação entre as causas, isto é, a relação e a intensidade. Apesar de ser um pouco complexo para gestores iniciantes, possui a vantagem de se obter a identificação do possível relacionamento entre variáveis consideradas em uma análise. 2.1.8 Boxplot O boxplot, também conhecido como diagrama da caixa, é um gráfico utilizado para avaliar a distribuição dos dados. O boxplot é formado pelo primeiro e terceiro quartil e pela mediana. A parte inferior vai do quartil inferior até o limite inferior; a parte superior vai do quartil superior até o limite superior. 13 Co m pr im en to d o Pi no 12,8 12,7 12,6 12,5 12,4 12,3 12,2 12,1 12,0 Terceiro quartil Mediana Primeiro quartil Figura 6 – Exemplo de gráfico boxplot. Fonte: Rieper, 2012. Qualquer ponto fora desses limites é considerado valor anormal ou comumente chamado de outlier. A Figura 6 apresenta um exemplo de um gráfico boxplot, que serve para a tabulação de qualquer tipo de pesquisa. No meio corporativo, serve para estabelecer valores de gestão de risco ou gastos pessoais, por exemplo. Quais os tipos de gráficos comumente usados em uma análise técnica? Temos uma infinidade de gráficos e medidas. Alguns dos gráficos mais usados em uma análise voltada para negócios são o sequencial, o gráfico de pizza e o boxplot, mas há outras ferramentas gráficas para você utilizar no seu dia a dia enquanto gestor. Acompanhe o artigo Tudo sobre gráficos e análise técnica de Wawrzeniak (2014) neste link e saiba mais: <http://blog.bussoladoinvestidor.com.br/graficos-de-analise-tecnica/>. NÓS QUEREMOS SABER! 2.2 Distribuição de frequência Neste tópico, descreveremos como os dados estatísticos resultantes das variáveis quantitativas, que você pôde conferir anteriormente, podem ser descritos, analisando-se séries gráficas. A distribuição de frequência é uma série de valores que uma ou várias variáveis formam em uma amostra. Cada registro em uma tabela contém a frequência, ou seja, a contagem das ocorrên- cias de determinados valores dentro de um grupo ou um intervalo, e, assim, essa tabela resume a distribuição dos valores da amostra. 14 Laureate- International Universities Estatística para gestores 2.2.1 Utilização dos dados de frequência absoluta ou relativa Utilizar dados de frequência tabulados costuma ser mais fácil do que utilizar dados brutos. A partir dessas tabelas, podemos calcular média, mediana, variância, desvio padrão, entre outros. Várias hipóteses na estatística costumam se basear na avaliação das semelhanças e também dasdiferenças entre as distribuições de frequência. A distribuição de frequência, por sua vez, é dito ser enviesada, ou seja, tendenciosa, quando a sua mediana e sua média são desiguais. Uma frequência de uma variável pode ser absoluta ou relativa e, quando o conjunto consiste de um grande número de dados, costumamos colocar estes em uma tabela de distribuição de frequ- ência ou tabela de frequência, em que os dados são divididos em classes, contando-se a frequ- ência de cada uma das classes. Uma tabela de frequência é uma arrumação dos dados com suas respectivas frequências, e a tabela servirá de base para as representações gráficas que seguirão. A primeira coisa que devemos fazer para construir uma tabela de frequência é escolher as classes que irão compô-la, pois, quando se está usando variáveis discretas, ou seja, variáveis que são contáveis, devemos juntar duas ou mais classes em uma só. Além da distribuição de frequência por intervalo de classe, há outros tipos possíveis? Além da distribuição de frequência por intervalo de classes, como vimos anteriormente, poderíamos trabalhar com a distribuição de frequência por valor, ou seja, aquela que é utilizada para dados de uma variável qualitativa ou discreta – consideram-se os distintos valores de uma categoria, por exemplo, e o número de frequência que cada valor apresenta nos dados. Observe a diferença entre os dois tipos de distribuição de frequência: se a frequência por valor considera distintos valores de uma categoria, a frequência por intervalo de classes considera a frequência de cada classe. NÓS QUEREMOS SABER! Por exemplo, quando queremos mapear quantas mil unidades de um determinado produto foram vendidas em determinadas cidades, as classes serão: 1, 2, ..., n, sendo n é o maior número de produtos vendidos naquelas cidades. Se a classe 1 e 2 for muito frequente, devemos uni-las, ou seja, as classes passariam a ser: 1-2.No entanto, quando estamos lidando com variáveis contínu- as, ou seja, aquelas que contêm um intervalo por vezes muito grande ou infinito entre um número e outro, as classes deverão ser escolhidas aleatoriamente. Além disso, se você não souber como devem ser as classes, por exemplo, poderá utilizar a fórmula de Sturges: k = 1 + 3,3 ×log10(n) Já que k refere-se ao total de classes da variável e não existe precisamente uma fórmula para o cálculo de número de classes, e n é o tamanho da amostra (número total de dados), podemos usar essa fórmula ou, ainda, a raiz simples de n: k ≈ raiz (n) Considerando também o que vimos no tópico 2.1.2, sugerimos o seguinte exemplo (INFORMÁ- TICA MÉDICA – UFPR, 2003): Estes são os nossos dados brutos do experimento: 45, 44, 42, 42, 41, 43, 43, 45, 41, 50, 46, 50, 54, 60, 54, 52, 58, 57, 58, 60, 51. Ao definirmos em rol (amplitude total da amostra), teríamos: 15 Dados Frequência 41 2 42 2 43 2 44 1 45 2 46 1 50 2 51 1 52 1 54 2 57 1 58 1 60 2 Total 20 Tabela 2 – Exemplo de tabela de frequência. Fonte: Adaptada de Informática Médica, 2003. A amplitude amostral é definida por: 60 - 41 = 19. Para achar quantas classes devem ter usado, por exemplo, a fórmula de Sturges, temos: K = 1 + 3,33 log n K = 1+3,33 log 20 K = 1 + 3,33(1,30) K = 5,33 Entre alguns especialistas, há a regra de se usar entre 5 e 20 classes na distribuição da frequên- cia. Logo, K = 5 nesse caso. Agora também podemos descobrir a amplitude do intervalo de clas- ses, dividindo a amplitude amostral (19) pelo número de classes que obtivemos (5), e o resultado será 3,8. Devemos, contudo, arredondar esse resultado para 4 para haver maior adequação no experimento. No nosso exemplo: • o menor número da amostra é 41; • o número de classes é 5; • a amplitude do intervalo de cada classe é 4; • a primeira classe será 41 + 4 = 45; • logo, temos: 41 | -------- 45, e assim por diante, sendo que o primeiro número da classe é o último do apresentado na classe anterior (como você verá na tabela adiante). 16 Laureate- International Universities Estatística para gestores Vale ressaltar que, quanto mais classes existirem em nossa análise estatística, maior o erro intro- duzido nela. As classes devem ser mutuamente exclusivas, ou seja, a escolha de uma classe exclui a outra, para que não haja dúvida na localização do dado. Os centros de classe e suas respectivas frequências são usados nos cálculos das estatísticas des- critivas e fornecem os elementos necessários para a confecção de vários gráficos, entre eles o histograma. Citamos anteriormente que a frequência pode ser absoluta ou relativa, em que a frequência ab- soluta basicamente é o número de vezes que um determinado elemento aparece na amostra ou o número de elementos que pertencem a uma classe, e a frequência relativa é a percentagem do valor dos dados em relação ao total da amostra. Vamos imaginar que a nossa amostra foi retirada de uma população de pessoas do sexo mascu- lino e feminino, aleatoriamente, e, de posse desses dados, queremos saber quanto mede cada indivíduo e descobrir as frequências associadas a essa amostra. Depois de coletados os dados, temos a seguinte tabela: Classes Frequência absoluta Frequência relativa 1,65|---- 1,75 2 2/24 1,75|---- 1,85 10 10/24 1,85|---- 1,95 11 11/24 1,95|---- 2,05 1 1/24 Tabela 3 – Exemplo de tabela de frequência absoluta e relativa. Fonte: Elaborada pelo autor, 2015. Olhando a tabela, percebemos que frequência absoluta é a quantidade de vezes que cada intervalo de altura foi registrado. Já a frequência relativa é dada pelo número de vezes que a classe foi registrada dividido pela quantidade de registros. Ou seja, a frequência absoluta é tida exatamente pela quantidade de vezes que determinado evento ocorreu, não sendo possível uma análise de comparação. Para ampliar ainda mais a significância dos dados, podemos recorrer à frequência relativa, pois esta é feita por meio de dados percentuais, definidos como a razão entre a frequência absoluta e o número total de observações. Uma boa lista de exercícios resolvidos, passo a passo, sobre frequências relativas e absolutas pode ser encontrada na página do Departamento de Informática e Estatística (INE) da Universidade Federal de Santa Catarina (UFSC) neste link: <http://www.inf. ufsc.br/~humber/Economia/parte1/lista3.pdf>. Vale a pena tentar fazer e depois con- ferir a solução e a forma como foi resolvido. NÃO DEIXE DE LER... 17 2.3 Medidas de tendência central e de dispersão Veremos, agora, como é possível identificar uma distribuição de frequência e sua representação gráfica, analisando o comportamento do fenômeno em estudo. São comuns na estatística da administração e nas pesquisas aplicadas, de preferência quantitativas. 2.3.1 Média, mediana e moda As variáveis quantitativas permitem cálculos de média, mediana, moda, quartis, decis, percentis, variância e desvio padrão. A média, a moda e a mediana são as chamadas medidas de tendên- cia central. A média é o somatório de todos os elementos divididos pela quantidade de elementos somados. Exemplos: Média escolar = (Nota 1 + Nota 2 + Nota3 + Nota 4) / 4 Média de custos internos = (Mês 1 + Mês 2 + Mês 3 + Mês 4) / 4 A mediana é o elemento do meio em uma distribuição. Veja este exemplo hipotético: Idade dos jogadores do time titular do Vasco em ordem crescente = 17, 17, 18, 20, 22, 23, 24, 25, 28, 30, 33. Logo, a mediana = 23. Observação: veja que a mediana é o exato número do meio em uma sequência ou conjunto de números. Se você procura a mediana em uma sequência que possui quantidade ímpar de núme- ros, como no exemplo, o processo é bem fácil, mas, para achar a mediana em uma sequência que possui uma quantidade par de números, é algo que deve exigir a sua atenção. Uma sugestão é que você classifique o conjunto de númerosdo menor para o maior, mesmo que estiverem mis- turados. Ache o número do meio: no caso ímpar, há a mesma quantidade para a direita e para a esquerda e o número do meio é sempre ímpar. Veja, no entanto, que, em uma sequência par de números, haverá dois elementos exatamente no meio, e não apenas um, como vimos no exemplo anterior. No conjunto 3, 4, 3, 1, se reorgani- zarmos, teremos 1, 2, 3, 4. Assim, 2 + 3 = 5. E 5 ÷ 2 = 2 ½ . A fórmula para achar a média de dois números é a soma desses números dividido por 2. Perceba que, diferentemente da sequência ímpar, a mediana de uma sequência par de números não precisa necessariamente ser um dos elementos do conjunto. A moda é o elemento que mais aparece em uma distribuição. Se pegarmos o exemplo anterior, veremos que a idade que mais se repete é 17. Sendo assim: moda = 17. Veja, a seguir, um histograma contendo a média, moda e mediana para facilitar a compreensão: 18 Laureate- International Universities Estatística para gestores Media Moda Mediana Moda Media MedianaModa Media Mediana Figura 7 – Exemplo de moda, média e mediana. Fonte: Adaptada de Castro, s.d. Você já conseguiu obter alguma dessas variáveis no seu cotidiano? Quando a amostra é grande, fica difícil ou até impossível verificar a olho nu a moda e calcular a média e mediana. Para isso, podem ser usados os softwares Excel ou SPSS. Para quem tem noções de programação, uma ótima ferramenta é o Matlab ou o uso da linguagem R. NÓS QUEREMOS SABER! 2.3.2 Quartis Os quartis, o decis e o percentis são uma extensão do conceito de mediana. Os quartis são re- presentados por Q1, Q2 e Q3, em que Q1 é o primeiro quartil, Q2 o segundo quartil e Q3 o terceiro quartil, sendo o valor de Q2 a mediana. Exemplo: Para calcular os quartis da seguinte série: {1, 1, 1, 3, 5, 6, 6, 7, 8, 9, 10, 13}, precisaremos calcular o quartil 2 = mediana = (6+6) ÷ 2 = 6. Veja que a mediana, ou o elemento do meio, é dado pelo número 6 e 6. Com base nessa infor- mação, veremos que o quartil 1 será a mediana da parte mais à esquerda da mediana da série original: {1, 1, 1, 3, 5, 6}. Como a quantidade de números nessa parte é par, então, efetuamos o cálculo dos dois elemen- tos do meio, assim como fizemos no cálculo de Q2, assim Q1 = (1+3) ÷ 2 = 2. Para calcular o quartil 3, faremos o mesmo que foi feito para o cálculo de Q1, só que, dessa vez, consideraremos a série mais a direita de Q2, ou seja, será a mediana de: {6, 7, 8, 9, 10, 13}. Desta forma temos que Q3 = (8+9) ÷ 2 = 8,5. Veja ainda este exemplo apresentado por Machado (2012, s.p.): Uma empresa produziu 500, 200 e 200 unidades de determinado produto em Janeiro, Fevereiro e Março respectivamente. Qual foi a média de produção trimestral? Resposta: Antes de sair calculando, devemos saber o que está sendo pedido. Neste caso, queremos uma média tal que, se a produção mensal da empresa fosse sempre igual a M, a 19 produção trimestral seria a mesma. Pois bem, a produção trimestral foi de 500 + 200 + 200 = 900 unidades. Se em todos os meses a produção fosse igual a M, a média trimestral seria 3M, assim, 3M = 900, de onde vem que M = 900/3 = 300. Logo, a média procurada é a aritmética. (MACHADO, 2012, s.p.). 2.3.3 Decis São valores que dividem os dados em dez partes iguais e são representados por D1, D2, D3, D4, …, D9. Assim, pode-se dizer que precisamos de 9 decis para dividirmos uma série em 10 partes iguais. Portanto, o quinto decil equivale à mediana. A definição dos decis é bem próxima dos quartis, mas possui alteração da porcentagem de valores, que ficam além do decil que se quer calcular. Para definir a classe em que está o decis, usamos em que k é o número de ordem do decil a ser calculado. É importante dizer que o quinto decil divide o conjunto em duas partes iguais. Logo, o quinto decil é igual ao segundo quartil e, con- sequentemente, é igual à mediana. É importante ressaltar também que é preciso de 9 decis para dividirmos uma série em 10 partes iguais. Exemplo de Silva (s.d.): Calcule o 3º decil da tabela a seguir com classes: Classes Frequência = fi Frequência acumulada 50|------- 54 4 4 54|------- 58 9 13 58|------- 62 11 24 62|------- 66 8 32 66|------- 70 5 37 70|------- 74 3 40 total 40 Tabela 4 – Cálculo do 3o decil. Fonte: Adaptada de Silva, s.d. k= 3 em que 3. E fi / 10 = 3x40/10 = 12. Este resultado corresponde à 2ª classe. D3 = 54 + [(12 - 4) x 4] / 9 = 54 + 3,55 = 57,55. 2.3.4 Percentis São os valores que dividem os dados em 100 partes iguais e são representados por P1, P2, P3, P4, …, P99. O 50º percentil corresponde à mediana. 20 Laureate- International Universities Estatística para gestores 2.3.5 Desvio padrão Geralmente, é a medida de dispersão mais empregada em uma amostra, pois leva em conside- ração o total dos valores da(s) variável(is) que se quer estudar. O desvio padrão baseia-se nos desvios em torno da média e a sua fórmula é dada por: A raiz quadrada da média dos quadrados dos desvios (variância), geralmente representada por σ. Exemplo: Para calcular o desvio padrão da população representada por {- 4, -3, -2, 3, 5}, temos: Figura 8 – Base do cálculo do desvio padrão. Fonte: Elaborada pelo autor, 2015. Em que o Xi são os valores das variáveis, o “X barra” é a média, na terceira coluna é o resultado do cálculo do valor atual – média e na quarta coluna é o resultado do cálculo do valor atual – média, ao quadrado. Seja N o número de variáveis, então, sabemos que N = 5, a soma dos quadrados dos desvios é 62,8 e a média da soma dos quadrados dos desvios é 62,8 / 5 = 12,56. Com isso, temos o valor da variância, que é 12,56, e a raiz quadrada da variância é o desvio padrão, ou seja, 3,54. Na sequência, podemos ver um histograma mostrando os desvios padrões de uma amostra e o quanto cada desvio padrão abrange em porcentagem: 21 -3σ -2σ -σ -σx 2σ 3σ 99,74% 95,44% 68,26% Figura 9 – Cálculo do desvio padrão. Fonte: Elaborada pelo autor, 2015. No gráfico, µ é a média, σ é o desvio-padrão, x valor de uma variável e 2σ significa que é o se- gundo desvio padrão, ou dois desvios padrões, para mais ou para menos e assim sucessivamen- te. Note que 3 desvios padrões, para mais ou para menos, representam quase toda a distribuição (99,74%). O desvio padrão serve para indicar o quão dispersos os dados estão, ou seja, quanto mais dispersos, maior o desvio padrão. Além dessas frequências, temos a frequência acumulada direta, que é a soma das frequências absolutas, começando pelo menor valor, e frequência acumulada inversa, que nada mais é do que a subtração das frequências absolutas começando pelo valor total. 2.4 Amostragem Veremos agora a amostragem, em que descreveremos como um controle de processo produtivo é realizado analisando uma abordagem estatística simples, que permita distinguir as causas co- muns das causas especiais de variação. As amostragens podem ser probabilísticas, quando os elementos têm a mesma probabilidade de serem selecionados em uma amostra, e as não probabilísticas, quando os elementos são escolhidos de acordo com o julgamento e a vontade do pesquisador. As amostragens se subdivi- dem ainda em quantitativas e qualitativas, como veremos em seguida. 2.4.1 Amostragens não aleatórias Vejamos primeiramente as amostras quantitativas. Iniciamos com as amostragens não aleatórias. São amostras cuja formação é feita de um processo de seleção não aleatório, em que os elemen- tos ou grupo de elementos possuem a mesma probabilidade de inclusão na amostra; os elemen- 22 Laureate- International Universities Estatística para gestores tos também devem ser calculáveis e diferentes de zero. Refere-se a um procedimento de escolha segundo critérios objetivos e previamente determinados. Logo, têm-se como resultado elementos escolhidosda população que deixam de ser aleatórios, por seguirem critérios definidos. São as amostras retiradas, por exemplo, em pesquisas de marketing de opinião. 2.4.2 Amostragem aleatória simples São amostras (n) em que todos os elementos de uma mesma população (N) possuem probabili- dade conhecida de serem selecionados. Talvez seja a mais comum entre as técnicas de amostra- gem. Em uma pesquisa científica, por exemplo, podem-se estabelecer as amostras por sorteio. Para isso, é preciso fazer primeiro uma lista dos elementos da população, numerados de acordo com a quantidade de elementos, para então serem sorteados. É importante dizer que todo núme- ro tem a mesma probabilidade de ser sorteado e não há repetições. Vejamos um caso sobre amostragem aleatória simples: um gerente recebeu 30 orçamentos di- ferentes em uma licitação para determinados maquinários que precisa adquirir. Pretende-se co- nhecer o custo médio de modelos similares de equipamentos das mesmas empresas. Os valores populacionais consistem nos seguintes preços unitários (em dólares/mil): 250, 200, 350, 210, 220, 240, 250, 300, 380, 240, 200, 200, 250, 200, 190, 250, 230, 240, 280, 240, 240, 220, 280, 260, 230, 250, 220, 270, 250, 230. O gerente precisa extrair uma amostra aleatória simples de tamanho 10 dessa população por meio de sorteio. Ele coloca os valores descritos em pequenos papéis dentro de uma urna. Ao sortear a amostra n = 10, obteve o seguinte resultado: n = (200, 240, 220, 280, 230, 240, 210, 200, 250, 270). Note que não é nem um pouco prático esse método e, para isso, o gerente poderia utilizar uma tabela de Excel, por exemplo, com valores aleatórios, e obter os mesmos resultados – o software possui o recurso de amostragem automática com números aleatórios. Veja como é possível realizar esse procedimento acessando este link: <http://pt.wikihow.com/Criar-Uma- -Amostra-Aleat%C3%B3ria-no-Excel>. 2.4.3 Amostragem sistemática Possui a vantagem de ser simples e flexível. Nesse caso, a probabilidade se estabelece por meio da aleatorização da primeira unidade amostral. Ou seja, coleta-se um elemento escolhido ao acaso dentro de uma população, por exemplo, um nome a cada dez nomes de uma lista, etc. Os critérios de escolha são previamente estabelecidos e aplicados de forma sistemática. Esse méto- do possui o objetivo de cobrir toda uma população para se obter um modelo sistemático simples e uniforme. As pesquisas aplicadas quanto à conhecida “boca de urna”, em períodos eleitorais, por exemplo, utilizam esse tipo de amostragem. As pesquisas quanto à preferência de um produto no local de comercialização é outro exemplo de aplicação no mundo corporativo. Exemplo: Se uma empresa produz diariamente camisas de alfaiataria, pode-se, a cada 200 peças produ- zidas, extrair uma para pertencer a uma amostra da produção de um dia. 2.4.4 Amostragem estratificada Nesse tipo de amostragem, divide-se, ou seja, estratifica-se a população em um certo número de subpopulações, em que estas não contenham elementos que apareçam em mais de uma subpo- pulação, e então, extrai-se uma amostra de cada subpopulação. Esse tipo de amostragem costu- 23 ma ser usado quando vários métodos diferentes de coleta de dados são aplicados em diferentes partes de uma população – como na verificação da preferência sobre um produto, por exemplo. Exemplo: Sabendo o número de pessoas que vivem em São Paulo – SP, devem-se dividir as casas em níveis socioeconômicos e depois selecionar domicílios em cada nível de modo aleatório (como, por exemplo, de alta renda, de baixa renda, renda intermediária, etc.). É importante ressaltar que os estratos (ou subgrupos) devem ser homogêneos, ou seja, para que haja a menor variabilidade. 2.4.5 Amostragem de voluntários Trata-se de amostras cujos próprios elementos da população se voluntariam para participar da pesquisa. Exemplo: Para se estimar o grau auditivo entre os colaboradores de uma empresa metalúrgica – segmento em que há incidência de perda auditiva em longos períodos de trabalho – pode-se, por exemplo, solicitar voluntários de diferentes setores para conferir se há o problema na empresa, mesmo entre aqueles que não trabalham diretamente em ambiente de ruído. Pode-se, com isso, planejar ações de prevenção. 2.4.6 Amostragem por bola de neve Escolhem-se voluntários e estes indicam outras pessoas com o mesmo perfil para responder à pesquisa; estas, por sua vez, indicam outras pessoas, e assim sucessivamente, formando redes de referência. Exemplo: Em pesquisas de satisfação entre os consumidores de um produto pela internet, pode-se, por exemplo, solicitar que outras pessoas sejam consultadas sobre o mesmo produto, sugerindo mui- tas vezes a experimentação dele. 2.4.7 Amostragem por cotas Esta amostra não probabilística busca usar a mesma proporção de elementos referentes a cada estrato da população. Além disso, na amostragem por cotas, os elementos da amostra não são selecionados aleatoriamente. Exemplo: Uma empresa de pesquisas aplicadas deseja saber sobre a audiência de um canal de televisão, e não apenas isso, mas sobre a audiência de um jornal local no horário do meio-dia. São entre- vistadas 500 pessoas residentes no bairro X, de modo que, de cada 100 pessoas entrevistadas, 50 são donas de casa, 40 são trabalhadores e 10, crianças de menos de 16 anos. Dentro desse julgamento, o entrevistador pode escolher os entrevistados que prefere. 2.4.8 Amostragem por escolha racional É quando o pesquisador busca na população uma parte dela que interessa, ou seja, os partici- pantes são escolhidos por terem uma ou mais características específicas. 24 Laureate- International Universities Estatística para gestores Exemplo: Em uma pesquisa sobre o produto produzido por uma empresa automobilística, por exemplo, quer-se saber a opinião de consumidores do gênero feminino, na faixa etária de 21 a 40 anos apenas – pois este será o público-alvo de uma campanha de marketing. 2.4.9 Amostragem acidental É um método muito usado em pesquisas de opinião em grandes cidades, em que os entrevistados são acidentalmente escolhidos pelo pesquisador, sem uma estratégia predefinida. Exemplo: Uma rádio quer saber dos moradores de uma cidade qual a sua opinião sobre a segurança pú- blica na região. O pesquisador pode sair a campo e perguntar aleatoriamente para as pessoas, sem descriminação de perfil. 2.4.10 Amostragem com reposição Vimos a maioria dos tipos de amostragens quantitativas e veremos agora alguns outros tipos de amostragens, as qualitativas. Iniciamos pela amostragem com reposição, ou seja, aquela em que cada membro da população pode ser escolhido mais de uma vez. Exemplo: Esse tipo de amostragem é muito comum nos contextos corporativos e industriais, em que a mesma população (por exemplo, a de colaboradores) pode apontar diferentes nuances sobre os mais diversos problemas. As pesquisas de concorrência, por exemplo, também podem usar cada membro em diferentes contextos. 2.4.11 Amostragem sem reposição É a amostragem em que cada membro não pode ser escolhido mais de uma vez. Exemplo: Em uma fábrica de tecido, na testagem de qualidade, as amostras numeradas em uma pesquisa devem ser mensuradas apenas uma vez, ainda mais quando contrapostas as amostras de tipo de diferentes de tecido, com ou sem erros, etc., integrantes de um total. 2.5 Correlação e regressão linear Neste tópico, observaremos a análise simultânea de duas ou mais variáveis, analisando se existe alguma correlação significativa entre elas. Geralmente, o objetivo de uma pesquisa é estabelecer relações entre uma ou mais variáveis em termos de outras, prevendo ou estimando, por exemplo, as futuras vendas de um produto em função do seu preço, ou o avanço de certa doença em re- lação a uma região, ou ainda a despesa de uma família comgastos pessoais em função de sua renda, e assim sucessivamente. Nem sempre, porém, as relações entre variáveis são perceptíveis, e as correlações amostrais costumam ser usadas para resolver esse problema, ou seja, medem o grau de associação entre duas variáveis aleatórias. 25 O ideal é que pudéssemos prever algo exatamente em função de outra coisa, mas isso é uma tarefa bem difícil. Na maioria dos casos, estimamos, ou seja, conseguimos dizer quais valores são esperados como resultado da análise. Por exemplo, não podemos prever com exatidão qual será o cargo que mais pagará daqui a 10 ou 15 anos, porém, com base em dados históricos, podemos prever o salário médio de todos os principais cargos e estimar o seu salário para os próximos 10 ou 15 anos. No exemplo anterior, poderíamos considerar variáveis como salário atual do cargo e salário de anos anteriores de um grupo de pessoas que atuam nessa profissão, aumento de vagas e procura do curso por novos alunos; em toda essa investigação, procuramos encontrar alguma relação entre as variáveis de cada um desses pares e qual o grau dessa relação. A análise de correlação dá um número que resume o grau de relacionamento entre duas vari- áveis aleatórias X e Y, enquanto a análise de regressão nos dá uma equação matemática que descreve esse relacionamento. 2.5.1 Correlação Para o estudo do comportamento de duas variáveis, podemos usar os diagramas de dispersão, que vimos anteriormente, e o coeficiente de correlação, que resumidamente é um valor numérico para o grau de associação entre essas variáveis. Existem vários tipos de associação possíveis, o mais simples e usual é o modelo linear. O termo correlação indica o quão os valores de uma variável estão relacionados com os da outra. O livro de estatística aplicada para gestão empresarial foi produzido pelo professor Adriano Leal Bruni, chamado Estatística aplicada à gestão empresarial (2013), que aborda os conceitos ensinados neste material e vai mais a fundo. É um ótimo material que servirá como bibliografia complementar contendo conceitos e exercícios. NÃO DEIXE DE LER... 2.5.2 Regressão linear No diagrama de dispersão, sabemos que duas variáveis são representadas usando-se coorde- nadas x e y, em que cada coordenada é representada por um ponto. Os pontos, por sua vez, nos darão uma ideia se existe ou não correlação entre essas duas variáveis. A determinação da correlação entre duas variáveis no diagrama de dispersão é imprecisa e depende da experiência de quem observa. Um modo de resolver a questão é usar o coeficiente de correlação ou coeficiente de correlação de Pearson, proposto por Karl Pearson, um importante matemático britânico. Esse coeficiente apontará o grau de intensidade da correlação entre duas variáveis e o sentido dessa correlação, ou seja, sentido positivo ou negativo. 26 Laureate- International Universities Estatística para gestores Karl Pearson (1857-1936) é um dos teóricos clássicos da estatística moderna. Além dos estudos estatísticos na matemática, atuou em áreas como biologia, epidemiologia, antropometria, medicina e história social. Teve especial destaque correlação, regressão linear e classificação das distribuições. VOCÊ O CONHECE? A regressão linear simples refere-se a uma forma de estabelecer uma equação matemática linear, ou seja, uma reta, que defina o relacionamento entre duas variáveis. Logo, os valores do eixo y são descobertos com base em valores dados no eixo x, em que a variável y é chamada de variável dependente, e a variável x, de variável independente. Trata-se de traçar uma reta, que minimiza o quadro das distâncias de todos os pontos em relação a ela, ou seja, que consiga passar por cima do máximo de pontos que forem encontrados no gráfico, como podemos ver na figura a seguir: 35 30 25 20 15 10 5 0 20 4 6 8 10 12 14 16 Tempo (hs) Po pu la çã o (U FC ) Figura 10 – Exemplo de regressão linear. Fonte: Lima, 2011. Esse tipo de análise relaciona uma variável dependente com outras variáveis explicativa, cuja fórmula para isso é E (Y/Xi) = f (Xi). Quando a curva de regressão assume uma reta entre as variáveis (daí surge o termo linear), temos a seguinte fórmula: E(Y/XI) = β1 + β2 Xi. Em geral, o modelo mais conhecido de equação de regressão linear básico é: Sendo que: • - variável explicada (dependente); é o valor que queremos atingir; 27 • α- constante que representa a interceptação da reta com o eixo vertical; • β - representa o declive (coeficiente angular) da reta; • - variável explicativa (independente), representa o fator explicativo na equação; • - variável que inclui todos os fatores residuais e os possíveis erros de medição. Como exemplo, citamos Peixoto (2007): um pesquisador destacou uma amostra de observações acerca da despesa mensal em bens e em serviços culturais (Y) e o rendimento mensal per capita (X) de 14 famílias. Devemos escrever a equação da reta de regressão. Seguem algumas informações necessárias (PEIXOTO, 2007): m^ = (média de xy – média de x vezes a média de y)/média de x^2- A média de x elevada ao quadrado. Este é o coeficiente angular. b^= média de y- m^ vezes a média de x => este é o intercepto. Tabela 5 – Cálculo da regressão linear. Fonte: Adaptada de Peixoto, 2007. 28 Laureate- International Universities Estatística para gestores M^= 8335,71429 – (27,07143 x 207,85714)/ 70364,28571 – (207,85714)2 M^= 0,0997 b^= 27,07143– (0,0997x 207,85714) b^ = 6,3412 Logo, conforme Peixoto (2007), a equação da reta de regressão é: y = 0,0997x + 6,3412. NÃO DEIXE DE VER... Uma lista de exercícios sobre correlação e regressão linear produzido pelo IME/Uni- camp pode ser encontrada acessando o seguinte link <http://www.ime.unicamp. br/~hlachos/ExerciciosRegre.doc>. Os exercícios contêm gabarito e é explicado como resolvê-los. 29 Síntese Neste capítulo, você pôde compreender: • as principais técnicas de distribuição de frequência; fizemos, para isso, um estudo de conhecimento, construção e análise dos principais gráficos estatísticos; • como calcular as principais medidas de limite central e dispersão – quartis, decis, moda, mediana, média e as suas relações na estatística, em específico, nas noções desta disciplina para os gestores; • diferentes técnicas de amostragem e suas respectivas características, bem como a sua aplicação em distintos contextos corporativos; • e, por fim, a abordagem dos cálculos e do uso da correlação (que é o valor numérico para o grau de associação entre essas variáveis) e regressão linear (uma equação matemática linear que defina o relacionamento entre duas variáveis). Síntese 30 Laureate- International Universities Referências BRUNI, A. L. Estatística aplicada à gestão empresarial. 4. ed. São Paulo: Atlas, 2013. CASTRO, H. Medida de tendência central. Disponível em: <http://cmapspublic.ihmc.us/ rid=1HHLZ8YBC-26GTGKC-YNJ/ESTADISTICA%20%28ING.%20HILDA%20CASTRO>. Acesso em: 8 jun. 2015. WIKIHOW. Como criar uma amostra aleatória no Excel. Disponível em: <http://pt.wikihow. com/Criar-Uma-Amostra-Aleat%C3%B3ria-no-Excel>. Acesso em: 3 jul. 2015. CRESPO, A. A. Estatística fácil. São Paulo: Saraiva, 2002. FILHO, M. Gráfico pizza. Excel para Estagiários, [s. l.], 1 fev. 2015. Disponível em: <http:// excelparaestagiarios.com.br/graficos/grafico-de-pizza/>. Acesso em: 9 jun. 2015. INFORMÁTICA MÉDICA – UFPR. Fórmula de Sturges. Disponível em: <http://people.ufpr. br/~prbg/public_html/ce001/freq.pdf>. Acesso em: 23 jul. 2015. LACHOS, V. H. Estatística para experimentalistas. Campinas: Unicamp, 2007. Disponível em: <http://www.ime.unicamp.br/~hlachos/ExerciciosRegre.doc>. Acesso em: 2 jul. 2015. MACHADO, A. Média, moda e mediana. André Machado, Viamão, 1 dez. 2012. Disponível em: <http://www.andremachado.org/artigos/847/media-moda-e-mediana.html>.Acesso em: 8 jun. 2015. MACHADO, A. S. Matemática Machado: volume único. São Paulo: Atual, 2012. MAGALHÃES, M. N.; LIMA, A. C. P. Noções de probabilidade e estatística. 7. ed. São Paulo: Edusp, 2009. MARTINS, A. Estatística descritiva: tabelas e gráficos. São Paulo: EACH, [s. d.]. Disponível em: <http://www.each.usp.br/amartins/Aula8>. Acesso em: 2 jul. 2015. MORETTIN, P. A.; BUSSAB, W. O. Estatística básica. 6. ed. São Paulo: Saraiva, 2010. RIEPER, M. Como criar um gráfico box-plot Excel. Guia do Excel, [s. l.], 6 nov. 2012. Disponível em: <http://guiadoexcel.com.br/como-criar-um-grafico-de-box-plot-excel>. Acesso em: 9 jun. 2015. PEIXOTO, A. Regressão linear simples. São Paulo: Unifesp, 2007. Disponível em: <http:// telemedicina6.unifesp.br/set/curso/metodos/Metodos%20I/2007_06_18_M%C3%A9todos%20 Quantitativos%20I_AnaPeixoto_Regress%C3%A3o%20Linear%20Simples%20(textos%20e%20 historia).doc>. Acesso em: 2 jul. 2015. RODRIGUES, E. C. Amostragem aleatória e descrição de dados: parte II. Belo Horizon- te: UFMG, 2011. Disponível em: <ftp://ftp.est.ufmg.br/pub/fcruz/ep-erica/Cap6Parte2.pdf>. Acesso em: 2 jul. 2015. SILVA, P. C. R. Introdução à estatística econômica. Disponível em: <alexandreprofessor.blo- gspot.com.br/p/probabilidade-e-distribuicoes-de.html>. Acesso em: 2 jul. 2015. Wawrzeniak, D. Tudo sobre os gráficos de análise técnica. Blog do Bússola do Investidor, [s. l.], 11 mar. 2014. Disponível em: <http://blog.bussoladoinvestidor.com.br/graficos-de-analise- -tecnica/>. Acesso em: 24 jul. 2015. Bibliográficas
Compartilhar