Prévia do material em texto
43 UNIDADE 2 APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO OBJETIVOS DE APRENDIZAGEM PLANO DE ESTUDOS A partir desta unidade você será capaz de: • aprender a organizar os dados coletados em uma pesquisa por meio de tabelas e gráficos; • estabelecer a tabela e o gráfico mais apropriado para cada tipo de variável; • entender como podemos extrair informações de tabelas e gráficos por meio das medidas resumo; • definir os conceitos de assimetria e curtose e aprender a medi-las. A Unidade 2 está dividida em quatro tópicos, contendo exemplos e, no final de cada um deles, há exercícios para familiarizá-lo(a) com o assunto. TÓPICO 1 – DISTRIBUIÇÃO DE FREQUÊNCIA TÓPICO 2 – GRÁFICOS ESTATÍSTICOS TÓPICO 3 – MEDIDAS RESUMO – MEDIDAS DE POSIÇÃO TÓPICO 4 – MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE Assista ao vídeo desta unidade. 44 45 TÓPICO 1 DISTRIBUIÇÃO DE FREQUÊNCIA UNIDADE 2 1 INTRODUÇÃO Vimos na Unidade 1 que, ao fazer uma pesquisa estatística, precisamos definir as variáveis que iremos pesquisar, se iremos trabalhar com a população ou com uma amostra, e quais são os tipos de amostragem possíveis. Vimos também que as variáveis pesquisadas podem ser classificadas de acordo com suas características e que elas nos vêm em séries. Claramente, é difícil trabalhar e extrair informações de uma série, numérica ou não. Geralmente, elas são grandes listas de valores que, embora repletos de informações, não permitem que consigamos tirar quaisquer informações a respeito. Na verdade, precisamos organizar estes dados de alguma maneira, para que possamos trabalhar com eles. Vamos pensar na pesquisa sobre o perfil do consumidor de determinada marca de desodorantes. Foram pesquisadas 200 pessoas e a seguir estão algumas variáveis consideradas na pesquisa. a) Gênero do consumidor: feminino ou masculino. b) Idade. c) Peso (kg). d) Altura (cm). e) Grau de instrução: fundamental, médio, superior. f) Periodicidade na prática de atividade física (por semana): 0, 1, 2, 3, 4, 5, 6, 7. Para cada pessoa entrevistada temos uma relação de seis respostas, ou seja, uma lista contendo 200 linhas com seis informações em cada linha, como a seguir: FIGURA 7 – DADOS COLETADOS NA PESQUISA SEXO IDADE PESO ALTURA GRAU PERIODICIDADE F 23 60,4 163 Médio 2 M 30 83,5 180 Superior 4 F 32 71,8 172 Superior 3 F 41 62,6 171 Médio 4 ... ... ... ... ... ... FONTE: A autora. UNIDADE 2 | APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO 46 Como não nos interessa muito a resposta de fulano ou beltrano, mas sim, quantos responderam uma ou outra coisa, o foco é a variável. Nenhuma conclusão poderia ser tirada de uma lista deste tamanho! Então é imprescindível que haja uma organização nestes dados, que eles sejam apresentados de forma que realmente forneçam informações. Esta apresentação pode ser feita de duas formas distintas, não excludentes – através de tabelas ou de gráficos, conforme mencionamos na unidade anterior. Neste tópico estudaremos a apresentação de dados por meio de tabelas especiais chamadas de distribuição de frequência. Vamos aprender a construir estas distribuições, levando em consideração as peculiaridades da variável envolvida. 2 DISTRIBUIÇÃO DE FREQUÊNCIA Voltemos ao exemplo proposto, onde consideramos seis variáveis: gênero, idade, peso, altura, grau de instrução e periodicidade. Cada uma destas variáveis pode ser apresentada por meio de uma tabela, relacionando as opções de respostas com o número de ocorrências de cada uma. É aconselhável a inclusão de um título sucinto na primeira linha, explicando do que trata a variável, a data e o ano da pesquisa e, no rodapé, mencionar a fonte dos dados utilizados (SILVER, 2000). Se a variável for quantitativa, devemos decidir pela precisão dos dados (arredondamento, se for o caso) e toda a tabela deve respeitar o mesmo número de casas decimais preestabelecido. Assim como nas demais séries estatísticas, as distribuições de frequência se apresentam em colunas: na primeira, constam as possibilidades de respostas para a variável, na segunda, o número de ocorrências para cada possibilidade, que recebe o nome de frequência absoluta, ou simplesmente frequência, denotadas usualmente por ni. Além destas duas colunas, algumas vezes é interessante a inclusão de uma terceira contendo as frequências relativas, que nada mais são do que quanto cada frequência representa em relação ao todo, denotadas por fi. Vamos apresentar alguns exemplos de distribuição de frequência para entendermos tudo o que foi definido até agora. EXEMPLO 1: A tabela a seguir apresenta a variável gênero, que apresenta duas possibilidades de respostas: feminino ou masculino. TÓPICO 1 | DISTRIBUIÇÃO DE FREQUÊNCIA 47 TABELA 6 – EXEMPLO DE DISTRIBUIÇÃO DE FREQUÊNCIA Gênero dos usuários do desodorante X Fevereiro/2012 ni fi Feminino 98 0,49 Masculino 102 0,51 TOTAL 200 1,00 FONTE: A autora. Para encontrar o valor do fi você deve dividir o valor do ni pelo total do ni. Na tabela ao lado, você deve realizar a seguinte operação: fi = ni = 98 =0,49 ∑ni 200 fi = ni = 102 = 051 ∑ni 200 Vamos entender melhor a tabela. Para a variável ‘gênero’, a segunda coluna nos informa que 98 pessoas responderam feminino, enquanto 102 responderam masculino, totalizando 200 pessoas. Note que a tabela nos informa que, nesta pesquisa, todas as pessoas responderam à pergunta relativa ao gênero e optaram por uma das respostas possíveis. Independentemente da variável, qualquer distribuição de frequência para este exemplo deve apresentar 200 como frequência absoluta total. Vamos agora entender como a terceira coluna foi construída. De 200 pessoas, 98 se disseram do gênero feminino, então a frequência relativa observada para este gênero foi de (98/200) = 0,49. Analogamente, em 200 pessoas, 102 se declararam do gênero masculino, implicando a frequência relativa deste gênero ser de (102/200) = 0,51. Assim, o total é de UNI UNI UNIDADE 2 | APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO 48 Independentemente da variável, qualquer distribuição de frequência deve apresentar 1 como frequência relativa total. Observe também que foram consideradas duas casas decimais depois da vírgula. EXEMPLO 2: A tabela a seguir fornece os resultados obtidos para a variável ‘grau de instrução’. TABELA 7 – EXEMPLO 2 PARA DISTRIBUIÇÃO DE FREQUÊNCIA Grau de instrução dos usuários do desodorante X Fevereiro/2012 ni fi Fundamental 21 0,10 Médio 92 0,46 Superior 84 0,42 Não responderam 3 0,02 TOTAL 200 1,00 FONTE: A autora Observe que as regras de arredondamento foram utilizadas para o preenchimento desta tabela: Algumas vezes, a inclusão de uma quarta coluna na distribuição de frequência é bastante útil: trata-se da frequência acumulada. Como o próprio nome sugere, ela é obtida acumulando-se as frequências relativas. Vamos reapresentar o exemplo anterior contendo esta nova informação. EXEMPLO 3: A tabela a seguir fornece os resultados obtidos para a variável ‘grau de instrução’. UNI 21 200 = 0,105 0,10Regras ABNT 3 200 = 0,015 0,02Regras ABNT TÓPICO 1 | DISTRIBUIÇÃO DE FREQUÊNCIA 49 TABELA 8 – DISTRIBUIÇÃO DE FREQUÊNCIAS COM FREQUÊNCIA ACUMULADA Grau de instrução dos usuários do desodorante X Fevereiro/2012 ni fi fai Fundamental 21 0,10 0,10 Médio 92 0,46 0,56 Superior 84 0,42 0,98 Não responderam 3 0,02 1,00 TOTAL 200 1,00 FONTE: A autora Note que, na primeira linha, a frequência acumulada nada mais é do que a frequência relativa (não há o que acumular). Na segunda linha, a frequência acumulada é formada pela soma da frequência acumulada da linha anterior com a frequência relativa da segunda linha (0,10 + 0,46 = 0,56). A terceira frequência acumuladaé construída de maneira análoga: corresponde à soma da segunda frequência acumulada com a terceira frequência relativa (0,56 + 0,42 = 0,98); a quarta frequência é, portanto, (0,98 + 0,02 = 1,00). Na verdade, frequência acumulada correspondente à última linha sempre será 1. Você consegue responder por quê? Podemos interpretar a frequência relativa (fi) da seguinte forma: • 10% das pessoas ouvidas possuem, pelo menos, nível fundamental de instrução. • 46% das pessoas ouvidas possuem nível médio de instrução. • 42% das pessoas ouvidas possuem nível superior de instrução. Podemos interpretar a frequência acumulada (fai) da seguinte forma: • 10 % das pessoas ouvidas possuem, pelo menos, nível fundamental de instrução. • Até 56% das pessoas ouvidas possuem, pelo menos, nível médio de instrução. • Até 98% das pessoas ouvidas possuem, pelo menos, nível superior de instrução. Observe que os exemplos anteriores tratavam de variáveis qualitativas. Vamos exibir uma distribuição de frequência simples de uma variável quantitativa discreta. Relembre as regras de arredondamento na p. 26. EXEMPLO 4: A tabela a seguir apresenta os dados encontrados para a variável ‘periodicidade de atividade física’. UNI UNIDADE 2 | APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO 50 TABELA 9 – EXEMPLO 2 DE DISTRIBUIÇÃO DE FREQUÊNCIA ACUMULADA Periodicidade de atividade física dos usuários do desodorante X Fevereiro/2012 ni fi fai 0 19 0,09 0,09 1 10 0,05 0,14 2 56 0,28 0,42 3 44 0,22 0,64 4 30 0,15 0,79 5 23 0,12 0,91 6 14 0,07 0,98 7 4 0,02 1 TOTAL 200 1 FONTE: A autora Atente para as diferenças entre as séries estatísticas vistas na unidade anterior e para a distribuição de frequências. Embora a tabela contenha um número maior de linhas, tanto as variáveis qualitativas e as quantitativas discretas podem ser acomodadas facilmente em tabelas de frequência simples. No caso das variáveis quantitativas contínuas, este tipo de tabela pode não ser o mais adequado. Por exemplo, pensemos na variável peso. O fato de terem sido entrevistadas 200 pessoas abre a possibilidade de terem sido observados 200 pesos diferentes, entre 45 kg e 98 kg, por exemplo! Assim, uma tabela de frequência simples não seria eficiente no sentido de resumir as informações. Para esses casos, temos a tabela de intervalos de classes. Esta tabela consiste em, ao invés de trabalharmos com todos os valores de pesos observados, trabalharmos com faixas de valores. 2.1 DADOS BRUTOS Ao realizar uma pesquisa temos os dados brutos, ou seja, é o conjunto de dados obtidos após a crítica dos valores observados em campo e trazidos para análise da forma como foram coletados. UNI TÓPICO 1 | DISTRIBUIÇÃO DE FREQUÊNCIA 51 Suponha que em 2014 o RH da empresa XYZ tenha realizado uma pesquisa com seus colaboradores para saber suas idades, os dados obtidos foram: 16 – 16 – 25 – 24 – 22 – 18 – 27 – 25 – 29 – 28 – 38 – 37 – 34 – 33 – 31 – 30 – 39 – 28 – 22 – 21 – 27 – 25 – 23 – 24 – 20 2.2 ROL Ao iniciar a análise dos dados brutos os colocamos em ordem crescente ou decrescente. Este processo é chamado de Rol. Levando em conta a pesquisa realizada no item 2.1 vamos realizar o rol da pesquisa, portanto, vamos obter: 16 – 16 – 18 – 20 – 21 – 22 – 22 – 23 – 24 – 24 – 25 – 25 – 25 - 27 – 27 – 28 – 28 – 29 – 30 – 31 – 33 - 34 – 37 – 38 – 39 2.3 AMPLITUDE TOTAL OU RANGE (R) A amplitude total ou range é a diferença entre o maior dado observado e o menor, assim: R = 39 – 16 R = 23 2.4 DISTRIBUIÇÃO DE FREQUÊNCIA a) Relembrando, a distribuição de frequência é o arranjo dos valores e suas respectivas frequências, portanto, a distribuição de frequências para o exemplo anterior é: UNIDADE 2 | APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO 52 Exemplo de uma distribuição de frequência de variável discreta. a) Vamos supor que realizamos uma pesquisa com o peso (massa) de 100 pessoas, nos deparamos com o corpo da seguinte distribuição de frequências a seguir: UNI TÓPICO 1 | DISTRIBUIÇÃO DE FREQUÊNCIA 53 Classe Fi 45 50 50 55 55 60 60 65 65 70 70 75 75 80 80 85 85 90 90 95 Σ 3 7 10 12 5 15 25 18 3 2 100 Exemplo de uma distribuição de frequência de variável contínua. 2.5 – Número de classes (k) Não há uma fórmula exata para se calcular o número de classes, varia de bibliografia para bibliografia, pesquisas ou até mesmo modelos para que a pesquisa fique melhor apresentada àqueles que irão analisá-las. Vamos abordar as mais utilizadas: Temos as seguintes opções: a) Fórmula de Sturges: k ≅ 1 + 3,22 log n, onde n é o tamanho da amostra b) Exemplo: seja n o número total da amostra n = 49 a) k ≅ 1 + 3,22 log 49 k ≅ 7 a) k ≅ 7 UNI UNIDADE 2 | APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO 54 Quando utilizamos algumas destas fórmulas, temos que aproximar o resultado para o número inteiro imediatamente maior. Lembrando que o intervalo das classes pode ser definido através da equipe responsável pela realização da pesquisa. 2.6 AMPLITUDE DAS CLASSES (h) A amplitude da classe é o intervalo de variação de cada classe, se verificarmos o exemplo b do item 2.4 vamos obter a amplitude da classe igual a 5. Para se calcular a amplitude da classe é necessário calcular a amplitude total ou Range e o número de classes. A fórmula que utilizamos para calcular a amplitude das classes é: h = R : k Assim: TÓPICO 1 | DISTRIBUIÇÃO DE FREQUÊNCIA 55 2.7 LIMITE DAS CLASSES Estabelecidos os intervalos, voltamos para a série numérica com os dados observados. Como o primeiro intervalo deve contemplar os dados de 45 a 50 quilogramas, contamos quantos valores se enquadram nesta situação: o número de dados será a frequência absoluta associada ao intervalo de classe de 45 a 50. O segundo intervalo deve contemplar todas as observações de 50 a 55 quilogramas, mas daí surge um problema: e se alguém pesar exatamente 50 kg? Este valor deve ser somado ao primeiro ou ao segundo intervalo? Se fizer parte dos dois intervalos, estaremos contando este dado duas vezes, ou seja, precisamos decidir em qual intervalo iremos considerá-lo. Segundo as regras do IBGE (IBGE, 1993), para resolver este impasse, vamos incluir o limite inferior dos intervalos e excluir o limite superior de cada intervalo. Isto significa que o primeiro intervalo contará com todos os dados que vão de 45 kg inclusive até o valor mais próximo possível de 50 kg, o segundo intervalo conterá os dados de 50 kg inclusive até o valor mais próximo possível de 55 kg e assim por diante. Ex.: 45 50; compreende todos os valores de 45 a 50, excluindo o 50. 50 55; compreende todos os valores de 50 a 55, excluindo o 55. E assim nas demais classes. Note que, embora mais eficiente, ao adotarmos o modelo envolvendo intervalo de classes, perdemos informação: não podemos mais precisar quantas pessoas pesam, por exemplo, 47 kg. 56 RESUMO DO TÓPICO 1 Neste tópico, aprendemos que podemos apresentar dados por meio de tabelas, mais precisamente: • A tabela resume as informações obtidas por meio da pesquisa, existentes nas séries estatísticas. • Para cada variável montamos uma tabela de frequências. • Toda tabela deve conter um título sucinto na primeira linha, explicando de que trata a variável, a data e o ano da pesquisa, e no rodapé deve mencionar a fonte dos dados apresentados (SILVER, 2000). • Precisamos decidir qual é a precisão dos dados que utilizaremos na tabela, ou seja, quantas casas decimais consideraremos na apresentação. • Estabelecemos os conceitos de frequência absoluta, frequência relativa e frequência acumulada. • Dados relacionados a variáveis qualitativas devem ser apresentados por meio de distribuiçãode frequência simples. • Variáveis quantitativas discretas podem ser apresentadas por meio de distribuição de frequência simples ou de distribuição de intervalo de classes, dependendo dos dados encontrados. • Dados quantitativos contínuos devem ser apresentados por meio de distribuição de intervalo de classes. 57 AUTOATIVIDADE Vamos fixar os conteúdos vistos neste tópico resolvendo alguns exercícios. 1 Um banco instalou um caixa eletrônico em um posto de combustível e está observando o número de usuários que vem utilizando o serviço. Diariamente, o número de clientes que utilizou o serviço nos últimos 32 dias foi: 15 17 16 15 17 14 17 16 16 17 15 18 14 17 15 14 15 14 15 16 17 18 18 17 15 16 14 18 18 16 15 14. a) Organize uma tabela de frequências (utilize 4 casas decimais). b) Qual é a porcentagem das observações está abaixo de 16 dias? 2 Um posto de saúde de certo bairro mantém um arquivo com o número de pacientes que procuram o consultório odontológico diariamente. Os dados são os seguintes: 3, 4, 3, 4, 5, 1, 6, 3, 4, 5, 3, 4, 3, 3, 4, 3, 5, 5, 5, 5, 6, 11, 10, 2, 1, 2, 3, 1, 5, 2. Organize uma tabela de frequência. 3 (MAGALHAES, 2010) O tempo de utilização de caixas eletrônicos depende de cada usuário e das operações efetuadas. Foram coletadas 26 medidas desse tempo (minutos): 1,1 1,2 1,7 1,5 0,9 1,3 1,4 1,6 1,7 1,6 1,0 0,8 1,5 1,3 1,7 1,6 1,4 1,2 1,2 1,0 0,9 1,8 1,7 1,5 1,3 1,5 a) Organize uma tabela de frequência sem agrupar dados. b) Agrupe os dados em faixas de 0,2 minutos a partir de 0,8 e obtenha uma nova tabela de frequência. OBS.: Utilize 3 casas decimais depois da vírgula. 4 (MAGALHÃES, 2010) O valor médio de comercialização da saca de milho de 60 quilos na BM&F é apresentado a seguir, em reais, para os últimos 40 meses. 6,1 6,2 6,7 6,5 6,9 6,3 7,4 7,6 7,7 7,6 7,3 7,7 7,6 7,4 7,2 7,2 7,3 7,6 7,5 7,4 7,5 7,7 8,2 8,3 8,1 8,1 8,1 7,9 7,8 7,4 7,5 7,6 7,5 7,6 7,4 7,3 7,4 7,5 7,5 7,4 Organize os dados em faixas de tamanho 0,4 a partir de 6, utilizando quatro casas decimais após a vírgula. 58 59 TÓPICO 2 GRÁFICOS ESTATÍSTICOS UNIDADE 2 1 INTRODUÇÃO Nos tópicos anteriores, aprendemos a resumir os dados de uma pesquisa estatística por meio de séries, distribuição de frequência simples ou de intervalos de classes. Vimos que a escolha do tipo de tabela a ser utilizada depende das peculiaridades da variável estudada: tabelas de frequência simples são indicadas para variáveis qualitativas e variáveis quantitativas discretas, enquanto as tabelas de intervalos de classe são indicadas para variáveis quantitativas contínuas. Existe outra maneira de apresentar os dados de uma pesquisa: são os gráficos estatísticos. Enquanto a tabela sintetiza as informações, o gráfico possibilita uma visão mais ampla, inclusive a comparação entre variáveis ou dados relativos à mesma variável, coletados em períodos diferentes. Através dele, conseguimos ver mais rapidamente o comportamento da variável do que por meio da tabela. Na verdade, uma maneira de apresentação não substitui a outra, mas a complementa. A tabela é primordial: é dela que tiramos as informações para montar o gráfico, utilizando as características que queremos evidenciar; por outro lado, as tabelas carregam mais informações que os gráficos. Portanto, sempre que possível, exibimos tanto a tabela como o gráfico associado a cada variável. Na imprensa em geral, observamos o pictograma: gráfico que utiliza desenhos compatíveis com o objeto de pesquisa ou a variável retratada. FIGURA 8 – EXEMPLO DE PICTOGRAMA FONTE: Disponível em: <http://universosertanejo.blogosfera.uol.com.br/2010/11/09/mais- buscados/>. Acesso em: 29 jan. 2014. UNIDADE 2 | APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO 60 A figura anterior compara os gêneros musicais mais baixados pelos brasileiros da internet em 2006. Para compor o gráfico foi utilizada a imagem de um equalizador, onde cada um dos botões representa um gênero musical e a altura em que se encontra cada botão reflete a porcentagem do gênero correspondente. Embora o pictograma passe a informação que se dispõe a passar, note que ele não informa qual é o total de dados considerados, nem como as porcentagens apresentadas foram calculadas (a soma delas é muito superior a 100%). Assim, os gráficos exigem interpretação e informações adicionais que devem ser apresentadas no corpo da pesquisa. Observe também que o gráfico possui um título e deixa clara – ainda que seja difícil visualizar no exemplo dado – a fonte dos dados. Entretanto, não é mencionado, por exemplo, o ano em que os dados foram coletados (esta informação está no corpo da reportagem). Da mesma forma que as distribuições de frequência, os gráficos devem conter algumas informações básicas: um título que deixe clara a variável apresentada, a data cujos dados se referem, a fonte dos dados e uma legenda, explicando as convenções utilizadas na confecção do gráfico (cores, retículas etc.). Essas informações ficarão mais claras no decorrer deste tópico. Para mais detalhes sobre a tabulação, consulte (OLIVEIRA, 2010). Lá, você encontrará todas as especificações técnicas para a confecção de um gráfico. Embora possua grande apelo visual, o pictograma não é adequado para qualquer tipo de variável – observe que o exemplo anterior representa uma variável quantitativa discreta. Na verdade, o pictograma é obtido a partir de outros tipos de gráficos, mais gerais, que iremos estudar a seguir. 2 TIPOS DE GRÁFICOS Assim como no caso das séries estatísticas e distribuições de frequência, cada variável pede um tipo de gráfico diferente para representá-la. 2.1 GRÁFICO DE LINHA O gráfico de linha é aquele que mais se aproxima dos gráficos que fazíamos quando estudávamos função, no ensino fundamental e médio. Ele é constituído sobre o plano cartesiano (o eixo horizontal x e o eixo vertical y) por pares de pontos (x,y), que correspondem à variável e à frequência observada e são ideais para apresentar séries históricas e séries mistas que as envolvam. Vamos ver alguns exemplos: UNI TÓPICO 2 | GRÁFICOS ESTATÍSTICOS 61 EXEMPLO 1: voltemos para o exemplo dado na primeira unidade: TABELA 10 – SÉRIE HISTÓRICA EXTENSÃO DA REDE RODOVIÁRIA BRASILEIRA PAVIMENTADA – 1987-1992 Ano Extensão (km) 1987 128.206 1988 133.623 1989 136.647 1990 139.353 1991 139.415 1992 143.247 FONTE: Oliveira (2010, p. 14) O gráfico de linha ficará então da seguinte forma: FIGURA 9 – GRÁFICO DE LINHA FONTE: Oliveira (2010, p. 14) Note que o eixo das abscissas (eixo x, horizontal) corresponde ao ano, enquanto o eixo das ordenadas (eixo y, vertical) corresponde à extensão de terra. Além disso, note que a origem do plano cartesiano foi deslocada: se o primeiro ano considerado é 1987, não teria sentido começar em 0. Vamos agora exibir um exemplo envolvendo uma tabela de dupla entrada. Pela maneira como é construída esta série, podemos pensá-la como várias séries UNIDADE 2 | APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO 62 TABELA 11 – TABELA DE DUPLA ENTRADA TAXA DE MORTALIDADE INFANTIL, SEGUNDO AS GRANDES REGIÕES DO BRASIL – 1970-1990 Ano Taxa de mortalidade infantil (%) Brasil Norte Nordeste Sudeste Sul C e n t r o - Oeste 1970 115,0 104,3 146,4 96,2 81,9 89,7 1975 100,0 94,0 128,0 86,0 72,0 77,0 1980 82,8 79,4 117,6 57,0 58,9 69,6 1985 62,9 60,8 93,6 42,6 39,5 47,1 1990 48,3 44,6 74,3 33,6 27,4 31,2 FONTE: IBGE (1993) numéricas unidas na mesma tabela, e é desta forma que o gráfico de linha irá considerá-la. Assim, para cada uma das variáveis qualitativas, haverá uma linha no gráfico. EXEMPLO 2: Considere a tabela de dupla entrada dada como exemplo na unidade anterior. O gráfico de linha ficará da seguinte forma: FIGURA 10 – GRÁFICO DE LINHA PARA SÉRIE LISTA FONTE:IBGE (1993) TÓPICO 2 | GRÁFICOS ESTATÍSTICOS 63 FIGURA 10 – GRÁFICO DE LINHA PARA SÉRIE LISTA O exemplo a seguir mostra um gráfico de linha vinculado na imprensa há alguns meses, sobre a cotação do dólar: FIGURA 11 – EXEMPLO DE GRÁFICO DE LINHA VINCULADO NA IMPRENSA FONTE: Disponível em: <http://g1.globo.com/economia/>. Acesso em: 29 jan. 2014. 2.2 GRÁFICO DE COLUNAS OU BARRAS Para representar as variáveis qualitativas ordinais ou variáveis discretas, o gráfico de colunas (ou barras) é bastante indicado. Assim, é ideal para séries territoriais, séries categóricas. Ele consiste em representarmos a frequência absoluta da variável por meio de colunas (ou barras). EXEMPLO: Consideremos a tabela estatística a seguir: TABELA 12 – PESSOAS COM MAIS DE 15 ANOS EM ESTADOS PRÉ- SELECIONADOS – 2008 Ano Número de pessoas Amazonas 2.279.811 Paraíba 2.823.492 São Paulo 31.825.460 Rio Grande do Sul 8.397.355 Mato Grosso 2.266.442 Distrito Federal 1.931.019 FONTE: IBGE (1993) O gráfico de colunas que representa esta situação é o seguinte: UNIDADE 2 | APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO 64 FIGURA 12 – GRÁFICO DE COLUNA PARA SÉRIE TERRITORIAL FONTE: IBGE (1993) Observe como fica mais simples comparar as quantidades por meio do gráfico. Note também que, para despoluir a imagem, optamos por exibir a quantidade de pessoas em milhões. EXEMPLO 2: FIGURA 13 – GRÁFICO DE BARRAS NA IMPRENSA FONTE: Disponível em: <http://datafolha.folha.uol.com.br/>. Acesso em: 29 jan. 2014. É possível utilizar o gráfico de barras para séries mistas também. Observe no exemplo a seguir que o gráfico compara o percentual do Produto Interno Bruto relacionado ao crédito imobiliário, direcionado e crédito livre em diferentes anos. 60 30 26 26 16 Quais são os tipos de câncer mais comuns? cada entrevistado deu duas respostas Mama Próstata Pulmão Útero Pele TÓPICO 2 | GRÁFICOS ESTATÍSTICOS 65 FIGURA 12 – GRÁFICO DE COLUNA PARA SÉRIE TERRITORIAL FIGURA 14 – EXEMPLO DE GRÁFICO COM VÁRIAS COLUNAS FONTE: Disponível em: <http://www.politicaeconomia.com/2012/06/bolha-imobiliaria-saques- do-fgts-batem.html>. Acesso em: 29 jan. 2014. Na imagem anterior, as três colunas estão sobrepostas, mas poderiam estar lado a lado. Observe: FIGURA 15 – GRÁFICO COM MÚLTIPLAS COLUNAS FONTE: IBGE (1993) UNIDADE 2 | APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO 66 O gráfico de barras é similar ao de colunas: a diferença está no sentido da imagem: enquanto um cresce verticalmente, o outro cresce horizontalmente. 2.3 GRÁFICO DE SETORES O gráfico de setores é também conhecido como gráfico de pizza. Trata- se de um círculo dividido por fatias cujos ângulos internos são proporcionais às partes envolvidas. Neste gráfico, trabalhamos com proporcionalidades, ou seja, com frequências relativas. Assim, ele é indicado para variáveis qualitativas, desde que suas séries não possuam muitas linhas. Vamos aos exemplos: EXEMPLO 1: Voltemos ao exemplo utilizado para séries categóricas na unidade anterior. TABELA 13 – EXTENSÃO DA MALHA RODOVIÁRIA BRASILEIRA POR ÓRGÃO DE ADMINISTRAÇÃO – 2013 Órgão Extensão (km) Municipal 175.822,19 Estadual 22.101,62 Federal 1.055,82 FONTE: DER O primeiro passo é construir a distribuição de frequência desta tabela. UNI TÓPICO 2 | GRÁFICOS ESTATÍSTICOS 67 O primeiro passo é construir a distribuição de frequência desta tabela. TABELA 14 – EXTENSÃO DA MALHA RODOVIÁRIA BRASILEIRA POR ÓRGÃO DE ADMINISTRAÇÃO – 2013 Órgão ni fi Municipal 175.822,19 0,8836 Estadual 22.101,62 0,1111 Federal 1.055,82 0,0053 TOTAL 198.979,63 1,0000 FONTE: DER Note que as porcentagens associadas a cada linha correspondem à multiplicação da frequência relativa por 100. E como vamos saber qual é o ângulo interno de cada fatia associada ao órgão em questão? Basta multiplicar as frequências relativas por 360º. Assim, temos TABELA 15 – EXTENSÃO DA MALHA RODOVIÁRIA BRASILEIRA POR ÓRGÃO DE ADMINISTRAÇÃO – 2013 Órgão Extensão (%) Ângulo interno Municipal 88,36 318,1º Estadual 11,11 40,0º Federal 5,3 1,9º FONTE: DER Assim, o gráfico de setores que apresenta esta tabela é dado por: FIGURA 16 – EXEMPLO GRÁFICO DE SETORES FONTE: DER EXTENSÃO DA MALHA RODOVIÁRIA BRASILEIRA POR ORGÃO DE ADMINISTRAÇÃO - 2013 Municipal Estadual Federal UNIDADE 2 | APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO 68 EXEMPLO 2: O mesmo gráfico pode aparecer no formato de rosca (gráfico de rosca). Note que é o mesmo gráfico! FIGURA 1 – EXEMPLO GRÁFICO DE SETORES FONTE: DER EXEMPLO 3: Na figura a seguir, temos um exemplo do gráfico de setores no formato “rosca” presente na imprensa. FIGURA 18 – EXEMPLO GRÁFICO DE SETORES FONTE: Disponível em: <http://www.istoe.com.br>. Acesso em: 29 jan. 2014. EXTENSÃO DA MALHA RODOVIÁRIA BRASILEIRA POR ORGÃO DE ADMINISTRAÇÃO - 2013 Municipal Estadual Federal TÓPICO 2 | GRÁFICOS ESTATÍSTICOS 69 2.4 OUTROS TIPOS DE GRÁFICOS Existem vários outros tipos de gráfico que, em geral, são tipos particulares dos que vimos anteriormente. Exemplos destes gráficos são os estereogramas, versões dos gráficos de setores ou de colunas em três dimensões. EXEMPLO: O estereograma a seguir se refere ao número de crianças que tem acesso à coleta sanguínea em até sete dias depois do nascimento. FIGURA 19 – EXEMPLO DE ESTEREOGRAMA EM PIZZA FONTE: Disponível em: <http://www.brasil.gov.br/>. Acesso em: 29 jan. 2014. FIGURA 20 – EXEMPLO DE ESTEREOGRAMA EM COLUNAS FONTE: Disponível em: <http://www.cetsp.com.br>. Acesso em: 29 jan. 2014. O pictograma é outro gráfico que é originado, frequentemente, dos gráficos de coluna ou barra. Observe: 76,80% 91,10% Percepção em fev/2011 Percepção ago/2010 Percepção que o condutor tem de estar respeitando o pedestre UNIDADE 2 | APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO 70 FIGURA 21 – EXEMPLO DE PICTOGRAMA FONTE: Jornal O Globo. Disponível em: <https://lh5.ggpht.com/ hiZCA9ULV7Urieg3aXnMYuCs92Umn-ol-0Fu5emt9c2OJnIoVyz5bFanb gSgi3XLE5r-=s93>. Acesso em: 5 fev. 2014. Há outros tipos de gráficos, menos usuais. Não entraremos em detalhes neste texto, mas, caso você tenha interesse, consulte (OLIVEIRA, 2010). Os gráficos que apresentamos podem ser utilizados para apresentar variáveis qualitativas e variáveis quantitativas discretas, entretanto, nenhum deles é adequado para variáveis quantitativas contínuas. No próximo tópico, aprenderemos a representar graficamente este tipo de variável, seja por meio do histograma, seja por meio do box plot. 71 RESUMO DO TÓPICO 2 Vamos, a seguir, relembrar brevemente o que vimos neste tópico. • O gráfico é uma maneira de proporcionar uma visão mais ampla do comportamento da variável estudada, da comparação entre variáveis ou dados relativos à mesma variável, coletados em períodos diferentes. • Todo gráfico deve possuir um título, a data cujos dados se referem à fonte dos dados e uma legenda, explicando as convenções utilizadas na confecção do gráfico. • O gráfico de linha é ideal para apresentar séries históricas e séries mistas que as envolvam. • Para representar as variáveis qualitativas ordinais ou variáveis discretas, o gráfico de colunas (ou barras) é bastante indicado. Assim, é ideal para séries territoriais, séries categóricas. • O gráfico de setores, ou gráfico de pizza, trabalha com frequências relativas, sendo indicado para variáveis qualitativas, desde que suas séries não possuam muitas linhas. • O estereograma é uma versão do gráfico de setores ou do gráfico de pizza em três dimensões. 72 AUTOATIVIDADE Vamos fixar os conteúdos vistos neste tópico, através de alguns exercícios. 1 Considere as seguintes tabelas. Qual é o gráfico mais indicado para uma das situações?a) GRAU DE INSTRUÇÃO DOS USUÁRIOS DO DESODORANTE X - FEVEREIRO 2012 Grau de instrução Número de usuários Fundamental 21 Médio 92 Superior 84 Não responderam 3 FONTE: Dados fictícios b) PERIODICIDADE DE ATIVIDADE FÍSICA DOS USUÁRIOS DO DESODORANTE X - FEVEREIRO 2012 Peridiocidade Número de usuários 0 19 1 10 2 56 3 44 4 30 5 23 6 14 7 4 FONTE: Dados fictícios c) USO DE UM PRODUTO EM DETERMINADA SEMANA NA INGLATERRA Região Utilização de produto Não usou Usou uma vez Usou mais de uma vez Norte 20 40 60 Central 60 35 35 Sul 100 60 20 73 Escócia 10 15 10 País de Gales 25 30 30 FONTE: Silver (2000) 2 Trace o gráfico de linha baseado na tabela a seguir MÉDIA MENSAL DA PRODUÇÃO BRASILEIRA DE CARVÃO BETUMINOSO – 1965-1972 Ano Produção (mil toneladas) 1965 45 1966 50 1967 70 1968 80 1969 130 1970 150 1971 200 1972 210 FONTE: Oliveira (2010) 3 Trace o gráfico de setores baseado na tabela a seguir: ESTIMATIVAS POPULACIONAIS DO BRASIL – GRANDES REGIÕES – 2000 Região População Norte 12.900.704 Nordeste 47.741.711 Sudeste 72.412.411 Sul 25.107.616 Centro-Oeste 11.636.728 FONTE: CASTANHEIRA, 2008 4 (CRESPO, 2005) Represente a tabela por meio de um gráfico de colunas múltiplas PROPORÇÃO DOS DOMICÍLIOS POR CONDIÇÃO DE OCUPAÇÃO BRASIL 1990-1991 Anos Natureza Próprios (%) Alugados (%) Cedidos (%) 1990 62,7 22,9 14,4 1991 70,3 16,5 13,2 FONTE: IBGE 74 75 TÓPICO 3 MEDIDAS RESUMO – MEDIDAS DE POSIÇÃO UNIDADE 2 1 INTRODUÇÃO Vamos voltar um pouco na matéria, na primeira parte, quando vimos como sistematizar as informações coletadas em uma pesquisa estatística. Vimos que os dados colhidos podiam ser apresentados em tabelas ou gráficos, facilitando assim o entendimento do que foi observado. Nosso interesse agora será resumir estas informações através de algumas medidas: as chamadas medidas resumo. Podemos dividir as medidas resumo em medidas de posição e medidas de dispersão. 2 MEDIDAS DE POSIÇÃO Suponha que você está indo pela primeira vez consultar determinado dentista. Ao chegar lá, observa que, embora seu horário esteja se aproximando, há uma quantidade razoável de pessoas na sala de espera, ou seja, a consulta irá atrasar. Como você é uma pessoa ocupada e sabe que vai ter que voltar lá inúmeras vezes, gostaria de ter uma ideia do quanto as consultas costumam atrasar. Então, você resolve perguntar para a secretária a respeito. Ao perguntar isso, nem passa pela sua cabeça que a secretária vá lhe fornecer uma lista com todos os atrasos para aquele horário no último ano ou mês. Na verdade, ela vai lhe dar uma única informação que vai fazer com que você tenha sua pergunta razoavelmente respondida. Essa é a ideia das medidas de posição, ou medidas de tendência central para um conjunto de dados qualquer. Suponhamos que o dentista também esteja atento a esta questão e resolveu pedir para sua secretária anotar a quantidade de minutos que cada paciente tem que esperar para ser atendido. No dia anterior a sua consulta, por exemplo, foram atendidas 20 pessoas, e os atrasos observados (em minutos) foram os seguintes: 10 15 8 15 22 15 30 21 15 18 33 42 45 22 15 18 22 25 18 22 Vamos partir destes valores para entender o significado de cada medida de posição que apresentaremos a seguir. 76 UNIDADE 2 | APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO 2.1 MÉDIA ARITMÉTICA A média aritmética é uma medida de posição para variáveis quantitativas, e é obtida somando-se todos os valores observados e dividindo-se o resultado pelo número de observações. Formalmente, se X for uma variável com observações chamamos de média de X à soma dos valores dividida pelo número de observações, ou seja, Vamos calcular o tempo médio de espera no dentista? A variável em questão é o tempo de espera, em minutos, e o número de observações é n = 20. Assim, Portanto, o tempo médio de espera no dentista naquele dia foi de 21,55min. Observe que o valor encontrado para a média não foi observado: de acordo com os dados obtidos pela secretária, ninguém esperou 21,55min naquele dia! Na verdade, o valor médio não precisa ser igual a um dos dados observados na pesquisa. Para calcularmos o tempo médio de atraso, realizamos uma soma com 20! Uma maneira mais eficiente de calcular a média é através da distribuição de frequências. Neste caso poderemos agrupar os dados que aparecem mais de uma vez. Vamos montar a tabela para o nosso exemplo: TABELA 16 – EXEMPLO DE MEDIDAS RESUMO ATRASO NO DENTISTA NO DIA ‘A’ - 2014 Tempo (min) ni 8 1 10 1 15 5 18 3 21 1 22 4 25 1 TÓPICO 3 | MEDIDAS RESUMO – MEDIDAS DE POSIÇÃO 77 Assim, ao invés de somarmos 20 + 20 + 20 + 20, fazemos 4×20. Desta forma, ao invés de realizarmos uma soma com 20 parcelas, faremos uma soma com 11 parcelas! 30 1 33 1 42 1 45 1 TOTAL 20 FONTE: A autora Podemos então reenunciar a definição de média aritmética da seguinte maneira: se X for uma variável com observações são respectivamente, com calculamos a média de X como EXEMPLO 2: Considere a seguinte tabela estatística: TABELA 17 – NÚMERO DE VESTIBULARES PRESTADOS ANTES DA APROVAÇÃO N ú m e r o d e vestibulares ni 0 28 1 54 2 40 3 10 4 8 TOTAL 140 FONTE: A autora 78 UNIDADE 2 | APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO Vamos calcular a quantidade média de vestibulares prestados. Note que, se os dados não estivessem agrupados, o trabalho seria razoável, pois o número de dados observados é de 140. Entretanto, como os dados estão agrupados na tabela de frequência, temos uma soma com 5 parcelas. Vamos criar uma coluna auxiliar na tabela para facilitar o trabalho. Observe: TABELA 18 – COLUNA AUXILIAR NA TABELA DE FREQUÊNCIA xi Ni 0 28 0∙28 = 0 1 54 1∙54 = 54 2 40 2∙40 = 80 3 10 3∙10 = 30 4 8 4∙8 = 32 TOTAL 140 196 FONTE: A autora Assim, calcular a média se resume a tomarmos a razão 196/140 = 1,4. E se a variável for quantitativa contínua? Se os dados não estiverem agrupados, basta aplicar a definição de média: somarmos todos os dados observados e dividir pela quantidade de dados observados. Mas e se os dados estiverem agrupados em uma distribuição de frequência? EXEMPLO: Considere a tabela de distribuição de frequência a seguir. TÓPICO 3 | MEDIDAS RESUMO – MEDIDAS DE POSIÇÃO 79 Vamos calcular a quantidade média de vestibulares prestados. TABELA 19 – DISTRIBUIÇÃO DE INTERVALOS DE CLASSE Altura dos estudantes da classe 2013 ni 128 ├ 131 3 131 ├ 134 7 134 ├ 137 5 137 ├ 140 4 140├ 144 1 TOTAL 20 FONTE: A autora Sabemos que há 3 estudantes na classe com altura entre 128 cm e 131 cm, mas não sabemos quantos medem, exatamente, 128 cm, ou 129 cm. Para calcular a média, neste caso, precisamos eleger um representante para cada classe, um número que utilizaremos para realizar os cálculos, no caso, o ponto médio do intervalo (OLIVEIRA, 2010). Depois, basta proceder como anteriormente. TABELA 20 – ALTURA DOS ESTUDANTES DA CLASSE 2013 xi ni 128 ├ 131 129,5 3 388,5 131 ├ 134 132,5 7 927,5 134 ├ 137 135,5 5 677,5 137 ├ 140 138,5 4 554 140├ 144 141,5 1 141,5 TOTAL 20 2689 FONTE: A autora O ponto médio da classe (xi) é a média aritmética entre o limite superior e o inferior da classe. Assim, se a classe for 128 131, teremos: como ponto médio da primeira classe. Para calcularmos a média de uma distribuição de frequência de variável contínua utilizamos o seguinte procedimento: 80 UNIDADE 2 | APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO Logo, a altura média dos estudantes da classe em 2013 foi de 134,45 cm. 2.2 MODA Outra medida de posição bastante utilizada é a moda. Dada uma variável X, a moda mo(X) consiste no valor mais frequente na observação, isto é, no valorque mais aparece. a) Moda para distribuição de frequência de variável discreta Mais uma vez, a distribuição de frequências pode nos auxiliar na tarefa. Voltemos ao exemplo do dentista. ATRASO NO DENTISTA NO DIA ‘A’ - 2014 Tempo (min) ni 8 1 10 1 15 5 18 3 21 1 22 4 25 1 30 1 33 1 42 1 45 1 TOTAL 20 FONTE: A autora TABELA 21 – EXEMPLO DE MEDIDAS RESUMO TÓPICO 3 | MEDIDAS RESUMO – MEDIDAS DE POSIÇÃO 81 Note que o valor que mais foi observado, isto é, o valor cuja frequência absoluta é maior, é o de 15min. Assim, a moda de atraso naquele dia foi de 15min (mo(X) = 15). Observe agora a seguinte tabela: TABELA 22 - NÚMERO DE CASOS DE CÂNCER EM PARENTES PRÓXIMOS – 2014 Incidência ni 0 4 1 4 2 6 3 6 4 2 5 4 Total 26 FONTE: A autora Ao procurarmos a moda para esta variável, notamos que há duas modas: 2 e 3 (a frequência absoluta de ambos é 6). Neste caso, dizemos que a variável é bimodal. mo(X) = 2 e 3 Assim, é possível que uma variável possua várias modas, isto é, ela pode ser multimodal. a) Moda para distribuição de frequência de variável contínua Existem diversas maneiras de se calcular a moda para uma distribuição de frequência de variável contínua, abordaremos nesta disciplina a Moda de distribuição de frequência de variável contínua pelo método de Czuber. O primeiro passo é identificar a classe modal em nossa distribuição de frequência, a classe modal será aquela que apresentar maior frequência absoluta simples (ni): 82 UNIDADE 2 | APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO ni = 7 Classe modal (maior número do ni) ├ Após identificar a classe modal, vamos utilizar a seguinte fórmula: ou seja: linf = limite inferior da classe modal. ∆a = diferença entre a fi da classe modal e a fi da classe anterior. Entenderemos como classe anterior aquela que precede à classe modal. ∆p = diferença entre a fi da classe modal e a fi da classe posterior (aquela que vem logo após a classe modal). h = amplitude da classe modal. Vejamos como identificar: TABELA 24 – ALTURA DOS ESTUDANTES DA CLASSE 2013 TABELA 23 – ALTURA DOS ESTUDANTES DA CLASSE 2013 FONTE: A autora FONTE: A autora TÓPICO 3 | MEDIDAS RESUMO – MEDIDAS DE POSIÇÃO 83 Devemos lembrar o seguinte: delta (∆) para essa fórmula quer dizer “diferença”. Quando falamos em ∆a, estamos nos referindo a “diferença anterior”. Porém vamos nos perguntar: diferença entre quem? Entre duas frequências simples: a da classe modal e a da classe anterior. Ou seja: ∆a = ni (classe modal) – ni (classe anterior) Da mesma forma para calcular o ∆p vamos obter o valor através da diferença entre duas frequências simples: a da classe modal e a da classe posterior. Ou seja: ∆p = ni (classe modal) – ni (classe posterior) Após compreender como determinar o valor do ∆ vamos substituir em nossa fórmula Onde: l inf (limite inferior da classe modal = 131 h (amplitude da classe modal) = 3, ou seja, (134 – 131) TABELA 25 – ALTURA DOS ESTUDANTES DA CLASSE 2013 FONTE: A autora 84 UNIDADE 2 | APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO Então nossa moda da distribuição de frequência será 133,01. 2.3 MEDIANA Se X for uma variável com observações denominamos mediana (md(X)) deste conjunto de observações o valor que ocupa a posição central dos dados ordenados. a) Para dados não agrupados: Suponhamos que uma pesquisa estatística tenha retornado os seguintes valores: 3 4 2 5 1 7 5 2 1 O primeiro passo para encontrarmos a mediana é ordenar os dados: 1 1 2 2 3 4 5 5 7 Feita a ordenação, vamos procurar o valor que ocupa a posição central. São 9 observações, e o ponto central é o que ocupa a quinta posição, no caso, md(X) = 3. 1 1 2 2 3 4 5 5 7 No caso do exemplo do dentista, temos um problema: são 20 observações, ou seja, dois dados ocupam a posição central – o que ocupa a décima e a décima primeira posição. 8 10 15 15 15 15 15 18 18 18 21 22 22 22 22 25 30 33 42 45 Isso ocorre porque o número de observações é par: quando o número de observações é par, tomamos a média aritmética entre os valores, no caso, (18 + 21)/2 = 19,5. Portanto, a mediana de atraso no dentista é 19,5min. TÓPICO 3 | MEDIDAS RESUMO – MEDIDAS DE POSIÇÃO 85 b) Mediana para distribuição de frequência de variável discreta Quando os dados estão agrupados, a frequência acumulada pode ajudar. Observe: TABELA 26 - IDADE DOS PACIENTES COM SARAMPO CIDADE X EM 2013 xi ni fi fai 1 2 0,2222 0,2222 2 2 0,2222 0,4444 3 1 0,1111 0,5556 4 1 0,1111 0,6667 5 2 0,2222 0,8889 7 1 0,1111 1,0000 TOTAL 26 1,0000 FONTE: A autora Se queremos a posição central, na verdade, queremos o ponto que divide a amostra: 50% dos valores precisam ser menores do que ele, 50% dos valores precisam ser maiores do que ele. Na tabela anterior, a frequência acumulada nos diz que: • 22,22% da amostra correspondem ao valor 1. • 44,44% da amostra correspondem no máximo a 2. • 55,56% da amostra correspondem no máximo a 3. Aqui podemos parar. Pelo que é dito acima, menos de 50% da amostra corresponde a até 2, mas 55,56% já corresponde a 3 – passou de 50%. Portanto, o valor que ocupa a posição central na tabela é o 3 (o dado que divide a amostra em duas partes de mesmo tamanho vale 3), ou seja, md(X) = 3. EXEMPLO 2: Vamos calcular a mediana da tabela a seguir: TABELA 27 – NÚMERO DE CASOS DE CÂNCER EM PARENTES PRÓXIMOS Incidência ni fi fai 0 4 0,1538 0,1538 1 4 0,1538 0,3077 2 6 0,2308 0,5385 3 6 0,2308 0,7692 4 2 0,0769 0,8462 5 4 0,1538 1,0000 TOTAL 26 1,0000 FONTE: A autora 86 UNIDADE 2 | APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO Se queremos a posição central, na verdade, queremos o ponto que divide a amostra: 50% dos valores precisam ser menores do que ele, 50% dos valores precisam ser maiores do que ele. Na tabela anterior, a frequência acumulada nos diz que: • 15,38% das pessoas não têm casos de incidência de câncer na família. • 30,77% das pessoas têm, no máximo, 1 caso de câncer na família. • 53,85% das pessoas têm, no máximo, 2 casos de câncer na família. Aqui podemos parar. Pelo que é dito acima, menos de 50% da amostra corresponde a até 1 caso de câncer, mas 53% já correspondem a 2 casos. Neste caso, o ponto que corresponde a exatamente 50% vale 2: a mediana de casos de incidência na família das pessoas é 2 (md(X) = 2). EXEMPLO 2: Voltemos ao exemplo do dentista. TABELA 28 – ATRASO NO DENTISTA NO DIA ‘A’ - 2014 Tempo (min) ni fi fai 8 1 0,05 0,05 10 1 0,05 0,10 15 5 0,25 0,35 18 3 0,15 0,50 21 1 0,05 0,55 22 4 0,20 0,75 25 1 0,05 0,80 30 1 0,05 0,85 33 1 0,05 0,90 42 1 0,05 0,95 45 1 0,05 1,00 TOTAL 20 1,00 FONTE: A autora Neste caso temos uma particularidade: até 50% da amostra corresponde a, no máximo, 18. Isso significa que os outros 50% correspondem a no mínimo 21. Neste caso, tomamos a média aritmética entre os dois valores: md(X) = (18 + 21)/2 = 19,5, exatamente o que encontramos analisando os dados não agrupados. c) Mediana para distribuição de frequência de variável contínua Falta analisarmos a distribuição com intervalos de classe. Neste tipo de distribuição temos um problema: como saber quem exatamente ocupa a posição central? Observe: TÓPICO 3 | MEDIDAS RESUMO – MEDIDAS DE POSIÇÃO 87 TABELA 29 – ALTURA DOS ESTUDANTES DA CLASSE 2013 ni fi fai 128 ├ 131 2 0,10 0,10 131 ├ 134 7 0,35 0,45 134 ├ 137 6 0,30 0,75 137 ├ 140 4 0,20 0,95 140 ├ 144 1 0,05 1,00 TOTAL 20 1,00 FONTE: A autora Para encontrar a mediana, necessitamos criar uma nova coluna em nossa tabela, a frequência acumulada simples (fac), ou seja copia-se o primeiro elemento do ni na primeira linha, em seguida soma-se com o segundo elemento e assim sucessivamente conforme abaixo: TABELA 30 - ALTURA DOS ESTUDANTES DA CLASSE2013 ALTURA (cm) ni fac fi fai 128 |- 131 2 2 0,10 0,10 131 |- 134 7 9 0,35 0,45 134 |- 137 6 15 0,30 0,75 137 |- 140 4 19 0,20 0,95 140 |-144 1 20 0,05 1,0 TOTAL 20 1,00 FONTE: A autora Em seguida precisamos encontrar a nossa classe mediana, portanto, precisamos encontrar o valor que divide essa nossa pesquisa em dois: Classe mediana = Classe mediana = Classe mediana = 10º elemento Vamos encontrar esse elemento na coluna correspondente ao fac. Na primeira linha temos até 2 elementos, na segunda linha temos até 9 elementos, na terceira linha temos até 15 elementos, portanto, encontramos a nossa classe mediana. 88 UNIDADE 2 | APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO Após identificar a classe mediana, vamos substituir na fórmula a seguir: Li md = Limite inferior da classe mediana ni md = frequência absoluta da classe mediana Fac ant = frequência acumulada simples anterior a classe mediana h = amplitude da classe mediana Substituindo os valores temos: TABELA 31 – ALTURA DOS ESTUDANTES DA CLASSE 2013 FONTE: A autora TÓPICO 3 | MEDIDAS RESUMO – MEDIDAS DE POSIÇÃO 89 A média, a moda e a mediana podem resultar em valores próximos ou não, dependendo do comportamento da distribuição de frequências. Segundo Novaes e Coutinho (2009, p. 92), a média “é a medida mais utilizada nos cálculos estatísticos mais complexos por ser mais robusta do ponto de vista matemático”, uma vez que leva em conta todos os valores da distribuição em seu cálculo e, consequentemente, as discrepâncias entre eles. Por outro lado, não faz sentido calcular média para variáveis qualitativas. Quando existem valores muito discrepantes na amostra, é interessante utilizar a mediana no lugar da média, pois ela retorna o valor central da amostra em relação a variáveis quantitativas. Já a moda é a única medida que pode ser utilizada para qualquer tipo de variável, uma vez que exige apenas uma contagem de frequências. O exemplo a seguir ilustra bem a diferença entre as três medidas de posição. EXEMPLO: (Adaptado de MAGALHÃES, 2010) Suponhamos que você esteja procurando um estágio para o próximo ano. As companhias A e B têm programas de estágios e oferecem uma remuneração por 20 horas semanais com as seguintes características: Companhia A B Média 2,5 2,0 Mediana 1,7 1,9 Moda 1,5 1,9 Qual é a companhia mais adequada? Para responder à pergunta, vamos interpretar esta tabela. A companhia A tem uma média salarial de 2,5 salários mínimos, entretanto, 50% dos seus estagiários recebe até 1,7 salários mínimos: a maioria recebe 1,5 salários. Isso significa que, entre os outros 50%, deve haver uns poucos estagiários que ganham um salário bem acima disto (já que estão puxando a média salarial para cima). Já na companhia B, os salários são mais equânimes. Assim, a sua decisão deve se basear na sua qualificação. Se for bem qualificado, você deve optar pela companhia A, pois existe a possibilidade de ter um ganho bem acima da maioria. Entretanto, se sua qualificação for igual ou menor do que a dos outros estudantes, a companhia B é a escolha mais acertada. UNI 90 UNIDADE 2 | APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO 2.4 SEPARATRIZES Assim como fizemos para encontrar a mediana, podemos encontrar outras medidas que separam a amostra em partes: são chamadas de separatrizes. As mais conhecidas são os quartis, os decis e os percentis. A maneira de calcular as separatrizes é similar a de calcular a mediana: na verdade, a mediana é uma separatriz, pois ela separa a amostra em duas partes de mesmo tamanho. QUARTIS Os quartis são utilizados para separar a amostra ordenada em quatro partes iguais. FIGURA 22 – QUARTIS FONTE: A autora Assim, o primeiro quartil (Q1) separa as 25% primeiras observações das 75% restantes, o segundo quartil (Q2) separa as 50% primeiras observações das 75% restantes (exatamente o que a mediana faz) e o terceiro quartil (Q3) separa as 75% primeiras observações das 25% restantes. Vamos calcular os quartis em dois exemplos, uma distribuição de frequência simples e uma distribuição em intervalos de classe. EXEMPLO 1: TABELA 32 – NÚMERO DE CASOS DE CÂNCER EM PARENTES PRÓXIMOS Incidência ni fi fai 0 4 0,1538 0,1538 1 4 0,1538 0,3077 2 6 0,2308 0,5385 3 6 0,2308 0,7692 4 2 0,0769 0,8462 5 4 0,1538 1,0000 TOTAL 26 1,0000 FONTE: A autora. TÓPICO 3 | MEDIDAS RESUMO – MEDIDAS DE POSIÇÃO 91 Com base na coluna com as frequências acumuladas, notamos que: • 15,38% primeiros não possuem incidência de câncer. • 30,77% primeiros possuem até um caso de incidência de câncer (Q1). • 53,85% primeiros possuem até dois casos de incidência de câncer (Q2). • 76,92% primeiros possuem até três casos de incidência de câncer (Q3). Portanto, Q1= 1, Q2= 2 e Q3= 3. EXEMPLO 2: TABELA 33 – VENDAS Vendas (mil reais) ni fi fai 15 ├ 25 143 0,3972 0,3972 25 ├ 35 142 0,3944 0,7917 35 ├ 45 56 0,1556 0,9472 45 ├ 55 19 0,0528 1,0000 TOTAL 360 1,0000 FONTE: A autora. Na tabela anterior, a frequência acumulada nos diz que • 39,72% das vendas foram de 15 a 25 mil reais. • 79,17% das vendas foram de 15 a 35 mil reais. Claramente, o primeiro quartil está no primeiro intervalo. Assim, (25 – 15) = 10 - 39,72% x - 25% Assim, o primeiro quartil corresponde a 15+6,294 = 21,294 mil reais. O segundo quartil está no segundo intervalo (até já o calculamos). O primeiro já contém 39,72% das vendas. Assim, precisamos calcular (35 – 25) = 10 - 39,44% x - (50% - 39,72%) Assim, o segundo quartil corresponde a 25 + 2,606 = 27,606 mil reais. 92 UNIDADE 2 | APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO O terceiro quartil também está no segundo intervalo (a frequência acumulada é superior a 75%). Então precisamos calcular (35 – 25) = 10 - 39,44% x - (75% - 39,72%) Assim, Q3 = 25 + 8,945 = 33,945 mil reais. DECIS Os decis são utilizados para separar a amostra ordenada em dez partes iguais. Assim, o primeiro decil (D1) separa as 10% primeiras observações das 90% restantes, o segundo decil (D2) separa as 20% primeiras observações das 80% restantes e assim por diante. Vamos calcular o quarto decil para os dois exemplos anteriores. EXEMPLO 1: TABELA 34 – NÚMERO DE CASOS DE CÂNCER EM PARENTES PRÓXIMOS Incidência ni fi fai 0 4 0,1538 0,1538 1 4 0,1538 0,3077 2 6 0,2308 0,5385 3 6 0,2308 0,7692 4 2 0,0769 0,8462 5 4 0,1538 1,0000 TOTAL 26 1,0000 FONTE: A autora. FIGURA 32 – DECIS NA AMOSTRA FONTE: A autora. TÓPICO 3 | MEDIDAS RESUMO – MEDIDAS DE POSIÇÃO 93 Com base na coluna com as frequências acumuladas, notamos que: • 15,38% primeiros não possuem incidência de câncer. • 30,77% primeiros possuem até um caso de incidência de câncer. • 53,85% primeiros possuem até dois casos de incidência de câncer (D4). Portanto, D4 = 2. EXEMPLO 2: TABELA 35 – VENDAS Vendas (mil reais) ni fi Fai 15 ├ 25 143 0,3972 0,3972 25 ├ 35 142 0,3944 0,7917 35 ├ 45 56 0,1556 0,9472 45 ├ 55 19 0,0528 1,0000 TOTAL 360 1,0000 FONTE: A autora. Na tabela anterior, a frequência acumulada nos diz que • 39,72% das vendas foram de 15 a 25 mil reais. • 79,17% das vendas foram de 15 a 35 mil reais. Assim, o quarto decil está no segundo intervalo (por pouco, mas está). Neste caso, precisamos calcular quanto equivale, dentro do intervalo, a 40% - 39,72% = 0,28%. (35 – 25) = 10 - 39,72% x - 0,28% Assim, D4 = 25 + 0,070 = 25,071 mil reais. PERCENTIS Os percentis são utilizados para separar a amostra ordenada em cem partes iguais. 94 UNIDADE 2 | APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO Assim, o primeiro percentil (C1) separa as 1% primeiras observações das 99% restantes, o segundo percentil (C2) separa as 2% primeiras observações das 98% restantes e assim por diante. Vamos calcularo trigésimo quinto percentil para os dois exemplos anteriores. EXEMPLO 1: TABELA 36 – NÚMERO DE CASOS DE CÂNCER EM PARENTES PRÓXIMOS Incidência ni fi fai 0 4 0,1538 0,1538 1 4 0,1538 0,3077 2 6 0,2308 0,5385 3 6 0,2308 0,7692 4 2 0,0769 0,8462 5 4 0,1538 1,0000 TOTAL 26 1,0000 FONTE: A autora. Com base na coluna com as frequências acumuladas, notamos que: • 15,38% primeiros não possuem incidência de câncer. • 30,77% primeiros possuem até um caso de incidência de câncer. • 53,85% primeiros possuem até dois casos de incidência de câncer (C35). Portanto, C35 = 2. EXEMPLO 2: TABELA 37 – VENDAS Vendas (mil reais) ni fi Fai 15 ├ 25 143 0,3972 0,3972 25 ├ 35 142 0,3944 0,7917 35 ├ 45 56 0,1556 0,9472 45 ├ 55 19 0,0528 1,0000 TOTAL 360 1,0000 FONTE: A autora. TÓPICO 3 | MEDIDAS RESUMO – MEDIDAS DE POSIÇÃO 95 Na tabela anterior, a frequência acumulada nos diz que 39,72% das vendas foram de 15 a 25 mil reais. Assim, o trigésimo quinto percentil está no primeiro intervalo. Neste caso, precisamos calcular quanto equivale, dentro do intervalo, a 35%. (25 – 15) = 10 - 39,72% x - 35% Assim, C35 = 15 + 8,812 = 23,812 mil reais. ~ 8,812 3 BOX PLOT OU DIAGRAMA DE CAIXAS Nesta unidade, aprendemos a apresentar dados qualitativos e quantitativos discretos por meio de tabelas e gráficos. Vamos agora aprender uma técnica para apresentar variáveis quantitativas discretas: o diagrama de caixas, ou box plot. Para construí-lo, precisamos de 5 informações sobre a variável considerada: • Valor mínimo • Primeiro quartil • Mediana, ou segundo quartil • Terceiro quartil • Valor máximo De posse destes valores, vamos criar uma “caixa”, onde o nível superior será dado pelo terceiro quartil e o nível inferior pelo primeiro quartil. A caixa será dividida pelo valor da mediana. Feita a caixa, na parte superior dela será inserida uma linha que vai até o valor máximo observado na minha pesquisa. Do mesmo modo, na parte inferior será inserida uma linha que vai se prolongar até o valor mínimo observado. A tabela a seguir apresenta as frequências relativas de ocorrências de faixas de altura (em cm) para uma amostra de 100 crianças de 12 anos de idade. 96 UNIDADE 2 | APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO O valor mínimo observado é de 100 cm, entretanto, mas não temos o valor máximo observado: vamos então considerar o limite superior da última classe: 160 cm. Agora precisamos calcular os quartis e, para isso, vamos incluir mais uma coluna na nossa tabela, incluindo as frequências acumuladas da amostra. TABELA 38 – ALTURA DAS CRIANÇAS DE 12 ANOS DE IDADE (cm) Faixas fi 100├ 110 0,10 110├ 120 0,25 120├ 130 0,30 130├ 140 0,25 140├ 160 0,10 TOTAL 1,00 FONTE: Magalhães (2010) TABELA 39 – ALTURA DAS CRIANÇAS DE 12 ANOS DE IDADE (cm) Faixas fi fai 100├ 110 0,10 0,10 110├ 120 0,25 0,35 120├ 130 0,30 0,65 130├ 140 0,25 0,90 140├ 160 0,10 1,00 TOTAL 1,00 FONTE: Magalhães (2010) Assim, • 10% das crianças tem altura de 100 cm a 110 cm. • 35% das crianças tem altura de 100 cm a 120 cm (Q1). • 65% das crianças tem altura de 100 cm a 130 cm (Q2). • 90% das crianças tem altura de 100 cm a 140 cm (Q3). Calculando o primeiro quartil: O primeiro quartil está no segundo intervalo. Como o primeiro já contém 10% das observações, precisamos calcular quanto equivale aos 15% restantes no segundo intervalo (25% - 10% = 15%). (120 – 110) = 10 cm - 25% x - 15% x = 6 cm, Ou seja, Q1 = 110 + 6 = 116 cm. TÓPICO 3 | MEDIDAS RESUMO – MEDIDAS DE POSIÇÃO 97 Calculando o segundo quartil: O segundo quartil está no terceiro intervalo. Como os primeiros já contêm 35% das observações, precisamos calcular quanto equivale aos 15% restantes no terceiro intervalo (50% - 35% = 15%). (130 – 120) = 10 cm - 30% x - 15% x = 5 cm, Ou seja, Q2 = 120 + 5 = 125 cm. Calculando o terceiro quartil: O terceiro quartil está no terceiro intervalo. Como os primeiros já contêm 65% das observações, precisamos calcular quanto equivale aos 10% restantes no quarto intervalo (90% - 75% = 15%). (140 – 130) = 10 cm - 25% x - 10% x = 4 cm, Ou seja, Q3 = 130 + 4 = 134 cm. Agora já sabemos que: • Valor mínimo: 100 cm • Primeiro quartil: 116 cm • Mediana, ou segundo quartil: 125 cm • Terceiro quartil: 134 cm • Valor máximo: consideraremos 160 cm Então estamos em condições de montarmos o Box-plot. Para auxiliar-nos, consideraremos uma escala vertical. FIGURA 23 – BOX PLOT FONTE: A autora 98 UNIDADE 2 | APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO O quadrado corresponde aos 50% centrais das observações: 50% das crianças tem altura entre 116 cm e 134 cm. Nota-se também que, dentro deste quadro, as alturas estão bem distribuídas, pois a mediana divide o quadrado praticamente ao meio. A vantagem do box plot é que é fácil visualizar a simetria e a variabilidade dos dados. Também é útil na comparação de grupos de variáveis. Observe o exemplo: FIGURA 24 – BOX PLOT PARA COMPARAÇÃO FONTE: A autora Neste gráfico os dados relativos à altura foram separados de acordo com o gênero das crianças. É possível perceber que a altura dos meninos é superior à altura das meninas estudadas. Praticamente 75% das meninas têm menor altura menor do que apenas 25% dos meninos. Observe também as medianas de ambos os quadros, lembrando que elas dividem as observações ao meio. Veja como a distribuição, no caso das meninas, se concentra na parte superior do quadro, enquanto no caso dos meninos, ela se concentra na parte inferior. EXEMPLO: Em 2004 (ou 2005), foi feita uma pesquisa sobre a capacidade de resolver problemas envolvendo cálculos aditivos em estudantes da 1ª à 4ª série em escolas públicas de São Paulo e da Bahia. De acordo com as autoras do trabalho, 1.803 crianças responderam a um mesmo questionário contendo 12 problemas matemáticos. A seguir, apresentamos o box plot com os resultados observados. TÓPICO 3 | MEDIDAS RESUMO – MEDIDAS DE POSIÇÃO 99 FIGURA 25 – EXEMPLO DE BOX PLOT FONTE: Disponível em: <http://www.scielo.org.mx/scielo.php?script=sci_ arttext&pid=S1665-24362007000200003#f3>. Acesso em: 20 ago. 2013. 100 RESUMO DO TÓPICO 3 Neste tópico, estudamos as medidas de posição. Vimos que: • X for uma variável com observações chamamos de média de X à soma dos valores dividida pelo número de observações, ou seja, • X for uma variável agrupada com observações cujas frequências observadas são respectivamente, com calculamos a média de • Dada uma variável X, a moda mo(X) consiste no valor mais frequente na observação, isto é, no valor que mais aparece. • É possível que uma variável possua várias modas, isto é, ela pode ser multimodal. • Se X for uma variável com observações denominamos mediana (md(X)) deste conjunto de observações o valor que ocupa a posição central dos dados ordenados. • Separatrizes são medidas resumo que separam os dados em partes. • A mediana é uma separatriz, pois separa os dados ao meio: 50% abaixo e 50% acima. • As separatrizes mais utilizadas são os quartis, os decis e os percentis. • O box plot, ou diagrama de caixas, é uma ferramenta gráfica utilizada para apresentar variáveis quantitativas contínuas. • Para fazer o box plot, é preciso conhecer os valores máximo e mínimo observado, e calcular os quartis. X como 101 AUTOATIVIDADE Vamos fixar os conteúdos vistos neste tópico através de alguns exercícios. 1 Estudando uma nova técnica de sutura, foram contados os dias necessários para a completa cicatrização de determinada cirurgia. Os resultados de 25 pacientes foram os seguintes: 6 8 9 7 6 6 7 8 9 10 7 8 10 9 9 9 7 6 57 7 7 8 10 11 Organize os dados numa distribuição de frequências e calcule o tempo médio necessário para a completa cicatrização. 2 O entroncamento entre duas ruas em uma determinada cidade tem alto índice de acidentes de trânsito, conforme pode ser constatado nos últimos 12 meses: 5 4 7 8 5 6 4 7 9 7 6 8. Determine a média do número de acidentes mensais neste local. 3 Em uma clínica cardíaca foram anotados os níveis de colesterol (em mg/100ml) para trinta pacientes, homens com idade entre 40 e 60 anos que foram à clínica fazer um check-up. Paciente 1 2 3 4 5 6 7 8 9 10 Colesterol 160 160 161 163 167 170 172 172 173 177 Paciente 11 12 13 14 15 16 17 18 19 20 Colesterol 178 181 181 182 185 186 194 197 199 203 Paciente 21 22 23 24 25 26 27 28 29 30 Colesterol 203 205 206 206 208 209 211 214 218 225 a) Calcule a média, moda e mediana a partir da tabela de frequência. b) Organize os dados em uma tabela de frequência com faixas de tamanho 10 a partir de 160. c) Refaça o item a. utilizando a tabela com intervalos de classe. 102 4 O índice de germinação é um dos principais fatores para definir a qualidade das sementes. Ele é determinado em experimento científico conduzido pelo fabricante e regulamentado pelos órgãos fiscalizadores. Um fabricante afirma que o índice de germinação de suas sementes de milho é de 85%. Para verificar tal afirmação, uma cooperativa de agricultores sorteou 100 amostras com 100 sementes em cada uma e anotou a porcentagem de germinação em cada amostra. Germinação (%) Frequência 60├ 65 8 75├ 80 20 80├ 85 42 85├ 90 18 90├ 95 10 95├ 100 2 a) Calcule a média, a moda, a mediana e os quartis para estes dados. b) Construa o box plot. c) Comente a afirmação do fabricante. Obs.: exercícios adaptados de (MAGALHÃES, 2010). 103 TÓPICO 4 MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE UNIDADE 2 1 INTRODUÇÃO Vocês já devem ter ouvido falar no bairro do Morumbi, em São Paulo. Este bairro é considerado de classe média alta: o Jóquei Club fica no Morumbi, o palácio dos Bandeirantes – sede do governo do Estado, o Shopping Jardim Sul, que é um dos, senão o mais caro shopping da cidade. Mas neste bairro também fica a maior favela de São Paulo: a Paraisópolis. Se fosse feita uma pesquisa sobre a renda dos paulistanos de acordo com o bairro em que eles moram, possivelmente a renda média dos moradores do Morumbi seria muito boa, mas será que seria representativa? Muitas vezes, as medidas de posição por si só não nos dão a informação completa, e escondem discrepâncias que deveriam ser conhecidas. Por esta razão, as medidas de posição precisam ser complementadas pelas medidas de dispersão, que nos dizem como os valores se distribuem em torno das medidas de posição. Assim como no caso das medidas de posição, existem várias medidas de dispersão. A mais simples e imediata delas é a amplitude. 2 AMPLITUDE A amplitude de certa variável é a diferença entre o maior e o menor valor observado, e é denotada por Δ (DELTA). Já conhecemos este conceito, uma vez que o aplicamos várias vezes em intervalos de classe. EXEMPLO: Considere os dados a seguir, relativos a uma pesquisa sobre determinada variável quantitativa. 104 UNIDADE 2 | APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO TABELA 40 – MEDIDAS DE DISPERSÃO xi ni 0 7 1 3 2 4 3 2 4 0 5 5 TOTAL 21 FONTE: A autora O maior valor observado nesta tabela foi 5, enquanto o menor foi 0: portanto, a amplitude desta pesquisa é Δ = 5. Note que, embora nos ajude, a amplitude só leva em conta os dois valores extremos. Se a nossa variável se comportar de maneira bem homogênea, a amplitude é bastante útil, mas se esse não for o caso, ela não nos ajuda muito. Por exemplo, a média dos valores obtidos na Tabela 40 é e a amplitude 5. Note que apenas estas informações não são suficientes para descrever o comportamento da variável (a moda desta distribuição é 0). O ideal é que pudéssemos levar em conta todos os valores observados. Vamos pensar em um cálculo que nos forneça uma medida mais representativa. Sugestão 1: Para corrigir este problema, poderíamos tomar as diferenças entre os valores encontrados e a média e, depois, calcular a média novamente destes valores. Desta forma, teríamos uma medida de dispersão em relação à média que levaria em conta todos os valores observados. Problema: se a variável a ser representada puder assumir valores positivos e negativos, eventualmente, se anularão no cálculo. TABELA 41 – CÁLCULO DE DESVIOS xi fi 1 6 2 0 3 6 TOTAL 12 FONTE: A autora TÓPICO 4 | MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE 105 Sugestão 2: Poderíamos tomar as diferenças em módulo e, depois, calcular novamente a média. Problema: módulo é uma função matemática um pouco chata de trabalhar. Sugestão 3: Poderíamos elevar as diferenças ao quadrado: neste caso, a soma seria apenas de números positivos. Problema: perderíamos a real dimensão dos valores, pois estaríamos considerando seu quadrado. Entretanto, este problema pode ser contornado extraindo a raiz quadrada o valor encontrado. 3 VARIÂNCIA E DESVIO-PADRÃO POPULACIONAL A fórmula que encontramos mede a dispersão dos dados, levando em consideração todos os valores observados. É esta medida que normalmente utilizamos, e que recebe o nome de variância. Formalmente, segundo Magalhães (2010), se X uma variável com observações , chamamos de variância populacional deste conjunto de observações a seguinte equação: chamamos de variância populacional deste conjunto de observações a seguinte equação: 106 UNIDADE 2 | APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO Para calcular a variância, é necessário primeiro passo obter a média. EXEMPLO: Suponhamos que os dados a seguir são relativos ao tempo de espera em minutos para o atendimento médico em um consultório em certo dia A. 20 30 15 40 38 35 20 24 Inicialmente, vamos calcular a média de tempo de espera: De posse da média, podemos calcular a variância: O fato de termos elevado as diferenças ao quadrado faz com que nosso resultado seja dado em (min)2. Se tomarmos a raiz deste valor, voltaremos a ter um número em minutos. Este procedimento nos dá o que chamamos de desvio- padrão: No nosso caso, o valor do desvio-padrão será Assim, o tempo médio de espera foi de 27,75 min com um desvio-padrão de 8,73 min. O que isto significa? Significa que o tempo médio de espera é de 27,75 min, e que os outros tempos de espera não diferem mais do que 8,73 min deste valor. UNI TÓPICO 4 | MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE 107 Vimos que, quando a variável está sendo apresentada em uma tabela de frequências, o cálculo da média é facilitado. A mesma coisa acontece com a variância. EXEMPLO: Vamos calcular a variância para as duas tabelas anteriores, admitindo agora que elas se refiram a uma amostra. TABELA 42 – MEDIDAS DE DISPERSÃO xi ni 0 7 0∙7 = 0 -2 4 1 3 1∙3 = 3 -1 1 2 4 2∙4 = 8 0 0 3 2 3∙2 = 6 1 1 4 0 4∙0 = 0 2 4 5 5 5∙5 = 25 3 9 TOTAL 21 42 19 Média 42/21=2 V a r i â n c i a populacional 19/21=0,905 Desvio padrão populacional FONTE: A autora TABELA 43 – CÁLCULO DE DESVIOS xi fi 1 6 6 -1 1 2 0 0 0 0 3 6 18 1 1 TOTAL 12 24 2 Média 2 Var(X) 0,167 dp(X) 0,408 FONTE: A autora 108 UNIDADE 2 | APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO 4 VARIÂNCIA E DESVIO-PADRÃO AMOSTRAL A fórmula que vimos anteriormente é utilizada para o cálculo da variância e do desvio-padrão populacional, isto é, quando toda a população foi considerada. Como normalmente trabalhamos com amostra, precisamos fazer um ajuste nos cálculos, por questões técnicas que fogem ao escopo deste Caderno de Estudos (para saber mais, consulte (MAGALHÃES,2010)). Assim, a variância amostral de um conjunto de observações é dada pela seguinte equação: Atente para o denominador da fórmula: é a única diferença entre variância populacional e amostral. EXEMPLO: Se os dados a seguir são relativos ao tempo de espera em minutos para o atendimento médico em um consultório para uma amostra de pacientes (não todos!) em certo dia A, 20 30 15 40 38 35 20 24 a variância será dada por: O cálculo do desvio-padrão não muda: No nosso caso, o valor do desvio-padrão será UNI TÓPICO 4 | MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE 109 EXEMPLO: Vamos calcular a variância amostral para as duas tabelas anteriores. Aproveitamos para mostrar uma maneira de facilitar o cálculo construindo uma tabela auxiliar. TABELA 44 – MEDIDAS DE DISPERSÃO xi ni 0 7 0∙7 = 0 -2 4 1 3 1∙3 = 3 -1 1 2 4 2∙4 = 8 0 0 3 2 3∙2 = 6 1 1 4 0 4∙0 = 0 2 4 5 5 5∙5 = 25 3 9 TOTAL 21 42 19 Média 42/21=2 Va r i â n c i a amostral 19/20=0,950 D e s v i o p a d r ã o amostral FONTE: A autora TABELA 45 – CÁLCULO DE DESVIOS Xi fi 1 6 6 -1 1 2 0 0 0 0 3 6 18 1 1 TOTAL 12 24 2 Média 2 V a r i â n c i a Amostral 0,182 Desvio-padrão amostral 0,426 FONTE: A autora 110 UNIDADE 2 | APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO 5 ASSIMETRIA Ao estudarmos média, moda e variância, comentamos que as três medidas de posição podem ou não assumir valores iguais. Quando a média e a moda coincidem, dizemos que a é simétrica. Observe as duas situações a seguir: TABELA 46 – DISTRIBUIÇÃO SIMÉTRICA xi ni 0 1 1 2 2 5 3 2 4 1 TOTAL 11 FONTE: A autora Calculando a média, a moda e a mediana desta distribuição, obtemos os seguintes valores: , Md(X) =2, Mo(X)=2. O gráfico de linhas a seguir ilustra esta distribuição: FIGURA 26 – DISTRIBUIÇÃO DA FREQUÊNCIA FONTE: A autora TÓPICO 4 | MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE 111 A tabela a seguir nos mostra uma distribuição assimétrica. TABELA 47 – DISTRIBUIÇÃO ASSIMÉTRICA xi ni 0 2 1 2 2 3 3 5 4 2 5 1 TOTAL 15 FONTE: A autora Calculando a média, a moda e a mediana desta distribuição, obtemos os seguintes valores: , Md(X) =3, Mo(X)=3. FIGURA 27 – DISTRIBUIÇÃO DE FREQUÊNCIA ASSIMÉTRICA FONTE: A autora 112 UNIDADE 2 | APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO Com base nestes exemplos, podemos dizer que existem três tipos de distribuição (CRESPO, 2005): • Distribuições simétricas: são aquelas em que a média coincide com a moda. simetria • Distribuições assimétricas à esquerda, ou negativas: são aquelas em que a média é menor do que a moda. • Distribuições assimétricas à direita, ou positivas: são aquelas em que a média é maior do que a moda. Mesmo sem traçar o gráfico da distribuição, é possível saber se a distribuição é simétrica ou não e, caso não seja, é possível medir o quão assimétrica a distribuição é. Este coeficiente de assimetria também é conhecido como coeficiente de Pearson e é dado por: onde é a média, Md(X) é a mediana e s é o desvio-padrão amostral da distribuição. No exemplo de assimetria anterior, uma vez calculada a média, a mediana e o desvio-padrão amostral teremos Quando o coeficiente de assimetria de Pearson As é tal que 0 < |As| ≤ 0,15, dizemos que a assimetria é leve; quando 0,15 < |As| < 1, dizemos que a assimetria é moderada e quando |As| ≥ 1, a assimetria é considerada forte. No caso do nosso exemplo, 0,15 < |As| = |-0,87| = 0,87 < 1, isto é, a assimetria é moderada. TÓPICO 4 | MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE 113 6 CURTOSE Se a assimetria mede a distância entre a moda e a média da distribuição, a curtose permite medir o grau de achatamento da distribuição em relação à distribuição normal (distribuição estatística teórica). Uma maneira de medir a curtose é através do coeficiente percentílico de curtose, dado pela seguinte fórmula: onde Q3 e Q1 se referem ao terceiro e primeiro quartis, respectivamente, e P90 e P10 ao 90º e ao 10º percentis da distribuição. Vamos calcular o coeficiente de curtose dos seguintes dados: TABELA 48 – DISTRIBUIÇÃO SIMÉTRICA Xi ni fi fai 0 1 0,09 0,09 1 2 0,18 0,27 2 5 0,45 0,73 3 2 0,18 0,91 4 1 0,09 1,00 TOTAL 11 1,00 FONTE: A autora. O primeiro quartil é o que divide os 25% primeiros dados da amostra dos 75% dados restantes. De acordo com as frequências acumuladas, Q1 = 1. O terceiro quartil é o que divide os 75% primeiros dados da amostra dos 25% dados restantes. De acordo com as frequências acumuladas, Q3 = 3. O décimo percentil é o que divide os 10% primeiros dados da amostra dos 90% dados restantes. De acordo com as frequências acumuladas, P10 = 1. O nonagésimo percentil é o que divide os 90% primeiros dados da amostra dos 10% dados restantes. De acordo com as frequências acumuladas, P90 = 3. Voltando à fórmula, 114 UNIDADE 2 | APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO Como interpretar neste valor? • Quando C = 0,263, dizemos que a curva é mesocúrtica. • Quando C < 0,263, dizemos que a curva é leptocúrtica. • Quando C > 0,263, dizemos que a curva é platicúrtica. No caso do nosso exemplo, a curva é leptocúrtica. FIGURA 28 – TIPOS DE CURTOSE FONTE: Disponível em: <http://estatisticax.blogspot.com.br>. Acesso em: 31 jan. 2014. O texto a seguir é uma adaptação do texto de autoria do prof. Dr. Marcelo Menezes Reis e nos fala como interpretar os dados estatísticos que nos cercam. LEITURA COMPLEMENTAR COMO CONTESTAR ESTATÍSTICAS Marcelo Menezes As informações que serão apresentadas aqui são provenientes do livro “Como Mentir com Estatística”, de Darrell Huff, com pequenos acréscimos (geralmente exemplos). O objetivo deste texto é desmistificar muitas das ideias pré-concebidas sobre estatísticas, evitando que o “fascínio” por números e percentagens (ou a ignorância sobre como eles foram produzidos) turvem o senso crítico das pessoas. Nem todas as estatísticas veiculadas ao público (principalmente pela mídia) estão erradas ou merecem ser consideradas com suspeição, mas muitas vezes as informações são apresentadas de forma tão incompleta que se torna difícil acreditar nelas. Para verificar a validade de uma estatística, seja ela veiculada em um jornal de grande circulação, na TV, ou em uma revista especializada, você deve fazer cinco perguntas: Quem é que diz isso? Leptocúrtica Mesocúrtica Platicúrtica TÓPICO 4 | MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE 115 Como é que ele sabe? O que é que está faltando? Alguém mudou de assunto? Isso faz sentido? Quem é que diz isso? Procure sempre saber quem está divulgando a estatística: pode ser uma empresa no meio de uma negociação de salários, ou um sindicato na mesma situação, ou um laboratório “independente” que precisa mostrar resultados, ou simplesmente um jornal atrás de uma boa matéria. Uma empresa americana declarou que os salários no segundo semestre de um ano estavam muito acima daqueles pagos no início do ano, portanto não era hora do sindicato pedir um aumento. O que a empresa “esqueceu” de dizer é que no início do ano havia uma grande quantidade de trabalhadores de meio-período, e que estes passaram a cumprir turno integral a partir do segundo trimestre do ano, sendo assim seus salários teriam que forçosamente subir, mas isso não implica que os salários tenham “melhorado realmente”. Procure os viesamentos, deliberados ou inconscientes, aplicados aos resultados. Quando ouvir “pesquisa feita por médicos americanos revela...” tome cuidado: que médicos são estes? Cuidado com as declarações do tipo “Universidade de Harvard descobriu que...”. Verifique se realmente há pessoas qualificadas da “instituição de prestígio” em questão divulgando as descobertas. Em 1994 foi divulgadoum relatório otimista sobre o número de árvores nos Estados Unidos: os peritos chegaram à conclusão que havia muito mais árvores em 1994 do que houvera em 1894 (cem anos antes). Fonte do levantamento: o equivalente a uma associação de madeireiras... Onde está o viés? Está na definição de “árvore”: os peritos consideraram “árvore” tanto uma sequoia centenária de 100 metros de altura quanto uma muda de Pinus plantada há pouco... Outro viesamento muito comum é encontrado na forma de apresentar os resultados. Veja o exemplo abaixo, referente aos salários de 11 pessoas de uma empresa: 116 UNIDADE 2 | APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO Pessoa 1 2 3 4 5 6 7 8 9 10 11 S a l á r i o (u.m.) 150 200 200 250 300 350 350 400 400 3000 8000 Alguém da direção desta empresa poderia afirmar que o salário "médio" é de 1236,36 u.m., portanto o nível salarial nesta seção é "muito bom". Alguém do sindicato protesta e diz que na verdade o salário "médio" é de 350 u.m., o que não é um nível "muito bom". Qual dos dois está errado? Surpreendentemente nenhum deles. O homem da direção usou a média aritmética para calcular o salário "médio": a média aritmética pode ser distorcida por valores discrepantes, o que se comprova ao observar na tabela os salários das pessoas 10 e 11 que estão bem distantes da maioria dos outros. Já o homem do sindicato usou outra medida estatística a mediana: a mediana divide um conjunto ordenado de dados em duas partes iguais, metade é maior do que a mediana e metade é menor do que a mediana. Na tabela acima a pessoa 6 é "ponto central" e seu salário de 350 u.m. (salário mediano) representa muito melhor o conjunto. Como é que ele sabe? Como aqueles que estão divulgando a estatística obtiveram a informação? Se a estatística foi obtida através de uma amostra procure indícios de viesamento: uma amostra selecionada indevidamente, ou que não seja grande o bastante para permitir uma conclusão confiável. Um caso típico de amostra selecionada indevidamente são as estatísticas resultantes de pesquisas feitas pelo correio: o pesquisador envia pelo correio questionários aos entrevistados, solicitando que eles os preencham e devolvam. Faça a si mesmo esta pergunta: "quantos questionários eu já recebi pelo correio e quantos eu já respondi"? Neste tipo de procedimento de pesquisa o percentual de pessoas ou organizações que efetivamente respondem aos questionários costuma ser muito reduzido, de modo que esses resultados não podem ser considerados representativos. Quanto às pequenas amostras é necessário maior cautela ainda. Utilizando uma pequena amostra o resultado obtido pode ter ocorrido totalmente POR ACASO! O pesquisador pode ter tomado todos os cuidados, selecionado os elementos da amostra com critério e portar-se com a maior honestidade imaginável, mas a chance de um resultado "por acaso" é muito alta. Quando a amostra é suficientemente grande este risco persiste, mas a probabilidade de sua ocorrência reduz-se drasticamente. Se alguém diz a você que após tratar dez ratos diabéticos com certa erva medicinal, a sua taxa de glicose baixou 2,4%, e que com isso foi provado estatisticamente que a erva auxilia no tratamento do diabetes, o que você fará? Observe o tamanho da amostra (apenas dez ratos) e a redução obtida (que nesta amostra poderia ter ocorrido totalmente por acaso). TÓPICO 4 | MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE 117 Um dos casos mais intrigantes para nós brasileiros é o resultado de uma pesquisa eleitoral. É plenamente possível obter resultados confiáveis utilizando metodologias de amostragem e tratamento de dados adequados. Mas não se esqueça de que há uma variação em torno dos percentuais (mais ou menos 5%), e que há uma pequena probabilidade (geralmente da ordem de 5%) de que o valor "verdadeiro" do percentual não esteja naquele intervalo. O que é que está faltando? Alguma coisa sobre isso já foi discutido nos itens anteriores. Muitas vezes o tamanho da amostra utilizada, ou o perfil dos seus elementos sequer é divulgado. Há casos em que os números brutos são suprimidos e apenas os percentuais são apresentados, em outros casos é justamente o contrário. As condições que podem ter levado aos resultados também costumam ser suprimidas. Se alguém diz que 33,33% (percentual) das mulheres de um curso se casaram com professores você poderia ter uma má impressão destas moças. Mas se alguém diz que das três mulheres (dados brutos) deste curso uma delas casou-se com um professor o efeito já não será tão grande. Um jornal afirma que a safra de um ano é quatro vezes maior do que a do ano anterior, o que evidencia a produtividade e o trabalho do homem do campo! Nada contra o homem do campo (que trabalha muito e ganha pouco), mas o jornal pode ter se esquecido de dizer que no ano anterior houve uma enchente que dizimou cerca de 80% da safra prevista, o que torna o ano totalmente inadequado para servir como base para o cálculo. "Podemos mensurar o aumento da violência pela comparação entre o número de estupros de hoje e o de vinte anos atrás". Qualquer um sabe que a violência está aumentando, mas talvez o número de estupros fosse maior há vinte anos, quando as mulheres sentiam-se muito mais constrangidas em denunciar seus agressores e preferissem o silêncio. Com o passar do tempo, e com a conscientização o número de denúncias aumentou, não necessariamente indicando que a violência aumentou por causa disso... Cuidado com as correlações: identificar que duas variáveis caminham na mesma direção ou em direções opostas NÃO SIGNIFICA NECESSARIAMENTE que a variação de uma causou a da outra (pode haver outras variáveis influenciando ambas). Alguém mudou de assunto? 118 UNIDADE 2 | APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO Se alguém constata que o número de casos comunicados de uma doença aumentou e diz que o número de casos ocorridos da doença aumentou (veja o que uma única palavra pode causar) está mudando de assunto. Algumas pessoas mais impressionáveis poderiam pensar que há uma epidemia, ao invés de uma maior precisão nos diagnósticos que agora classificam como câncer de mama o que antes era "mal de peito". Uma pesquisa eleitoral, por mais bem conduzida que seja, não indica em quem as pessoas realmente vão votar, mas em quem elas dizem que vão votar naquele momento (alguém que se diz indeciso pode já ter o seu candidato escolhido desde o berço, outro que afirma votar na situação assim procede por ser funcionário público, etc.). Assim, se você faz uma pesquisa entre advogados e descobre que eles se acham mal remunerados por seus serviços, e você divulga que os profissionais liberais (incluindo nesta categoria várias outras profissões) se acham mal remunerados você está mudando de assunto. "A 'população' de uma grande área da China era de 28 milhões. Cinco anos depois chegava a 105 milhões. Muito pouco desse aumento era real. A grande diferença só pôde ser explicada levando-se em conta as finalidades das duas coletas censitárias e a maneira como as pessoas se sentiram ao serem contadas em cada caso. O primeiro censo foi para fins de tributação e serviço militar; o segundo para ajuda em caso de fome". Isso faz sentido? Será que o resultado divulgado de uma estatística faz sentido? Será que analisando os resultados sem se deixar impressionar pelas casas decimais e percentuais os resultados são "lógicos"? Avaliar com bom senso se a estatística se coaduna com os fatos ao seu redor pode nos proteger de cair em muitas falácias. Logo após a primeira crise do petróleo, em 1973, calculava-se que em 1985 o preço do barril estaria por volta de US$ 80. Sendo assim, muitas formas de energia alternativa foram desenvolvidas tendo em mente aquele valor, acreditando que aquela tendência de crescimento seria mantida, o que não aconteceu: o preço do barrildespencou em 1986 e as formas "alternativas" tornaram-se economicamente inviáveis (o que não quer dizer que também o sejam por outros critérios). Usar tendências antigas, observadas em épocas em que o mundo era muito diferente do que é hoje é extremamente perigoso. Você acha que o Brasil de 1980 é o mesmo Brasil de 1997? A definição de "família padrão" em 1960 continua válida hoje? Extrapolar tais tendências e acreditar que tais conclusões são válidas é, no mínimo, ingênuo. TÓPICO 4 | MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE 119 Estatísticas do tipo para cada dez brasileiros dois têm diabetes: isso significa para uma população de 150 milhões de habitantes 30 milhões de diabéticos! Se for verdade possivelmente não haverá insulina suficiente no país inteiro para tratar tanta gente... FONTE: Disponível em: <http://www.inf.ufsc.br/~marcelo/contest.html>. Acesso em: 31 jan. 2014. 120 RESUMO DO TÓPICO 4 Neste tópico, estudamos os conjuntos finitos e os conjuntos infinitos, mais precisamente: • A amplitude de certa variável é a diferença entre o maior e o menor valor observado, e é denotada por Δ. • Se X uma variável com observações chamamos de variância populacional deste conjunto de observações a seguinte equação: • O desvio-padrão populacional é dado por • A variância amostral de um conjunto de observações é dada pela seguinte equação: • O desvio-padrão amostral é dado por • Em uma distribuição de frequências, quando a média e a moda coincidem, dizemos que há simetria. • Coeficiente de assimetria também é conhecido como coeficiente de Pearson e é dado por: • A curtose permite medir o grau de achatamento da distribuição em relação à distribuição normal (distribuição estatística teórica). O coeficiente percentílico de curtose é dado por 121 • Quando C = 0,263, dizemos que a curva é mesocúrtica. • Quando C < 0,263, dizemos que a curva é leptocúrtica. • Quando C > 0,263, dizemos que a curva é platicúrtica. 122 AUTOATIVIDADE Agora vamos fixar o conteúdo que estudamos neste tópico por meio de alguns exercícios. 1 No tópico anterior, você organizou os dados relativos ao tempo em dias necessário para a completa cicatrização de determinada cirurgia (exercício 1). Calcule para o mesmo exercício: a) A amplitude dos dados. b) O desvio padrão Amostral. c) O coeficiente de assimetria. d) O coeficiente de curtose. 2 No tópico anterior, você calculou a média de acidentes nos últimos 12 meses em um entroncamento numa certa cidade. 5 4 7 8 5 6 4 7 9 7 6 8 Encontre: a) O desvio padrão Amostral. b) A distribuição é assimétrica? Justifique sua resposta. c) Indique que tipo de curtose ocorre nesta distribuição. 3 Em uma clínica cardíaca foram anotados os níveis de colesterol (em mg/100ml) para trinta pacientes, homens com idade entre 40 e 60 anos que foram à clínica fazer um check-up. Paciente 1 2 3 4 5 6 7 8 9 10 Colesterol 160 160 161 163 167 170 172 172 173 177 Paciente 11 12 13 14 15 16 17 18 19 20 Colesterol 178 181 181 182 185 186 194 197 199 203 Paciente 21 22 23 24 25 26 27 28 29 30 Colesterol 203 205 206 206 208 209 211 214 218 225 No tópico anterior, você organizou estes dados em uma distribuição de frequências simples. Utilize esta tabela para calcular: a) O desvio padrão amostral. b) O coeficiente de assimetria (se houver assimetria). c) O coeficiente de curtose. 123 4 Um banco instalou um caixa eletrônico em um posto de combustível e está observando o número de usuários que vem utilizando o serviço. Diariamente, número de clientes que utilizou o serviço nos últimos 32 dias foi: 15 17 16 15 17 14 17 16 16 17 15 18 14 17 15 14 15 14 15 16 17 18 18 17 15 16 14 18 18 16 15 14. Calcule: a) A variância amostral para esta distribuição. b) Qual é o tipo de curtose que ocorre? 5 Um posto de saúde de certo bairro mantém um arquivo com o número de pacientes que procuram o consultório odontológico diariamente. Os dados obtidos no último mês foram os seguintes: 3 4 3 4 5 1 6 3 4 5 3 4 3 3 4 3 5 5 5 5 6 11 10 2 1 2 3 1 5 2. Calcule a variância amostral para esta distribuição. Há simetria? Por quê? 6 (MAGALHAES, 2010) O tempo de utilização de caixas eletrônicos depende de cada usuário e das operações efetuadas. Foram coletadas 26 medidas desse tempo (minutos): Utilize as informações da amostra e calcule: a) O desvio padrão amostral. b) O coeficiente de assimetria (se houver assimetria). c) O coeficiente de curtose. 1,1 1,2 1,7 1,5 0,9 1,3 1,4 1,6 1,7 1,6 1,0 0,8 1,5 1,3 1,7 1,6 1,4 1,2 1,2 1,0 0,9 1,8 1,7 1,5 1,3 1,5