Prévia do material em texto
ESTATÍSTICA USANDO EXCEL Preencha a ficha de cadastro no final deste livro e receba gratuitamente informações sobre os lançamentos e as promoções da Elsevier. Consulte nosso catálogo completo, últimos lançamentos e serviços no site www.elsevier.com.br ESTATÍSTICA USANDO EXCEL © 2005, Juan Carlos Lapponi Todos os direitos reservados e protegidos pela Lei no 9.610 de 19/12/1998. Nenhuma parte deste livro, sem autorização prévia por escrito da editora, poderá ser reproduzida ou transmitida sejam quais forem os meios empregados: eletrônicos, mecânicos, fotográficos, gravação ou quaisquer outros. Editoração Eletrônica: Estúdio Castellani Copidesque: Lígia Paixão Revisão Gráfica: Roberto Mauro Facce e Carlos Maurício da Silva Neto Projeto Gráfico Elsevier Editora Ltda. Conhecimento sem Fronteiras Rua Sete de Setembro, 111 – 16º andar 20050-006 – Centro – Rio de Janeiro – RJ – Brasil Rua Quintana, 753 – 8º andar 04569-011 – Brooklin – São Paulo – SP – Brasil Serviço de Atendimento ao Cliente 0800-0265340 sac@elsevier.com.br ISBN 978-85-352-1574-8 Nota: Muito zelo e técnica foram empregados na edição desta obra. No entanto, podem ocorrer erros de digitação, im- pressão ou dúvida conceitual. Em qualquer das hipóteses, solicitamos a comunicação ao nosso Serviço de Atendimento ao Cliente, para que possamos esclarecer ou encaminhar a questão. Nem a editora nem o autor assumem qualquer responsabilidade por eventuais danos ou perdas a pessoas ou bens, originados do uso desta publicação. CIP-Brasil. Catalogação na fonte. Sindicato Nacional dos Editores de Livros, RJ L322e Lapponi, Juan Carlos Estatística usando Excel / Juan Carlos Lapponi. – Rio de Janeiro: Elsevier, 2005 – 8a reimpressão. il. Inclui bibliografia ISBN 978-85-352-1574-8 1. Excel (Programa de computador). 2. Estatística. I. Título. 04-2744. CDD — 005.369 CDU — 004.42 O Autor JUAN CARLOS LAPPONI Engenheiro pela Faculdade de Engenharia da Universidade de Buenos Aires e Doutor em Engenharia pela Escola Politécnica da Universidade de São Paulo. Professor dos cursos de MBA em Finanças Corporativas e MBA em Gestão Empresarial da FGV Management da Fundação Getulio Vargas e do MBA em Administração para Engenheiros do IMT–Instituto Mauá de Tecnologia. V Obras do Autor Matemática Financeira com Aplicações em Microcomputadores e Planilha de Cálculo, Ebrás 1987. As seguintes obras foram publicadas pela Editora Lapponi Lotus 1-2-3 em Modelos para Avaliação Econômica de Projetos de Investimento, 1989. Novas Funções Financeiras para Lotus 1-2-3, 1991. Matemática Financeira Usando Excel, versão 4, 1993. Matemática Financeira Usando Excel 4 e 5, 1994. Estatística Usando Excel 4 e 5, 1995. Matemática Financeira Uma Abordagem Moderna, terceira edição 1995. Avaliação de Projetos de Investimento – Modelos em Excel, 1996. Matemática Financeira Usando Excel 5 e 7, 1996. Estatística Usando Excel 5 e 7, 1997. Matemática Financeira, 1998. Excel & Cálculos Financeiros – Introdução à Modelagem Financeira, 1999. Estatística Usando Excel, 2000. Todas as obras anteriores estão esgotadas. A seguir a relação das obras atuais da Editora Lapponi. Projetos de Investimento – Construção e Avaliação do Fluxo de Caixa, 2000. Matemática Financeira Usando Excel – Como Medir Criação de Valor, 2002. Edição da Editora Elsevier – Campus Modelagem Financeira com Excel, Elsevier - Campus, primeira edição 2004. Estatística Usando Excel, Elsevier - Campus, quarta edição 2005. VI Sumário 1 DADOS, VARIÁVEIS E AMOSTRAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Análise dos resultados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Projeções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Decisões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 A disciplina Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Origem dos dados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Dados e variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Número de variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Classificação dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Escala de medição dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Tipos de variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 População e amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Dígitos e números aleatórios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Funções do Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Aleatório( ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Aleatórioentre(inferior; superior) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Fórmulas com a função aleatório do Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Simulação da retirada de um número de uma urna . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Geração de amostras probabilísticas simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Ferramentas de análise do Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Ferramenta de análise Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 Amostragens aleatórias sem reposição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 Outros tipos de amostragens. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 Como são feitas as pesquisas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Esclarecendo os métodos do ibope. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 Apêndice 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 Preparando o Excel antes de começar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 Apêndice 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Como registrar uma função na planilha Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Apêndice 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 A função PROCV. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 A Função PROCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 Apêndice 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 Outro modelo para amostragem sem reposição . . . . . . . . . . . . . . . . . . . . . . . . . . 33 VII User Realce User Realce User Realce 2 DESCRIÇÃO DE AMOSTRAS COM TABELAS E GRÁFICOS . . . . . . . . . . . 35 Tabelas de frequências de dados quantitativos discretos . . . . . . . . . . . . . . . . . . . . . . . 36 Tabela de frequências absolutas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 Tabela de frequências relativas . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 37 Tabela de frequências acumuladas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 A função Frequência do Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 Construção das tabelas de frequências numa planilha Excel . . . . . . . . . . . . . . . . . 43 Tabelas de frequências de dados quantitativos contínuos . . . . . . . . . . . . . . . . . . . . . . 44 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 Construção do histograma com Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 Todos os histogramas numa única planilha. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 Gráfico poligonal – ogiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 Histograma combinado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 Histograma com dados quantitativos contínuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 Ferramenta de análise Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 Como escolher o intervalo de seleção . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 Sem informar o intervalo de seleção . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 Gráfico de Pareto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 Modelo histogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 Dados qualitativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 Apêndice 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 Funções estatísticas do Excel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 Apêndice 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 Fixando o endereço de células . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 Apêndice 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 Cópia de uma planilha . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 3 MEDIDAS DE TENDÊNCIA CENTRAL . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 Ordenamento de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 Percentil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 Quartil. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 Ferramenta de análise Ordem e Percentil. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 Medidas de tendência central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 Propriedades da média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 Primeira propriedade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 Segunda propriedade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 Visualização das propriedades. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 Análise do resultado da média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 Análise das medidas de tendência central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 Média ponderada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 Apêndice 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 Funções de procura e ordenamento do Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 Apêndice 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 O símbolo somatório . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 ESTATÍSTICA USANDO EXCEL / LAPPONIVIII User Realce User Realce User Realce Apêndice 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 Prova do mínimo da soma dos quadrados dos desvios . . . . . . . . . . . . . . . . . . . . 102 Apêndice 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 Funções de tendência central do Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 4 MEDIDAS DE DISPERSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 Desvio absoluto médio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 Relação entre as variâncias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 Características da variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 Regras operacionais da variância. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 Desvio padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 Relação entre os desvios padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 Significado do desvio padrão. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 Regra prática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 Medida relativa de dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 Análise da forma da distribuição de uma amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 Modelo análise numérica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 Ferramenta de análise Estatística Descritiva. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 Análise dos resultados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 Intervalo entre Q1 e Q3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 Dado suspeito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 Boxplot com Excel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 Construção de um Boxplot . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 127 Construção de dois ou mais Boxplot. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 Apêndice 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 Funções de medida de dispersão do Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 Apêndice 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 Outra forma de calcular a variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 Apêndice 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 Funções para banco de dados do Excel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 Incluindo outros critérios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 Resumo das funções de banco de dados do Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 Outras funções do Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 5 PROBABILIDADE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .147 Experimentos e eventos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 Operações com eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 Eventos mutuamente excludentes e coletivamente exaustivos . . . . . . . . . . . . . . 150 Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 Probabilidade teórica de eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 Frequência relativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 Simulador lançamento de uma moeda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 Análise dos resultados da simulação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 Lei de Benford . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 Árvore de possibilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 Regra da soma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 SUMÁRIO IX User Realce Probabilidade condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 Probabilidades conjunta e total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 Regra do produto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 Regra do produto – Eventos Independentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 Técnicas de contagem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 Permutações. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 Combinações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 6 CORRELAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .169 Covariância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 Características da covariância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 Regras operacionais da covariância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 Coeficiente de correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 Características do coeficiente de correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 Análise dos valores do coeficiente de correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 Variáveis perfeitamente correlacionadas de forma positiva . . . . . . . . . . . . . . . . . 177 Variáveis perfeitamente correlacionadas de forma negativa. . . . . . . . . . . . . . . . . 178 Variáveis não correlacionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 Simulador coeficiente de correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 Alguns cuidados com os resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180 Correlação e causalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 Anomalias do coeficiente de correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 Tabelas de covariâncias e de coeficientes de correlação . . . . . . . . . . . . . . . . . . . . . . . 183 Ferramenta de análise Covariância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 Ferramenta de análise Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 Apêndice 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 Outra forma de calcular a covariância. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 7 VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES DISCRETAS. . . . . . . . . . . . . 193 Variáveis aleatórias discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 VA de cenários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 Definição da VA discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 Valor esperado da VA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196 Simulador média de longo prazo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 Variância e desvio padrão da variável aleatória discreta . . . . . . . . . . . . . . . . . . . . . . . 199 Distribuição binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 Fórmula da distribuição binomial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202 Modelo probabilidade de sucesso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 Média e variância da distribuição binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 Tabela da distribuição binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208 Outras funções do Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208 Distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 Tabela da distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212 Outras distribuições discretas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 Apêndice 1 . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218 Outra fórmula da variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218 ESTATÍSTICA USANDO EXCEL / LAPPONIX Apêndice 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219 Covariância como valor esperado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219 Outra forma da fórmula da covariância. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220 8 DISTRIBUIÇÕES CONTÍNUAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 Variável aleatória contínua. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 Valor esperado e variância da variável aleatória contínua . . . . . . . . . . . . . . . . . . 222 Distribuição uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222 Distribuição normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224 Influência dos parâmetros na forma da distribuição normal . . . . . . . . . . . . . . . . 225 Cálculo de probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226 Resultados importantes da distribuição normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229 Modelo DN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230 Distribuição normal padronizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231 Tabela Z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 Modelo cálculos com DN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235 Outros cálculos com a distribuição normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236 Cálculo inverso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236 Cálculo dos parâmetros da distribuição normal . . . . . . . . . . . . . . . . . . . . . . . . . 238 Distribuição exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241 Distribuição lognormal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246 Apêndice 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253 Geração de números aleatórios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253 Ferramenta de análise Geração de Número Aleatório . . . . . . . . . . . . . . . . . . . . . . . . . . 254 Distribuição normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 Distribuição uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256 9 COMBINAÇÃO LINEAR DE VARIÁVEIS ALEATÓRIAS . . . . . . . . . . . . . . . 257 Transformação linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257 Consequências da transformação linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 Combinação linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 Utilizando os valores das amostras ou variáveis aleatórias . . . . . . . . . . . . . . . . . . 260 Utilizando as medidas estatísticas das amostras ou variáveis aleatórias . . . . . . . . 261 Combinação linear de duas variáveis aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262 Análise de resultados importantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 Combinação linear de uma variável aleatória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264 Combinação linear de n variáveis aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265 Distribuição de H . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267 Modelo combinação linear de VA’s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269 Apêndice 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273 Propriedades para duas variáveis aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273 Apêndice 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275 Análise do valor presente líquido de um projeto de investimento . . . . . . . . . . . . 275 Apêndice 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277 Formação de uma carteira de investimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277 Formação de uma carteira utilizando o solver . . . . . . . . . . . . . . . . . . . . . . . . . . . 278 Carteira de variância mínima . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279 Carteira de mínima variância para um definido retorno da carteira . . . . . . . . . . . 281 Carteira de mínima variância e sem venda a descoberto . . . . . . . . . . . . . . . . . . . 281 SUMÁRIO ED. CAMPUS – ESTATÍSTICA USANDO EXCEL – 0949 – CAPÍTULO 9 – 1ª PROVA XI 10 DISTRIBUIÇÃO AMOSTRAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285 Formação da distribuição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286 Definição da distribuição amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287 Média e desvio padrão da distribuição amostral . . . . . . . . . . . . . . . . . . . . . . . . . 288 Forma da distribuição de X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289 Simulador teorema central do limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290 Correção pela população ser finita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291 Análise da média de uma amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292 Modelo distribuição amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297 11 ESTIMAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .301 Confiança da estimativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301 Intervalo de confiança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302 Simulador intervalo de estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304 Incluindo o erro tolerado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306 Desvio padrão da população desconhecido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308 Escolha do tamanho da amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309 Estimativa da média com a distribuição t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310 Modelo geral para estimativa da média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . 314 Apêndice 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319 Funções estatísticas do Excel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319 Apêndice 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320 População finita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320 12 TESTE DE HIPÓTESES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323 Hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324 Testes de hipóteses em uma cauda e nas duas caudas . . . . . . . . . . . . . . . . . . . . . . . . 325 Teste de hipóteses com o intervalo de confiança . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326 Modelo TH com intervalo de confiança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328 Teste de hipóteses com as distribuições Z e t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330 Modelo TH com valores críticos de Z e t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333 Teste de hipóteses com p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334 Definição do p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335 Cálculo do p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336 Modelo TH com p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338 Função teste Z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339 Erros no teste de hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341 Poder do teste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344 13 TESTES DE HIPÓTESES COM DUAS AMOSTRAS. . . . . . . . . . . . . . . . . . 349 Teste de hipóteses para diferença entre médias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349 Amostras grandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350 Ferramenta de análise teste Z: duas amostras para médias . . . . . . . . . . . . . . . . . . 351 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353 Amostras pequenas e variâncias das populações iguais . . . . . . . . . . . . . . . . . . . . 354 Ferramenta de análise teste-T: duas amostras presumindo variâncias equivalentes . 356 ESTATÍSTICA USANDO EXCEL / LAPPONIXII Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357 Amostras pequenas e variâncias das populações diferentes . . . . . . . . . . . . . . . . . 358 Ferramenta de análise teste-T: duas amostras presumindo variâncias diferentes . . . 360 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361 Amostras emparelhadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362 Ferramenta de análise teste-T: duas amostras em par para médias . . . . . . . . . . . . 363 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365 Distribuição F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366 Teste F. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368 Ferramenta de análise teste-F: duas amostras para variâncias . . . . . . . . . . . . . . . . 372 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373 Distribuição �2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373 Teste de hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375 14 ANÁLISE DA VARIÂNCIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379 Conceituação da análise da variância. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 380 Tabela ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384 Ferramenta de análise anova: fator único. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387 Anova com dois fatores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389 15 REGRESSÃO LINEAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393 Modelo ajuste de uma reta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394 Linha de tendência do Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 396 Coeficientes de regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 398 Projeção . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401 As medidas estatísticas e os coeficientes de regressão . . . . . . . . . . . . . . . . . . . . . . . . 403 Medidas de variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404 Coeficiente de determinação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405 Erro padrão da estimativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407 As premissas do modelo de regressão linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409 Intervalo de projeção. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409 Ferramenta de análise Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 411 A reta de regressão passa pela origem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417 Completando os resultados da ferramenta de análise regressão. . . . . . . . . . . . . . 418 Regressão linear múltipla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422 Apêndice 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426 Determinação dos coeficientes de regressão com o Solver . . . . . . . . . . . . . . . . . 426 Apêndice 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427 Fórmulas dos coeficientes de regressão. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427 Apêndice 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 430 Outras funções estatísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 430 16 AJUSTE NÃO LINEAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435 Transformação de funções não lineares em lineares . . . . . . . . . . . . . . . . . . . . . . . . . . 435 Função exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436Função logarítmica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 437 Função potência. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 438 Resumo das transformações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 439 SUMÁRIO XIII Linha de tendência do Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 439 Ajuste polinomial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443 Séries temporais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444 Procedimento inicial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445 Taxa média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 446 Projeção média móvel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 448 Ferramenta de análise média móvel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 449 Projeção regressão linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451 Projeção alisamento exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452 Ferramenta de análise ajuste exponencial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453 Ajuste da constante de alisamento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 456 TABELAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .459 Tabela de números aleatórios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460 Distribuição Z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461 Distribuição t. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462 Distribuição F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463 Distribuição F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464 Distribuição Qui-quadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465 BIBLIOGRAFIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .467 ÍNDICE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .469 ESTATÍSTICA USANDO EXCEL / LAPPONIXIV Prefácio Estatística Usando Excel ensina Estatística e explica como aplicar os conceitos e analisar resultados por meio de exemplos resolvidos com os procedimentos tradicionais de cálculo e o Excel. Nesta quarta edição de Estatística Usando Excel, boa parte dos temas da edição anterior foi reescrita e amplia- da, melhorando a sequência e a compreensão dos temas. Novos temas foram adicionados, ampliando os conceitos estatísticos como, por exemplo, a tabela de probabilidades conjuntas e totais, os cálculos inversos com a distribuição normal, o poder do teste de hipóteses, a análise de variância com dois fato- res, a regressão linear múltipla, a projeção por ajuste de polinômio, taxa média e reta de regressão, a construção de um ou mais boxplot com os recursos próprios do Excel, e outros temas mais. Nesta nova edição, os exemplos em sua maioria foram resolvidos integrando os conceitos, os proce- dimentos de cálculo e a análise dos resultados. No desenvolvimento dos exemplos, são explicados os conceitos, os procedimentos de cálculo utilizando as fórmulas, as tabelas estatísticas, as funções e as ferramentas de análise estatísticas do Excel e as planilhas, os modelos e os simuladores desenvolvidos pelo autor. Essa integração torna o aprendizado deEstatística eficaz e mostra que há diversos caminhos para alcançar o mesmo resultado, incluindo a superposição de recursos do Excel. A maioria das planilhas, modelos e simuladores da edição anterior ganhou um novo layout a fim de facilitar a compreensão dos conceitos, a realização de cálculos e a análise dos resultados. Foram adicio- nadas novas planilhas, novos modelos e novos simuladores em Excel, por exemplo, os modelos Amos- tragem sem reposição, construção de Histogramas e Análise estatística numérica sem limitação de tama- nho de amostra. Também, os modelos daDistribuição amostral, da visualização dasPropriedades damé- dia, do Teste de hipóteses com novo gráfico descritivo da decisão para cada um dos três procedimentos, doAjustemanual da reta de regressão, doGráfico das distribuições apresentadas com visualização contí- nua do comportamento da curva em função dos parâmetros, e outros modelos mais. Os simuladores do Lançamento de uma moeda com até 10.000 lançamentos, do Coeficiente de correlação visualizando sua relação com o gráfico dos pontos das amostras, do Teorema central do limite variando o tamanho da amostra e o número de repetições, do Intervalo de confiança etc. Ao mesmo tempo, o leitor aprende a utilizar recursos do Excel, por exemplo, a construção de gráficos e histogramas, o registro de uma fun- ção e de uma fórmula como matriz, as ferramentas de análise, os comandos Atingir Meta, Linha de ten- dência, Solver e outras funções e comandos como a Formatação condicional etc. Nesta nova edição foi mantido o objetivo de facilitar o autodesenvolvimento do leitor por meio de exemplos resolvidos, integrando procedimentos de cálculo e mais problemas propostos com respos- tas. Temas complementares deEstatística e de Excel foram adicionados em apêndices de capítulos para não interferir no aprendizado. Alguns deles podem ser utilizados como trabalhos extras, por exemplo, as demonstrações de fórmulas, os modelos para combinação linear de variáveis aleatórias com apli- cações em finanças, a variável aleatória do VPL de um investimento e a formação de uma carteira de investimento utilizando o Solver, a determinação dos coeficientes de regressão utilizando o Solver e outros mais. XV Todas as planilhas, os modelos estatísticos e os simuladores desenvolvidos em Excel 2002, compatí- veis com as versões 2000 e 2003, bem como parte dos exemplos e problemas resolvidos estão incluídos na página do livro, no site da Editora. O conteúdo deste livro será útil para: � Estudantes que cursamEstatística nas diversas áreas do conhecimento e em diferentes níveis de gra- duação como, em ordem alfabética, Administração, Biologia, Contabilidade, Economia, Engenha- ria, Finanças, Marketing, Medicina etc. � Estudantes que necessitam aprimorar ou complementar seus conhecimentos deEstatística utilizan- do o Excel. � Profissionais das diversas áreas que utilizam os conceitos de Estatística e necessitam, ou gostariam, de utilizar as funções estatísticas, as ferramentas de análise, planilhas, modelos e simuladores de es- tatística em Excel. � Todos aqueles que poderão utilizar as planilhas, os modelos e os simuladores de estatística em Excel da forma como estão na página do livro, no site da Editora, ou modificando-os, para atender às suas necessidades. � Alunos de áreas correlatas que utilizarão estatística e desejam antecipar seu aprendizado e agregar valor ao seu conhecimento visando ao mercado de trabalho. � Usuários de Excel que desejam conhecer e aprender a utilizar os recursos deEstatísticadisponíveis. Queremos agradecer a todos os professores e alunos que utilizaram as edições anteriores deste livro e que, com seu apoio, nos estimularam para apresentar esta quarta edição de Estatística Usando Excel. Agradecemos também a todos aqueles que participam de nosso constante desenvolvimento. JUAN CARLOS LAPPONI Agosto 2004 ESTATÍSTICAUSANDO EXCEL / LAPPONIXVI Capítulo 1 DADOS, VARIÁVEIS E AMOSTRAS Um exemplo de Estatística é o Censo 2000 realizado pelo IBGE cujo primeiro resultado mostra que a população do Brasil no ano 2000 era de 169.799.170 pessoas. Depois, a população nos anos 1980, 1990, 1996 e 2000 classificadas por sexo, por grandes grupos de idade e por situação de domicí- lio em % está registrada na tabela1 da Figura 1.1. POPULAÇÃO TOTAL E PROPORÇÃO DA POPULAÇÃO POR SEXO, GRANDES GRUPOS DE IDADE E SITUAÇÃO DE DOMICÍLIO 1980 1990 1996 2000 População total 119.002.706 146.825.475 157.070.163 169.799.170 Por sexo (%) Homens 49,68 49,36 49,3 49,22 Mulheres 50,31 50,63 50,69 50,78 Por grandes grupos de idade (%) 0-14 anos 38,2 34,72 31,54 29,6 15-64 anos 57,68 60,45 62,85 64,55 65 e mais 4,01 4,83 5,35 5,85 Por situação do domicílio (%) Urbana 67,59 75,59 78,36 81,25 Rural 32,41 24,41 21,64 18,75 FIGURA 1.1 Resultados do Censo 2000 realizado pelo IBGE. Dos resultados registrados na tabela da Figura 1.1 pode-se deduzir como essas proporções evoluí- ram com o passar do tempo, as tendências de crescimento, mas não permitem medir a força dessas ten- dências. Uma forma de analisar essas tendências é medir a variação desses crescimentos durante os 1 Informações obtidas em Brasil em Síntese no site www.ibge.gov.br do IBGE – Instituto Brasileiro de Geografia e Estatística. User Realce anos definidos nas colunas da tabela. Na planilha Censo 2000 incluída na pasta Capítulo 1 foi calcula- da a taxa de crescimento de cada item utilizando o procedimento de média geométrica como mostra a tabela da Taxa de Crescimento Figura 1.2. Por exemplo, a média geométrica anual da população entre os anos 1980 e 1990 é 2,12% resultado obtido com a seguinte fórmula 146825475 119002706 1 0 0212 1 10. . . . ,⎛ ⎝⎜ ⎞ ⎠⎟ − = . Esse procedimento de cálculo foi utilizado para obter os resultados restantes da tabela da Figura 1.2.2 Taxa de crescimento – Média geométrica anual 1990/1980 1996/1990 2000/1996 2000/1980 2000/1990 2,12% 1,13% 1,97% 1,79% 1,46% –0,065% –0,020% –0,041% –0,047% –0,028% 0,063% 0,020% 0,044% 0,047% 0,030% –0,95% –1,59% –1,57% –1,27% –1,58% 0,47% 0,65% 0,67% 0,56% 0,66% 1,88% 1,72% 2,26% 1,91% 1,93% 1,12% 0,60% 0,91% 0,92% 0,72% –2,79% –1,99% –3,52% –2,70% –2,60% FIGURA 1.2 Taxa de crescimento utilizando a média geométrica anual. Análise dos resultados Os resultados da tabela da Figura 1.2 mostram que: � A população total continua crescendo, entretanto a média geométrica da taxa de crescimento anual diminui, pois durante os anos 1980 e 1990 a média geométrica foi de 2,12% ao ano e durante os anos 1990 e 2000 foi de 1,5% ao ano. � Quanto à classificação por sexo, a população de mulheres continua sendo maior que a dos homens com tendência de aumentar essa diferença. De 1980 a 2000 a população de homens tem diminuído com taxa média geométrica de –0,047% ao ano, e a população de mulheres tem aumentado, curiosa- mente, com taxa média geométrica +0,047% ao ano. � Quanto à classificação por grandes grupos de idade entre 1980 e 2000, a população entre 0 e 14 anos diminuiu com taxa média geométrica de –1,27% ao ano, a população entre 15 e 64 anos aumentou com taxa média geométrica de 0,56% ao ano, e a população com mais de 65 anos aumentou com taxa média geométrica 1,91% ao ano. � Quanto à classificação por situação de domicílio 1980 e 2000, a população com domicílio urbano aumentou com taxa média geométrica de crescimento positiva de 0,9% ao ano e a população com domicílios rurais diminuiu com taxa média geométrica de crescimento negativa de –2,7% ao ano. Você pode conhecer a estimativa da população do Brasil e do Mundo minuto a minuto. Enquanto re- digíamos esta seção, da página do IBGE na Internet copiamos a informação registrada a seguir: ESTATÍSTICA USANDO EXCEL / LAPPONI2 2 O procedimento de projeção pela taxa média geométrica é apresentado no Capítulo 16. User Realce User Realce User Realce User Realce User Realce User Realce User Realce Estimativas da População no dia 16/7/2004 às 14 horas e 46 minutos Somos agora no Brasil: 179.203.116 habs. Somos agora no Mundo: 6.160.714.635 habs. Projeções A análise desses resultados não se esgota nas poucas medidas que realizamos na planilha Censo 2000, pois a partir desses resultados surgem perguntas relacionadas, primeiro, com as causas que vêm provo- cando esses resultados e, depois, com as projeções futuras que se podem extrair desses resultados. Por exemplo, enumerando as causas que vêm provocando a diminuição da população jovem e aumentan- do a população adulta com destaque às pessoas com mais de 65 anos e, olhando para o futuro, também poderiam ser enumeradas as possíveis consequências dessas tendências. Um resultado rápido das con- sequências futuras pode-se resumir da seguinte forma: em longo prazo a população será mais velha e crescerá menos como mostra a projeção da Figura 1.3.3 Decisões Os resultados estatísticos ajudam a tomar decisões com base em poucos dados.4 O processo estatístico de amostragem ou censo gera informações que auxiliam na realização de previsões ou projeções e é, ou deve ser, uma das preocupações das atividades de negócios e governamentais. Nas empresas é necessá- rio prever as vendas, os estoques, os custos, o fluxo de caixa etc. para um determinado período como é o orçamento anual do próximo ano. Na administração pública faz-se necessário prever o número de habitantes, a arrecadação, os custos dos serviços prestados etc. Voltando ao Censo 2000, o seguinte trecho é um exemplo do que dizemos “...O estadista tem o dever de governar com olho no futuro, anteci- pando-se em dar respostas a problemas que explodirão depois de seu mandato....”5 CAPÍTULO 1 / DADOS, VARIÁVEIS E AMOSTRAS 3 3 Do artigo de Nilson Brandão Jr. e Alexandre Rodrigues: População:mais velha e crescendo menos, publicado no jornal O Estado de São Paulo em 14/04/2004. 4 O primeiro relato de um esforço ambicioso e influente de utilização do processo estatístico de amostragem foi realizado em 1664 em Londres por John Graunt que passara toda sua vida adulta como mercador de aviamentos. Veja Bernstein P. Desafio aos Deuses – A Fascinante História do Risco – Editora Campus, 1997. 5 Da coluna de Suely Caldas A Previdência pede socorro!- Com a população idosa crescendo a galope, multiplica-se o déficit previdenciá- rio. Publicado no jornal O Estado de São Paulo em 18/04/2004. FIGURA 1.3 Projeção de Indicadores Sociais realizadas pelo IBGE. Nas empresas que desejarem continuar crescendo no mercado em que atuam os desafios não são muito diferentes. As tendências dos índices mostram riscos, oportunidades e desafios. Enquanto o cliente dos serviços da administração pública é formado praticamente por todos os habitantes do país, o cliente das empresas privadas é uma parte desses habitantes. Por exemplo, o gerente de marketing ne- cessita determinar o tamanho do mercado de seu novo produto, mas a população desse produto nem sempre coincide com a população do país, como descreve o seguinte trecho de um editorial: “Que a afirmação, repetida à exaustão, de que o Brasil é um mercado constituído por 170 milhões de consumidores é uma falácia não é novidade. ... 40 milhões de pessoas, ou 23,5% da população do País, com rendas média e alta, que participam plenamente do mercado consumidor. ... Do consumo depende o crescimento sustentado da economia. As pessoas com rendas média e alta, segundo a pesquisa, já atingiram o limite de sua capacida- de de consumo. A expansão das atividades dependeria, portanto, dos 130 milhões de pessoas que compõem as faixas mais baixas de rendimento ...”6 A disciplina Estatística O Censo 2000 nos deu a oportunidade de apresentar a utilização da Estatística sem entrar nos detalhes dos procedimentos de amostragem, resumo e análise dos dados e inferência, destacando algumas pos- síveis consequências futuras dessas projeções referentes a uma pequena parte das variáveis pesquisa- das. Note que a análise realizada partiu do resumodas informações coletadas em questionários com- postos de várias páginas utilizadas no censo. EXEMPLO 1.1 No seu primeiro dia de trabalho, o novo gerente geral Ricardo pediu ao chefe de vendas Carlos o relatório de vendas do mês anterior. No mesmo dia, Carlos entregou o relatório solicitado contendo 65 páginas com 32 registros de vendas diárias em cada página. Carlos explicou que era um relatório completo onde cada regis- tro de venda diária continha a data, o nome do comprador, o valor bruto, o desconto, o valor líquido, o pra- zo para pagamento e outras informações relevantes sobre a venda como o nome do vendedor etc. Da forma como estão apresentadas as informações não será possível obter conclusões sobre as vendas do mês anterior senão for realizada alguma classificação desses dados. Para uma análise inicial, Ricardo definiu o valor das vendas diárias e suas datas como os dados relevantes, as variáveis da análise. Depois de resumir os da- dos dessas duas variáveis, Ricardo constatou que 38% das vendas diárias representam 70% das vendas do mês, e que 73% das vendas foram realizadas nos primeiros quinze dias do mês. O Exemplo 1.1 mostra a necessidade de resumir as informações, pois da forma como os dados dis- poníveis estão apresentados não será possível obter conclusões. Algumas vezes os dados disponíveis são resumidos como os do Censo 2000 apresentado anteriormente, ou as informações disponíveis não são as requeridas, ou a quantidade de informações disponíveis é também um desafio para obter resulta- dos. Resumir as informações do Exemplo 1.1 é necessário devido à variabilidade ou falta de uniformi- dade dos dados. Se, por exemplo, os valores das vendas da empresa forem constantes as respostas se- riam obtidas de forma simples sem necessidade de realizar análises estatísticas e, consequentemente, a necessidade de estudar estatística seria bem menor. Para obter as respostas requeridas foi necessário, primeiro, estabelecer quais indivíduos, pessoas, objetos ou coisas deveriam ser analisados e, depois, definir as características que deveriam ser medidas para obter as respostas procuradas. ESTATÍSTICA USANDO EXCEL / LAPPONI4 6 Do Editorial A falácia do mercado de consumo publicado no jornal O Estado de São Paulo em 8/12/2003. O objetivo da Estatística Descritiva é organizar, resumir, analisar e interpretar observações disponíveis. Para alguns estudiosos a estatística é uma arte; para outros a estatística é a simples aplicação do bom senso. Em qualquer caso, a estatística ajuda a tomar decisões com informações incompletas, tendo pre- sente que o sucesso da decisão dependerá da habilidade do analista para compreender os resultados das informações contidas nos dados. A primeira parte do processo decisório é a estatística descritiva e a ou- tra é a inferência estatística. O objetivo da Inferência Estatística é obter respostas corretas de questões específicas, atendendo a um determinado grau de acerto. Origem dos dados A Estatística lida com dados, números dentro de um contexto. Entretanto, a utilização de estatística é mais do que trabalhar com números, pois embora a organização dos números e a construção de gráfi- cos possa ser mecanizada com softwares e modelos, as ideias e bons julgamentos, por enquanto, não podem ser automatizados. O analista deve ter o hábito de perguntar, por exemplo, o que mostram os resultados dentro de um determinado contexto? Quais as respostas que os dados podem dar a pergun- tas específicas? Tenha em mente que durante a apresentação da disciplina Estatística é realizada uma análise expla- natória de dados conhecidos, não havendo, em geral, nenhuma pergunta in mente, salvo situações como a do Censo 2000 apresentado na qual você consegue vivenciar os resultados apresentados. Entre- tanto, na prática diária da estatística são procuradas respostas a perguntas específicas, por exemplo, quais indivíduos (pessoas, animais, taxas de juros e outras coisas) devem ser estudados? Que variáveis devem ser medidas? Nesses casos, em geral, os dados devem ser gerados. Os dados requeridos pela análise são obtidos pesquisando dados disponíveis, ou gerando novos da- dos. Em geral, os dados disponíveis são gerados e divulgados por instituições e empresas para muitas finalidades, as pesquisas do IBGE, de anuários, Internet, jornais, revistas etc. A procura dessas infor- mações toma bastante tempo, porém com pouco desembolso de dinheiro. Entretanto, na geração de novos dados as respostas desejadas serão obtidas de amostras cujos indivíduos responderão a pergun- tas bem elaboradas e registradas num questionário. A procura dessas novas informações toma bastante tempo exigindo maior desembolso de dinheiro. Depois de coletados, os dados poderão ter a necessidade de serem ajustados, pois nem sempre os da- dos coletados estarão no formato correto. Por exemplo, as vendas em $ podem refletir variações combinadas de quantidade e de preço, devendo ser necessário retirar um desses efeitos, ou os dois, ajustando as quantidades considerando o crescimento da população e ajustando os preços para moeda constante deflacionando os dados com um índice adequado. Outro caso são as rentabilidades de inves- timentos que refletem mudanças econômicas como a inflação e os prazos diferentes, devendo ser ne- cessário retirar esses efeitos. Os dados ajustados são representativos do processo sob análise; entretanto, as unidades dos dados podem ser difíceis de analisar, por exemplo, o histograma do faturamento em $ de uma empresa, ou a análise simultânea de várias séries de dados com unidades diferentes. Uma forma de facilitar a análise é transformar as séries de dados nas suas respectivas séries de taxas de crescimento, de forma unitária ou percentual, seja um grupo de séries de dados com unidades diferentes ou uma única série. Nesse proce- dimento, em geral, perde-se o primeiro dado. CAPÍTULO 1 / DADOS, VARIÁVEIS E AMOSTRAS 5 Dados e variáveis Quanto a sua origem, os dados ou observações podem ser obtidos de: � Respostas de Pesquisas. Quem aplica a pesquisa não tem nenhum controle intencional sobre os fa- tores que influenciam as respostas: a contagem de habitantes de um país, o cadastro dos clientes de um banco, a aceitação de um produto por um determinado tipo de consumidor etc. � Respostas de Experimentos. Quem aplica o experimento tem controle intencional sobre os fatores que influenciam as respostas: o teste de estabilidade de produtos perecíveis frente a diferentes valo- res de temperatura e umidade, o desgaste de componentes de equipamentos mecânicos em condi- ções especificadas e fora de elas etc. Unidade elementar é qualquer pessoa, objeto ou coisa que faça parte de uma população. Dado é o resultado de investigação, cálculo ou pesquisa, do dicionário Houaiss. Variável é toda característica que pode assumir diversos valores conforme pessoa, objeto ou coisa. As respostas de uma pesquisa ou um experimento são a matéria-prima da análise estatística em que os dados ou observações são obtidos medindo as características de uma pessoa, objeto ou coisa. O con- junto dessas respostas ou observações forma uma unidade elementar que, em geral, está composta de uma ou mais características denominadas variáveis. Por exemplo, cada questionário do Censo 2000 é uma unidade e cada resposta dentro desse questionário é uma variável. EXEMPLO 1.2 A tabela seguinte registra parte do Cadastro de Funcionários de uma empresa. Nome Idade Cargo Sexo Peso Escolaridade João 27 Supervisor M 62 kg 2o Grau Alex 38 Chefe M 78 kg 1o Grau Estela 34 Gerente F 65 kg 3o Grau Ana 32 Secretária F 58 kg 3o Grau Quais são as unidades elementares e as variáveis deste cadastro? Cada uma das seis variáveis de cada fun- cionário da empresa, Nome, Idade, Cargo, Sexo, Peso e Escolaridade, compõem uma unidade elementar, ten- do a tabela quatro unidades elementares. Número de variáveis A unidade elementar de informação pode conter qualquer número de variáveis e a análise estatística pode ser classificada de acordo com esse número devariáveis, por exemplo: � Uma única variável. São exemplos deste tipo de informação: � As vendas mensais de uma loja. � As projeções realizadas por 20 analistas financeiros sobre o valor da taxa de juros nos próximos 12 meses. ESTATÍSTICA USANDO EXCEL / LAPPONI6 � O lucro líquido trimestral de uma empresa. � O saldo médio dos clientes de um banco comercial etc. Os métodos estatísticos para resumir cada uma dessas variáveis são: o histograma, a média, o desvio padrão etc. � Duas variáveis7. São exemplos deste tipo de informação: � Os valores mensais do faturamento e do lucro líquido da empresa. � A rentabilidade diária de uma ação e a rentabilidade diária do índice da carteira teórica da Bolsa de Valores. � A rentabilidade anual de um investimento e a taxa anual de inflação. � O salário e a idade dos entrevistados numa pesquisa de clientes potenciais de um fabricante de re- frigerantes etc. Além dos métodos estatísticos para resumir cada uma dessas variáveis há também o objetivo de utilizar métodos estatísticos para verificar e medir a força da relação entre duas variáveis, a proje- ção de uma variável em função da outra etc.8 � Três ou mais variáveis9. São exemplos deste tipo de informação: � A relação entre o PIB e duas ou mais variáveis econômicas. � Cadastro dos clientes de um banco: idade, escolaridade, profissão, número de bancos que opera, residência etc. � Cadastro dos funcionários de uma empresa: nome, sexo, escolaridade, tempo de casa, cargo etc. � Resultados da colheita de um determinado tipo de cultura: área cultivada, região, umidade e tipo do solo, clima durante o cultivo, quantidade e qualidade do fertilizante usado, tipo de preparação da terra, cuidados e qualidade da mão de obra etc. Neste caso, além dos métodos estatísticos para resumir cada uma dessas variáveis há também o obje- tivo de utilizar métodos para verificar a existência de relação entre uma e as restantes variáveis, o grau de relação entre as variáveis, a projeção de uma variável em função das restantes etc. Classificação dos dados Como o procedimento estatístico a ser aplicado dependerá da natureza dos dados10 ou das observações de cada variável, deve-se desenvolver a habilidade de distinguir os tipos de dados possíveis e suas uni- dades de medida. Quanto a sua natureza, as observações ou dados se classificam em quantitativas dis- cretas e contínuas, qualitativas nominais e ordinais, de corte transversal e séries temporais. � Dados quantitativos. Refere-se a quantidades medidas numa escala numérica, em geral, acompa- nhadas de alguma unidade de medida e podem ser de dois tipos: � Dados discretos. Referem-se aos valores numéricos que assumem somente números inteiros po- sitivos 0, 1, 2, 3 .... Os dados discretos resultam, em geral, de contagens: a quantidade de vendas diárias de uma empresa, o número de filhos das famílias de uma região do país, o número de mo- vimentos da conta corrente dos clientes de um banco comercial, a quantidade de peças defeituo- sas em um lote de produção, o número de transações financeiras com erro de lançamentos, o nú- mero de acidentes nas estradas durante as férias anuais de verão etc. CAPÍTULO 1 / DADOS, VARIÁVEIS E AMOSTRAS 7 7 Denominado como análise bidimensional. 8 As variáveis são classificadas em dependentes e independentes conforme a situação, podendo uma mesma variável, em épocas dife- rentes, assumir um dos dois tipos. 9 Denominado como análise multidimensional. 10 Do dicionário Houaiss, dado é o resultado de investigação, cálculo ou pesquisa. � Dados contínuos. Referem-se aos valores numéricos que assumem qualquer valor do conjunto dos números reais. Os dados contínuos resultam, em geral, de medições que podem ter grande precisão: o valor das vendas diárias de uma empresa, a estatura dos alunos da terceira série, o valor dos depósitos e retiradas da conta corrente dos clientes de um banco comercial, o consumo mensal de energia elétrica, o tempo necessário para realizar uma tarefa repetitiva, o tempo de espera para ser atendido em um serviço de saúde pública etc. � Dadosqualitativos. Refere-se às observações não numéricas e são classificados em nominais e ordinais: � Dados nominais. Esses dados não têm ordenamento nem hierarquia. Por exemplo, o sexo dos funcionários registrados no cadastro da empresa, o estado civil, o nome das empresas que têm ações negociadas na Bolsa de Valores, cidade de residência do respondente etc. � Dados ordinais. Esses dados são equivalentes aos nominais, porém incluindo uma ordem, uma hierarquia. Por exemplo, o cargo dos funcionários registrados no cadastro da empresa: presiden- te, diretor, gerente etc.; a resposta a um questionário de pesquisa onde há uma escala para esco- lher: bom, regular e ruim; as posições das cinquenta maiores empresas por vendas durante um ano: primeira, segunda etc. Escala de medição dos dados Da forma como foi apresentada a classificação dos dados das variáveis não é suficiente. As seguintes quatro escalas de classificação adicionam novas informações às anteriores. � Escala Nominal. Valores numéricos numa escala nominal apenas dão nome a uma categoria ou clas- se; os números são utilizados somente para diferenciar os objetos, categorias ou nomes. Por exem- plo, numa pesquisa de mercado realizada nas regiões Sul e Sudeste do Brasil, o variável estado de nas- cimento do entrevistado foi codificada da seguinte forma: 1=Rio Grande do Sul, 2=Santa Catarina, 3=Paraná, 4=São Paulo e 5=Rio de Janeiro. Embora o código tenha transformado um nome em um número, este número não mantém todas as propriedades dos números; por exemplo, não se podem estabelecer relações como 3>2 ou 1+2=3 ou 3 – 2=1 como o leitor pode confirmar substituindo cada número pelo estado correspondente. � Escala Ordinal. Valores numa escala ordinal dão nome e ordem a um objeto, categoria ou classe; os números se utilizam para diferenciar em ordem de superioridade seguindo algum critério de hierar- quia. Em uma pesquisa a variável instrução do entrevistado foi codificada assim: 1=Sem Instrução, 2=Primeiro Grau, 3=Segundo Grau, 4=Terceiro Grau, 5=Mestre e 6=Doutor. Neste caso, na trans- formação de um nome em um número, o número mantém algumas propriedades dos números; por exemplo, podem ser estabelecidas relações do tipo 3>2 (o grau de instrução 3 é maior que o grau de instrução 2), porém não se podem estabelecer relações do tipo 2+3=5 como o leitor pode confirmar substituindo cada número pelo grau de instrução correspondente. Ao estudar as medidas de orde- namento percentil e quartil se poderá ver que são medidas na escala ordinal, pois elas mostram o de- sempenho de cada elemento de uma variável com relação aos outros elementos sem preocupação de determinar quanto melhor ou pior foi o desempenho. � Escala de Intervalos. Valores numa escala de intervalos eliminam a limitação da escala ordinal, esta- belecendo intervalos iguais onde é possível ordenar as medições e, ao mesmo tempo, explicar em quanto difere uma observação de outra. Por exemplo, o aumento de temperatura de ontem para hoje é de cinco graus, de 20 para 25 graus centígrados. Podemos dizer que hoje está mais quente do que ontem. Essa escala de medida tem uma unidade de medida, um zero arbitrário11 e a distância entre duas medições nessa escala tem um significado preciso. Outro exemplo de escala de intervalos são os tempos dos calendários gregorianos e outros tipos. ESTATÍSTICA USANDO EXCEL / LAPPONI8 11 O zero da escala de graus centígrados é o ponto de congelamento da água no nível do mar; entretanto, essa temperatura medida na escala de graus Fahrenheit é 32 graus. � Escala Proporcional. Valores numa escala proporcional eliminam a limitação da escala intervalar estabelecendo um zero da própria categoria, denominado como zero absoluto. Por exemplo, peso zero claramente significa falta de peso, o peso de uma caixa de 86 kg é o dobro do de uma caixa de 43 kg, e 33 peças rejeitadas de um lote de produção representam o triplo do lote de produção com onze peças rejeitadas.Tipos de variáveis As variáveis podem ser obtidas de duas formas. � Séries temporais. As observações são dados de uma mesma variável em diferentes períodos de tem- po: o valor do PIB anual de um país, a taxa mensal de desemprego numa região, as cotações diárias de uma ação, a rentabilidade mensal de uma empresa, a demanda de energia elétrica diária na região Su- deste medida às 18h etc. � Corte transversal numa data ou período. Se na coleta dos dados não for considerada a sequência temporal; por exemplo, amostras da quantidade produzida e do preço médio dos produtos, ou das vendas e do investimento em propaganda, a média de apartamentos vendidos durante o último mês pelas primeiras dez imobiliárias da cidade, o número de operações fechadas por cinco ações numa determinada data etc. População e amostra A contagem da população em 2000 realizada pelo IBGE foi de 169.799.170. Em termos estatísticos, a contagem do censo foi realizada consultando a população do Brasil. Outro exemplo, a partir de uma amostra das contas de energia elétrica dos consumidores residenciais do Brasil, o consumo de energia elétrica pode ser relacionado com as condições sócioeconômicas dos consumidores. População é o conjunto total unidades elementares de pessoas, objetos ou coisas sobre as quais se querem obter informações. Um subconjunto de unidades elementares selecionadas de uma população é denominado amostra. Uma população pode ser formada por todos os habitantes de um país, ou de um estado, ou de um município etc. Um exemplo de pesquisa de uma população completa é o censo demográfico do Brasil realizado pelo IBGE. A análise das vendas de um segmento da economia, por exemplo, o de monta- doras de carros, durante o mesmo ano é outro exemplo de população. Entretanto, nem sempre é con- veniente obter informações de todas as pessoas, objetos ou coisas de uma população. Os resultados de uma pesquisa de intenção de voto de todos os eleitores do país numa eleição presidencial não conse- guiriam captar do que os partidos políticos necessitam, pois o tempo necessário para coletar todas as opiniões comprometeria os resultados, além de ser muito cara para a finalidade que se propõe. Em al- guns casos, a restrição de consultar toda a população é econômica, como é o caso da determinação da vida útil das lâmpadas que obrigaria a testar todas as lâmpadas produzidas, não restando nenhuma para venda! Dessa maneira, o procedimento recomendado é escolher uma amostra representativa de um lote de lâmpadas produzidas. Deve-se ter presente que nem sempre um censo oferecerá melhores resultados do que uma amostra. Em muitos casos a obtenção de informações de uma amostra da população é mais adequada, pois ela é CAPÍTULO 1 / DADOS, VARIÁVEIS E AMOSTRAS 9 mais rápida de ser aplicada, concluída, de obter e utilizar os resultados e, consequentemente, tem custo menor. Os erros possíveis de serem cometidos na realização de uma amostragem podem ser evitados ou corrigidos aplicando técnicas adequadas e estabelecendo resultados com estimativa de erro, por exemplo, um intervalo de confiança. Uma amostra representativa tem as mesmas características da população de onde foi retirada. Muitas aplicações de estatística utilizam amostras retiradas de uma população da qual se deseja ob- ter respostas, tendo presente que a amostra é um subconjunto representativo da população. EXEMPLO 1.3 O objetivo é estimar o número de palavras contidas neste livro de estatística, considerando apenas as páginas dos capítulos, sem considerar o Sumário, o Índice etc. Solução. Há diversas formas de estimar o número de palavras contidas no livro. A seguir apresentamos qua- tro procedimentos diferentes. 1. O primeiro procedimento começa pela escolha de uma página do livro e a contagem do número de linhas dessa página. Depois, selecionamos três linhas da página escolhida e contamos o número de palavras con- tidas nas três linhas. Em sequência, calculamos a média de palavras por linha e, com esse valor, calculamos o número de palavras por página, utilizando o número de linhas já definido. Finalmente, multiplicando o número estimado de palavras por página pelo número total de páginas obtemos uma estimativa do núme- ro de palavras do livro. Antes de o leitor fazer reparos quanto a este procedimento, sugerimos que continue com os outros dois procedimentos. 2. O segundo procedimento começa pela escolha de uma página, segue com a contagem do número de pa- lavras contidas na página escolhida e termina com a multiplicação deste valor pelo número de páginas do livro. 3. O terceiro procedimento, um pouco melhor que o anterior, começa pela escolha de cinco páginas diferen- tes do livro. Segue com o cálculo da média de palavras por página. Finalmente, o número de palavras do li- vro é estimado como o resultado da multiplicação da média de palavras por página pelo número de pági- nas do livro. 4. O último procedimento é a contagem de todas as palavras do livro de estatística, página por página. É o caso de realizar o censo de palavras do livro. As estimativas do número de palavras do livro dos três primeiros procedimentos do Exemplo 1.3 de- verão ser diferentes, sendo que a estimativa da amostra de maior tamanho será mais próxima do resul- tado da contagem de todas as palavras no quarto procedimento. Estendendo essas conclusões, pode-se atestar confiança na estimativa de uma amostra se os elementos da amostra forem escolhidos assegu- rando que todos os participantes que formam a população tenham a mesma oportunidade ou chance de serem escolhidos. A amostra de uma população retirada dessa forma é denominada amostra aleató- ria de tamanho n cujas premissas são: 1. Cada unidade elementar da população tem a mesma probabilidade de ser escolhida numa amostra de tamanho n, sendo que cada unidade elementar será escolhida de forma independente das outras unidades. 2. Todas as amostras extraídas possíveis de tamanho n de uma população têm a mesma probabilidade de serem selecionadas. ESTATÍSTICA USANDO EXCEL / LAPPONI10 Uma amostra aleatória de tamanho n retirada de uma população é uma das muitas possíveis e igualmente prováveis combinações de n unidades elementares que podem ser retiradas de uma população. Portanto, qualquer amostra de tamanho n tem a mesma probabilidade de ser selecionada. Dígitos e números aleatórios As expressões números aleatórios e dígitos aleatórios são utilizadas como sinônimos, entretanto há uma diferença entre essas duas expressões que é importante conhecer. � Os números aleatórios são independentes e distribuídos uniformemente no intervalo de números reais entre 0 e 1, ou de forma mais técnica no intervalo (0, 1). � Os dígitos aleatórios são os números do conjunto {0, 1, 2, 3, ..., 9} distribuídos uniformemente. O agrupamento de vários dígitos aleatórios forma um número aleatório. Por exemplo, na Tabela de Números Aleatórios apresentada no capítulo Tabelas no final do livro, os números aleatórios são forma- dos com dígitos aleatórios. Os números aleatórios são o ingrediente básico e necessário no procedimento de simulação da maioria dos sistemas discretos. Em geral, as linguagens de programação têm uma sub-rotina ou função para gerar um número aleatório. O Excel dispõe de duas funções e uma ferramenta de análise para ge- rar números aleatórios. Os números aleatórios gerados por esses meios são também conhecidos como pseudonúmeros aleatórios, pois eles são gerados através de um procedimento que pode ser reproduzi- do o que pode introduzir um desvio da premissa dos números aleatórios serem independentes e uni- formemente distribuídos. Há testes que medem os desvios dos números aleatórios gerados por esses procedimentos. Funções do Excel O Excel dispõe das funções matemáticas ALEATÓRIO e ALEATÓRIOENTRE para gerar números alea- tórios e da ferramenta de análise Amostragem para extrair amostras com reposição de uma população e da ferramenta de análise Geração de Número Aleatório que será apresentada em um capítulo posterior. Tentando evitar aborrecimentosao leitor provenientes de uma instalação incompleta do Excel, su- gerimos que veja o Apêndice 1 deste capítulo Preparando o Excel para Começar. Da mesma maneira, sugerimos que veja o Apêndice 2 Como Registrar uma Função na Planilha Excel. Aleatório( ) A função matemática ALEATÓRIO12 retorna um grupo de números aleatórios entre 0,00...0 e 1,00...0 com a quantidade de casas decimais depois da vírgula definida pelo leitor, por exemplo, 0,236; 0,86945 etc. Se o nome da função for inserido sem o acento ortográfico, o Excel aceita e regis- trará a função com letras maiúsculas e com o acento ortográfico. Na célula C4 da planilha Funções incluída na pasta Capítulo_1 foi registrada a fórmula =ALEATÓRIO( ). É importante ter presente que toda vez que a planilha for recalculada a função ALEATÓRIO gerará um novo grupo de números entre 0,00...0 e 1,00...0. CAPÍTULO 1 / DADOS, VARIÁVEIS E AMOSTRAS 11 12 Em inglês, a função ALEATÓRIO é RAND. Em alguns casos será necessário gerar números aleatórios inteiros entre dois limites, um inferior e o outro superior, por exemplo, entre 000 e 999. Para esses casos podem ser utilizadas fórmulas matemá- ticas como mostraremos numa seção posterior, ou utilizar a função matemática ALEATÓRIOENTRE do Excel. Aleatórioentre(inferior; superior) A função estatística ALEATÓRIOENTRE13retorna um número aleatório inteiro entre os valores dos argumentos14 inferior e superior definidos na função. O argumento inferior e o argumento superior são, respectivamente, o menor inteiro e o maior inteiro que a função ALEATÓRIOENTRE retornará. Dife- rente da função ALEATÓRIO, se o nome dessa função for inserido sem o acento ortográfico o Excel não aceitará a função retornando o valor de erro #NOME? na célula. Inserindo a fórmula =ALEATÓRIOENTRE(0;599)15 numa célula vazia de uma planilha, o Excel re- tornará um número inteiro entre 000 e 599, valores dos argumentos inferior e superior, respectiva- mente. Toda vez que a planilha for recalculada a função ALEATÓRIOENTRE gerará um novo número aleatório dentro do mesmo intervalo. Na célula C5 da planilha Funções incluída na pasta Capítulo_1 foi registrada a fórmula =ALEATÓRIOENTRE(0;599) como mostra a Figura 1.4. No Apêndice 1 Como Registrar um Função no Excel o leitor encontrará os procedimentos de registro de funções numa plani- lha de Excel. Antecipando um pouco o conhecimento de distribuições de frequências, os grupos de números ge- rados pelas duas funções apresentadas têm distribuição uniforme, sendo que com a função ALEA- TÓRIO será gerada uma distribuição uniforme contínua e com a função ALEATÓRIOENTRE, uma distribuição uniforme discreta. Fórmulas com a função Aleatório do Excel Como foi antecipado, é possível gerar números aleatórios entre dois limites utilizando fórmulas. As três fórmulas seguintes geram números aleatórios entre os limites inferior e superior utilizando a fun- ção geradora de números aleatórios ALEATÓRIO. Os exemplos seguintes estão registrados na planilha NA com fórmulas incluída na pasta Capítulo 1. � =ALEATÓRIO( )*(superior-inferior)+inferior Essa fórmula gera números aleatórios com decimais entre o limite superior e o limite inferior infor- mados. Por exemplo, na célula E5 foi registrada a fórmula =ALEATÓRIO( )*(C4-C3)+C3 que gera números aleatórios com decimais entre 0 e 599, valores informados nas células C3 e C4. O resultado da célula E5 foi formatado com duas casas decimais como se pode ver na Figura 1.5. ESTATÍSTICA USANDO EXCEL / LAPPONI12 13 Em inglês, a função ALEATÓRIOENTRE é RANDBETWEEN. Argumentos são os valores que uma função usa para realizar operações e cálculos. Os argumentos desta função são: mínimo e máximo. 15 Se esta função não estiver disponível e retornar o erro #NOME?, instale e carregue o suplemento Ferramentas de análise. Veja o Apêndice 1 deste capítulo. FIGURA 1.4 Funções ALEATÓRIO e ALEATÓRIOENTRE. � =INT(ALEATÓRIO( )*(superior-inferior)+inferior A fórmula geradora de números aleatórios é a fórmula anterior. Nesta nova fórmula foi incluída a função matemática INT. � INT(número) A função INT retorna o valor registrado no argumento número arredondado para baixo até o nú- mero inteiro mais próximo. Por exemplo, a fórmula =INT(ALEATÓRIO( )*(C4-C3)+C3) registrada na célula E6 gera números aleatórios sem decimais entre 0 e 599, valores informados nas respectivas células C3 e C4. O resulta- do da célula E6 foi formatado sem casas decimais. � =TRUNCAR(ALEATÓRIO( )*(superior-inferior)+inferior; núm_dígitos) A fórmula geradora de números aleatórios é a fórmula anterior adicionada da função matemática TRUNCAR. � TRUNCAR(núm;núm_dígitos) A função matemática TRUNCAR16 retorna o valor do argumento núm truncado com a quantida- de de dígitos especificados no argumento núm_dígitos. Se núm_dígitos for igual a zero, o resultado da função TRUNCAR é equivalente ao da função INT. Simulação da retirada de um número de uma urna Os números gerados pelas duas funções apresentadas têm distribuição uniforme, sendo que a função ALEATÓRIO gerará uma distribuição uniforme contínua e a função ALEATÓRIOENTRE uma distri- buição uniforme discreta. O que significa isso? Considere que uma urna tenha dez bolas pequenas nu- meradas de 0 a 9. A seguir suponha que você retira uma bola, verifica o número que identifica a bola, por exemplo, o número 3, registra esse número numa coluna de uma planilha Excel e por último retor- na a bola para a urna. A seguir, mexe as bolas dentro da urna, retira uma nova bola e repete o procedi- mento anterior. Suponha que continua com esse procedimento até completar um número bastante grande de extrações. Como resultado, em longo prazo os dez números que formam o conjunto {0, 1, 2, 3, ..., 9} terão sido retirados o mesmo número de vezes, ou seja, cada um dos números deverá ter sido retirado 10% do total de retiradas ou amostras. Tecnicamente, todos os dez números terão a mesma fre- quência e, representando os dez número em um diagrama de barras verticais, observe que todas as bar- ras têm a mesma altura, pois se trata de uma distribuição uniforme discreta. Esse procedimento poderá ser simulado no Excel gerando números aleatórios do conjunto {0, 1, 2, 3, ..., 9} com a fórmula =ALEATÓRIOENTRE(0,9), repetindo essa fórmula o número de vezes necessárias. CAPÍTULO 1 / DADOS, VARIÁVEIS E AMOSTRAS 13 FIGURA 1.5 Geração de números aleatórios com fórmulas e a função ALEATÓRIO( ). 16 Em inglês, a função TRUNCAR é TRUNC. Como informação adicional, a função ARRED(núm;núm_dígitos), em inglês ROUND, dá um resultado equivalente ao da função TRUNCAR, porém, arredondando no lugar de truncar o resultado. O Excel dispõe de outras fun- ções: ARREDONDAR.PARA.BAIXO, ARREDONDAR.PARA.CIMA e ARREDMULTB, em inglês, respectivamente, ROUNDDOWN, ROUNDUP e MROUND. Tecnicamente declaramos que do conjunto de números {0, 1, 2, 3, ..., 9} retiramos um determinado nú- mero adequado de amostras aleatórias de tamanho n=1 com reposição. O longo prazo não é um valor de- terminado ou finito e, na prática, esse valor pode ser 500 como utilizamos na simulação seguinte, ou 1.000 ou maior que esse valor. Deve-se entender que quanto menor for o número de amostras da simula- ção, maior será o desvio dos valores das frequências observadas em comparação com os valores das fre- quências esperadas. A Figura 1.6 mostra o gráfico de barras verticais do resultado de uma simulação de 500 retiradas com reposição de uma bola de uma urna contendo dez bolas numeradas de zero a nove onde se pode ver que, nesse caso, duas bolas alcançaram o valor 50; 10% do número de retiradas. Na planilha Simulação incluída na pasta Capítulo 1 foi construído o modelo que gera 500 números aleatórios ou amostras do conjunto {0, 1, 2, 3, ..., 9}, conta os resultados e constrói o gráfico de barras ver- ticais denominado histograma. Vejamos o procedimento de construção do modelo: � Na célula B4 foi registrada a fórmula =ALEATÓRIOENTRE(0;9) que gera um número aleatório en- tre 0 e 9. � Depois, essa fórmula foi copiada até a célula B503. Os resultadosde cada uma das 500 células do intervalo B4:B503 é uma amostra aleatória com reposição de tamanho n=1 retirada da população {0, 1, 2, 3,..., 9}. � No intervalo D4:E14, oculto detrás do gráfico, foi construída a tabela de frequências absolutas, tema que será apresentado no Capítulo 2. Pressionando a tecla de função F9 a planilha será recalculada, novas amostras serão geradas, uma nova tabela de distribuição de frequências absolutas será registrada e o histograma será atualizado. Analisando as frequências absolutas observadas na Figura 1.6, barras pintadas de cor mais escura, verificamos que seus valores se situam ao redor de 50. Entretanto, a frequência esperada de cada um dos dez números é 50, barras pintadas de cor mais claro no histograma. A diferença entre as frequên- cias observadas e as frequências esperadas correspondentes pode ser atribuída à variabilidade amos- tral, a falhas do gerador de números aleatórios ou ao reduzido tamanho da amostra.17 ESTATÍSTICA USANDO EXCEL / LAPPONI14 FIGURA 1.6 Simulação de 500 retiradas de uma bola com reposição. 17 Pela lei dos grandes números, 500 amostras representam um número pequeno, tema tratado no Capítulo 5. Amostragem Seguindo alguns critérios de seleção, o subconjunto escolhido de uma população é denominado amos- tra. Há dois tipos de amostras quanto à forma de serem extraídas da população, a amostra probabilísti- ca e as restantes que não são probabilísticas. Na amostra probabilística todos os componentes da popu- lação têm alguma chance de serem selecionados, escolhidos. Como nas amostras não probabilísticas alguns componentes da população não têm nenhuma chance de serem selecionados, deverá ser definido algum critério de escolha. Um exemplo de amostra probabilística, também denominada amostragem aleatória, é a amostragem realizada na seção anterior quando simulamos a retirada de uma bola de uma urna contendo dez bolas, repondo a bola extraída depois de registrar seu resultado. Porém, esse tipo de amostragem tem mais uma característica, pois todos os elementos da população têm a mesma chance de serem selecionados. Esse procedimento de amostragem é denominado amostragem probabilística simples. Entretanto, pode ocorrer que uma amostra desse tipo não seja representativa da população.18 Por exemplo, em uma população formada por 50% de mulheres e 50% de homens, a amostragem probabilística simples pode resultar numa amostra de 65% de mulheres e 35% de homens. Nesse caso a amostra continua sen- do aleatória mas não é representativa. Na descrição da simulação da retirada de um número de uma urna foi registrado o procedimento que repetimos: retira uma bola da urna, registra o número da bola numa coluna de uma planilha Excel e por último retorna a bola para a urna. Em vez de voltar a bola para a urna, o procedimento poderia ser o de manter as bolas retiradas fora do processo de seleção. A primeira amostra é denominada amostra probabilística simples com reposição, ou simplesmente amostra com reposição, e a outra amostra pro- babilística simples sem reposição ou amostra sem reposição. Resumindo: � Na amostragem com reposição, a unidade selecionada retorna para a população. Portanto, em cada nova seleção a população mantém a mesma quantidade de unidades elementares. � Na amostragem realizada sem reposição, a unidade selecionada não retorna para a população. Por- tanto, em cada seleção a população é reduzida de uma unidade elementar. Observe que, em geral, as amostragens são realizadas sem reposição e os cálculos estatísticos nos dois tipos de amostragens são os mesmos. Por exemplo, numa pesquisa de intenção de voto para esco- lha do governador do estado se espera que cada pessoa seja entrevistada apenas uma vez. Se o tamanho da população for suficientemente maior que o tamanho da amostra, recomendado mais de vinte vezes, os resultados estatísticos das amostras com e sem reposição não serão muito diferentes, pois a chance de escolher o mesmo elemento é muito pequena. Contudo, deve-se tomar cuidado com populações pe- quenas quando comparadas com o tamanho da amostra a ser extraída. Geração de amostras probabilísticas simples Como deve ser gerada uma amostra probabilística simples? Os exemplos a seguir mostram procedi- mentos e ferramentas. EXEMPLO 1.4 O objetivo do diretor da escola primária é avaliar o conhecimento de matemática adquirido pelos alunos da sexta série no final do primeiro semestre. No lugar de aplicar um teste aos 35 alunos, ele prefere aplicar o teste numa amostra de seis alunos. Qual o procedimento adequado de amostragem? CAPÍTULO 1 / DADOS, VARIÁVEIS E AMOSTRAS 15 18 Almeida A.C. Como são Feitas as Pesquisas Eleitorais e de Opinião, Editora FGV, 2002. Solução. Os 35 alunos da sexta série estão registrados no caderno de presença diária identificados pelo nome em ordem alfabética. O procedimento de amostragem probabilística simples de seis alunos é parecido com o procedimento de um sorteio que a seguir descrevemos: 1. Começamos por preparar 35 pequenos papéis iguais, por exemplo, uma folha de papel quadrada com três a quatro centímetros de lado. 2. Em cada papel registramos o nome completo de cada aluno. 3. Depois, os 35 papéis com os nomes registrados são colocados numa urna adequada, porém sem dobrar os pequenos papéis. 4. Iniciamos o sorteio remexendo os papéis dentro da urna antes de retirar o primeiro papel sorteado. 5. Continuamos com esse procedimento até completar a retirada dos seis papéis planejados. 6. Divulgamos o nome dos seis alunos escolhidos para serem avaliados. A amostragem do Exemplo 1.4 é sem reposição. Na instrução da amostragem foi estabelecido que os 35 papéis com os nomes dos alunos registrados sejam depositados numa urna adequada sem nenhuma dobra. Deixamos para você analisar as características da extração dos papéis não dobrados comparan- do com o caso dos mesmos papéis dobrados, por exemplo, em quatro partes. Analise se nos dois proce- dimentos, papéis com e sem dobra, atende-se à premissa de que cada unidade elementar da população tenha a mesma probabilidade de ser escolhida numa amostra de tamanho 6. Quando a população for muito grande o procedimento do Exemplo 1.4 não é adequado, pois a se- leção dos papéis será mais difícil de realizar e a amostra extraída se afastará das premissas de amostra aleatória. Nesse caso deve-se utilizar a Tabela de Números Aleatórios19 apresentada em Tabelas no fi- nal deste livro. O Exemplo 1.5 mostra a descrição do procedimento de amostragem sem repetição. O Exemplo 1.6 mostra o trabalho direto com a tabela. EXEMPLO 1.5 O objetivo da auditoria interna da empresa é verificar se o Setor de Contas a Pagar cumpre com as rotinas esta- belecidas pela empresa para pagamento de fornecedores. Deve-se estabelecer o procedimento de seleção de quinze processos dos últimos 600 realizados. Solução. A amostragem que deve ser realizada é do tipo probabilístico simples e sem reposição, pois interes- sa analisar somente quinze processos diferentes. No processo de seleção dos componentes da amostra é utili- zada a Tabela de Números Aleatórios apresentada no capítulo Tabelas no final deste livro. O procedimento de amostragem é: 1. Numerar os últimos 600 processos de pagamento de 000 até 599. Os processos escolhidos serão analisa- dos de trás para a frente das aprovações, começando pela última aprovação que autorizou o pagamento. 2. Escolher um número aleatório qualquer na Tabela de Números Aleatórios e tomar nota dos três últimos al- garismos. 3. Deslocar-se na tabela por linha ou por coluna ou pulando entre elas até escolher o próximo número aleató- rio e tomar nota dos três últimos algarismos. 4. Repetir o procedimento anterior até completar a seleção dos quinze números aleatórios contendo três al- garismos diferentes. Os três algarismos que formarem números maiores a 599 ou serem repetidos não se- rão considerados durante a seleção. 5. Separar os quinze processos de pagamento identificados pelos quinze números aleatórios escolhidos. Há casos em que é necessárioextrair amostras de uma população identificada por dados qualita- tivos, observações não numéricas classificadas em nominais e ordinais, como mostra o exemplo se- guinte. ESTATÍSTICA USANDO EXCEL / LAPPONI16 19 Apenas como comentário, a lista telefônica de assinantes é uma boa geradora de dígitos aleatórios, considerando apenas os quatro últimos dígitos. EXEMPLO 1.6 A professora de artes quer analisar o resultado de pintar uma figura geométrica qualquer dividida em oito par- tes utilizando quatro cores escolhidas aleatoriamente da população formada pelas seguintes quatro cores {amarelo, vermelho, azul, verde} e utilizando o Excel. Solução. A figura seguinte mostra a solução registrada na planilha Pintura incluída na pasta Capítulo 1. A amostragem que deve ser realizada é do tipo probabilístico simples com reposição, pois interessa analisar o arranjo de quatro cores em oito partes de uma figura geométrica. O resultado mostrado em cada célula do intervalo E4:E11 da planilha Pintura é a cor resultante para cada uma das oito partes de uma figura geométri- ca qualquer. Os resultados de cada uma das oito células desse intervalo têm duas partes diferentes, a primeira se relaciona com a seleção aleatória do nome da cor e a segunda com a formatação da cor da célula correspon- dente ao nome da cor. Seleção da cor de cada uma das oito partes da figura geométrica. � No intervalo B4:B7 foram registrados os nomes das quatro cores pintando cada célula com a cor correspon- dente ao nome registrado. � A fórmula =ÍNDICE($B$4:$B$7;ALEATÓRIOENTRE(1;4)) foi registrada na célula E4 e depois foi copiada até a célula E11. Essa fórmula seleciona de forma aleatória uma das quatro cores utilizando as funções ÍNDICE e ALEATÓRIOENTRE. Toda vez que a planilha for recalculada a função ALEATÓRIOENTRE selecio- na um dos quatro números {1, 2, 3, 4}. Com essa informação a função ÍNDICE seleciona a cor correspon- dente registrada no intervalo B4:B7 da planilha, sendo que o número 1 corresponde à cor registrada na célula B4 (Amarelo), o número 2 corresponde à cor registrada na célula B5 (Vermelho) e da mesma forma com os números 3 e 4. � ÍNDICE(matriz; núm_linha; núm_coluna) A função ÍNDICE20 retorna um valor ou a referência a um valor do argumento matriz, tabela ou intervalo que neste caso é o intervalo $B$4:$B$7 que recebeu os cifrões para facilitar a cópia da fórmula em todo o intervalo E4:E11. � O argumento núm_linha seleciona a linha na matriz a partir da qual um valor deverá ser retornado, se núm_linha for omitido, o argumento núm_coluna será obrigatório. Neste caso, a seleção da linha é reali- zada pela fórmula ALEATÓRIOENTRE(1;4). � O argumento núm_coluna seleciona a coluna na matriz a partir da qual um valor deverá ser retor- nado; se núm_coluna for omitido, núm_linha será obrigatório. Neste caso, este argumento foi omitido. CAPÍTULO 1 / DADOS, VARIÁVEIS E AMOSTRAS 17 20 Em inglês, a função ÍNDICE é INDEX. Formatar a cor da célula com o nome da cor registrada na célula. A formatação da cor da célula correspondente ao nome da cor é realizada com o comando Formatação con- dicional do Excel procedendo como segue: � Selecione o intervalo E4:E11 e pinte as células de cor amarela forte e a fonte de cor preta com negrito. � Clique na célula E4 e no menu Formatar selecione Formatação condicional. � Na Condição 1 selecione A fórmula é e ao lado registre a fórmula =E4="Vermelho" como mostra a figura na página seguinte. Isso indica que sempre que a condição E4="Vermelho" for verdadeira o Excel formatará a célula E4 como especificado a seguir; caso contrário, a célula continuará com a cor amarela forte e fonte de cor preta com negrito. � Clique no botão Formatar e selecione as seguintes alternativas. � Fonte. Mantendo o corpo, escolher Negrito com cor branca. � Borda. Não realizar nenhuma seleção. � Padrões. Escolher a cor vermelha para a célula. � Na Condição 2 selecione A fórmula é e ao lado registre a fórmula =E4="Azul" como mostra a figura aci- ma. Depois proceda como na Condição 1 mudando apenas a cor da célula para azul e a cor da fonte para branco. � Na Condição 3 selecione A fórmula é e ao lado registre a fórmula =E4="Verde" como mostra a figura anterior. Depois proceda como na Condição 1 mudando apenas a cor da célula para verde sem necessidade de mudar a cor da fonte. � Por último pressione o botão OK. Para conferir o resultado pressione a tecla de função F9 e verifique a sele- ção do nome da cor e a formatação da cor da célula. Para copiar a formatação condicional da célula E4 no intervalo E5:E11 proceda como segue: � Selecione a célula E4. � No menu Editar selecione Copiar ou pressione as teclas Control+C, ou pressione o ícone copiar . � Selecione no intervalo E5:E11. � No menu Editar selecione Colar especial. No grupo Colar da caixa de diálogo Copiar especial selecio- ne Formatos. � Para terminar pressione o botão OK. A figura seguinte mostra outra forma de utilizar a função ÍNDICE, registrada a partir da célula J1 da planilha Pintura incluída na pasta Capítulo 1. Neste caso não é utilizada a base de dados do intervalo E4:E11, sendo os quatro elementos da população de cores {"Amarelo";"Vermelho";"Azul";"Verde"} registrados como matriz na própria fórmula como a da célula M4: =ÍNDICE({"Amarelo";"Vermelho";"Azul";"Verde"}; ALEATÓRIOENTRE(1;4)) ESTATÍSTICA USANDO EXCEL / LAPPONI18 que depois foi copiada até a célula M11. Para terminar, as células do intervalo E4:E11 receberam a formatação condicional copiada da célula E4. Nos dois casos, pressionando a tecla de função F9 serão obtidas novas combinações de cores. A fórmula do segundo procedimento do Exemplo 1.6 deve ser utilizada em populações pequenas, pois em populações grandes o registro de todos os nomes pode ser muito trabalhoso, sujeito a erros de registro e até a estourar a capacidade de armazenamento das células do Excel. O exemplo seguinte mostra outra forma de realizar uma amostragem probabilística com reposição. EXEMPLO 1.7 A tabela seguinte registra a relação das 50 Maiores Empresas Privadas por Vendas do Brasil no ano 2002.21 O objetivo é retirar uma amostra aleatória sem reposição de tamanho 10 utilizando a tabela de números alea- tórios. A tabela das maiores empresas está registrada na planilha 50 Maiores 2002 incluída na pasta Capítu- lo 1 no material disponibilizado no site da editora. Ordem Empresa – Ramo Vendas Ordem Empresa – Ramo Vendas 1 TELEMAR – Telecomunicações $ 6.303,7 26 GERDAU – Siderurgia e metalurgia $ 2.078,9 2 TELEFÔNICA – Telecomunicações $ 5.480,5 27 LIGHT – Serviços públicos $ 2.003,6 3 CBB/AMBEV – Alimentos, bebidas e fumo $ 5.329,8 28 USIMINAS – Siderurgia e metalurgia $ 1.891,8 4 VOLKSWAGEN – Automotivo $ 5.295,2 29 REFAP – Química e petroquímica $ 1.886,1 5 PETRÓLEO IPIRANGA – Atacado e comércio exterior $ 4.214,1 30 VARIG – Serviços de transporte $ 1.868,6 6 SHELL – Atacado e comércio exterior $ 4.096,8 31 BRASKEM – Química e petroquímica $ 1.793,3 7 GENERAL MOTORS – Automotivo $ 4.092,7 32 SADIA – Alimentos, bebidas e fumo $ 1.760,4 8 CARREFOUR – Comércio varejista $ 4.044,9 33 TELESP CELULAR – Telecomunicações $ 1.752,1 9 BRASIL TELECOM – Telecomunicações $ 3.975,9 34 CASAS BAHIA – Comércio varejista $ 1.690,7 10 GRUPO PÃO DE AÇÚCAR – Comércio varejista $ 3.837,5 35 IBM – Tecnologia e computação $ 1.591,8 11 EMBRATEL – Telecomunicações $ 3.668,3 36 DAIMLERCHRYSLER – Automotivo $ 1.557,2 12 VALE DO RIO DOCE – Mineração $ 3.418,0 37 CPFL – Serviços públicos $ 1.551,2 13 BUNGE ALIMENTOS – Alimentos, bebidas e fumo $ 3.158,1 38 COPERSUCAR – Atacado e comércio exterior $ 1.550,5 14 FIAT – Automotivo $ 3.121,4 39 SIEMENS – Eletroeletrônico $ 1.528,8 15 ELETROPAULO METROPOLITANA – Serviços públicos $ 3.078,0 40 COPESUL – Química e petroquímica $ 1.465,8 CAPÍTULO 1 / DADOS, VARIÁVEIS E AMOSTRAS 19 21 Revista Exame – Melhores e Maiores 2002. Ordem Empresa – Ramo Vendas Ordem Empresa – Ramo Vendas 16 EMBRAER – Automotivo $ 2.945,3 41 TAM – Serviços de transporte $ 1.397,0 17TEXACO – Atacado e comércio exterior $ 2.805,2 42 BASF – Química e petroquímica $ 1.355,1 18 NESTLÉ – Alimentos, bebidas e fumo $ 2.762,7 43 COSIPA – Siderurgia e metalurgia $ 1.340,0 19 CARGILL – Alimentos, bebidas e fumo $ 2.709,1 44 PERDIGÃO AGROINDUSTRIAL – Alim., beb. e fumo $ 1.336,2 20 ESSO – Atacado e comércio exterior $ 2.688,5 45 NOKIA – Eletroeletrônico $ 1.300,0 21 ITAIPÚ BINACIONAL – Serviços públicos $ 2.529,6 46 BUNGE FERTILIZANTES – Química e petroquímica $ 1.297,5 22 UNILEVER – Farmacêutico, higiene e cosméticos $ 2.456,9 47 SONAE – Comércio varejista $ 1.156,5 23 FORD MOTOR – Automotivo $ 2.387,6 48 KLABIN PAPEL CELULOSE – Papel e celulose $ 1.155,1 24 SOUZA CRUZ – Alimentos, bebidas e fumo $ 2.375,9 49 PONTO FRIO – Comércio varejista $ 1.153,3 25 CSN – Siderurgia e metalurgia $ 2.160,4 50 MAKRO – Atacado e comércio exterior $ 1.127,2 Solução. Começando em qualquer ponto da tabela, a escolha dos números aleatórios pode ser realizada por coluna, por linha ou pulando entre elas. Escolhemos como ponto de partida o número aleatório 0617 da colu- na 2 da linha 11, como mostra a seguinte tabela parcial de números aleatórios. Como a população tem 50 elementos ou empresas para realizar as seleções serão utilizados os dois últimos algarismos de cada número aleatório da tabela acima. � Do número 0617 são escolhidos 17. � Do número 4946 os algarismos 46. � A seguir deveríamos selecionar o número 5390, mas como 90 é maior que 50 continuamos até o número 8008 escolhendo 08. � Continuamos este procedimento de escolha até completar a amostra de tamanho 10 identificada com a seguin- te relação de números de ordem da tabela das 50 empresas: 17, 46, 08, 29, 14, 10, 30, 03, 12 e 50. Com os números aleatórios selecionados foi construída a tabela seguinte. Amostra Números Empresa – Ramo Vendas 1 17 TEXACO – Atacado e comércio exterior $ 2.805,2 2 46 BUNGE FERTILIZANTES – Química e petroquímica $ 1.297,5 3 08 CARREFOUR – Comércio varejista $ 4.044,9 4 29 REFAP – Química e petroquímica $ 1.886,1 5 14 FIAT – Automotivo $ 3.121,4 6 10 GRUPO PÃO DE AÇÚCAR – Comércio varejista $ 3.837,5 7 30 VARIG – Serviços de transporte $ 1.868,6 8 03 CBB/AMBEV – Alimentos, bebidas e fumo $ 5.329,8 9 12 VALE DO RIO DOCE – Mineração $ 3.418,0 10 50 MAKRO – Atacado e comércio exterior $ 1.127,2 ESTATÍSTICA USANDO EXCEL / LAPPONI20 8395 0617 4946 5390 8008 2785 7629 3176 5114 1410 3069 5769 3617 1149 0276 5783 2837 7487 8159 3478 1859 8790 3106 7156 5673 6967 0812 1603 1330 5588 9645 7574 2954 5940 6263 6559 9450 2281 1362 3000 1136 6008 0598 8617 2380 0960 4412 7829 2840 8729 EXEMPLO 1.8 Construa um modelo para extrair uma amostra probabilística simples com reposição de dez empresas da ta- bela das cinquenta primeiras empresas privadas por vendas no ano 2002. Solução. Nas colunas B, C e D da planilha Amostragem com Reposição incluída no Capítulo 1 foram re- gistradas a Ordem, a Empresa – Ramo e as Vendas das 50 maiores empresas por vendas no ano 2002, da- dos copiados da planilha 50 Maiores 2002. A partir da célula F5 foi construída a tabela que extrairá as amos- tras aleatórias de tamanho dez utilizando a função ALEATÓRIOENTRE com limite inferior 1 e limite superior 50. Para facilitar o controle, na coluna F foi registrada a ordem da amostragem. � Na coluna G são gerados os números aleatórios entre os limites 1 e 50. Na célula G5 foi registrada a fórmula =ALEATÓRIOENTRE(1;50) que depois foi copiada até a célula G14. � A fórmula registrada na célula H5 =PROCV($G5;$B$4:$D$53;2) foi copiada até a célula H14. A partir dos números aleatórios gerados na coluna G, estas fórmulas procuram o nome da empresa amostrada na tabela das 50 empresas. No Apêndice 3 deste capítulo está descrita a função PROCV de procura vertical e sua equi- valente função PROCH para procura horizontal. � Finalizando, a fórmula =PROCV($G5;$B$4:$D$53;3) registrada na célula I6 procura o valor das vendas da empresa amostrada; depois essa fórmula foi copiada até a célula I15. � Cada vez que for pressionada a tecla de função F9 será obtido um novo grupo de 10 amostras que poderá conter mais de uma vez uma mesma empresa. Sugerimos que o leitor se familiarize com este procedimento e com o significado da amostragem probabilística simples com reposição retirando amostras sucessivas com F9. Como complemento, a partir da linha 18 da planilha Amostragem com Reposição foi construída outra tabela de amostragem utilizando a função ÍNDICE apresentada no Exemplo 1.6. A fórmula geradora de núme- ros aleatórios ALEATÓRIOENTRE(1;50) não pode ser utilizada dentro da função ÍNDICE, pois com o mesmo número aleatório serão extraídos dois dados da tabela da população, os campos Empresa – Ramo e Vendas. Das dez empresas amostradas no Exemplo 1.8 três delas foram selecionadas duas vezes, pois to- das as amostras extraídas com esse procedimento são realizadas com reposição. Para tentar sele- cionar amostras sem reposição com o mesmo modelo anterior e de forma manual, a planilha deverá ser recalculada tantas vezes quanto seja necessário até conseguir uma amostra com dez empresas diferentes. Ferramentas de análise do Excel Até esta parte do livro utilizamos algumas das muitas funções estatísticas da planilha Excel22 sendo que algumas delas estão sempre disponíveis quando o aplicativo Excel é carregado, e as outras funções fi- cam disponíveis depois de instalar o suplemento Ferramentas de análise como é mostrado no Apêndice 1 deste capítulo. CAPÍTULO 1 / DADOS, VARIÁVEIS E AMOSTRAS 21 22 O Excel também dispõe de funções financeiras, matemáticas, de engenharia etc. O Excel também dispõe de um conjunto de ferramentas para análise de dados denominadas de for- ma genérica como Ferramentas de análise. Essas ferramentas apresentam soluções integradas de aná- lises estatísticas. Para ver a relação de ferramentas de análise disponíveis dentro da planilha Excel, depois de selecionar Análise de dados dentro do menu Ferramentas o Excel apresentará a caixa de diálogo da Figura 1.7. � Pressionando o botão Ajuda dessa caixa de diálogo o Excel apresentará a página Sobre as ferramentas de análise estatística pertencente à Ajuda do Excel. Na caixa de diálogo Análise de dados selecione o nome da ferramenta de análise que deseja utilizar, por exemplo, Amostragem e depois pressione o botão OK. A seguir o Excel apresentará uma caixa de diálogo com o nome da ferramenta selecionada, Amostragem, onde você informará os dados requeri- dos e definirá, em geral, as opções de análise e de resultados desejados. As caixas de diálogos das ferra- mentas incluem um botão de Ajuda onde poderão ser obtidas algumas informações sobre as opções das análises. Se a opção Análise de dados não estiver disponível, você precisará carregar o programa suple- mentar de Ferramentas de análise como é mostrado no Apêndice 1 deste capítulo. Ferramenta de análise Amostragem O Excel dispõe da ferramenta de análise Amostragem para extrair amostras probabilísticas simples com reposição de uma população de valores numéricos com distribuição uniforme e discreta. Também dis- põe da ferramenta de análise Geração de Número Aleatório para extrair amostras probabilísticas simples com reposição de uma população de valores numéricos com outros tipos de distribuições, incluindo a uniforme, tema apresentado no Apêndice 1 do Capítulo 8. Antes de utilizar a ferramenta Amostragem23 deve-se preparar uma planilha com os dados numéricos da população que será amostrada e registrados numa coluna de onde será retirada a amostra. Para compreender o uso da ferramenta Amostragem, o Exemplo 1.8 foi resolvido na planilha Ferramenta Amostragem incluída na pasta Capítulo 1. Depois de copiar os dados da planilha 50 Maiores 2002 proceda como segue: � Depois de selecionar Análise de dados dentro do menu Ferramentas o Excel apresentará a caixa de diálogo Análise de dados com todas as ferramentas de análise disponíveis, Figura 1.7. � Escolhendo a ferramenta Amostragem e depois pressionando o botão OK você receberáa caixa de diálogo Amostragem mostrada na Figura 1.8, depois de selecionadas algumas opções. � Pressionando o botão Ajuda dessa caixa de diálogo, o Excel apresentará a página Sobre a caixa de diálogo Amostragem pertencente à Ajuda do Excel. ESTATÍSTICA USANDO EXCEL / LAPPONI22 FIGURA 1.7 Caixa de diálogo das Ferramentas de análise. 23 Em inglês, a ferramenta de análise AMOSTRAGEM é SAMPLING. As informações que devem ser registradas no quadro Entrada da caixa de diálogo da ferramenta Amostragem, como mostra a Figura 1.8, são: � Intervalo de entrada: Informar o intervalo de células da planilha onde os dados estão registrados, neste caso o intervalo D3:D53 que inclui a célula onde foi registrado o título Vendas, ou rótulo no Excel. � Rótulos. Selecionamos este item, pois o intervalo informado D3:D53 inclui o título Vendas. No quadro Método de amostragem há duas escolhas: � Escolhendo Periódico e informando o Período, serão retiradas amostras com período constante. Por exemplo, informando 5 na caixa Período, a ferramenta Amostragem retirará 10 amostras com periodicidade 5, começando pelo quinto dado da tabela. De outra maneira, retirará o primeiro dado do quinto lugar da tabela, depois o dado na posição 10 e assim sucessivamente até o dado registrado na posição 50. � Escolhendo Aleatório serão retiradas amostras probabilísticas simples até completar o número de amostras registrado na caixa Número de amostras, neste caso 10. No quadro Opções de saída deve ser obrigatoriamente informado um endereço, a partir do qual a ferramenta Amostragem registrará os resultados. Há três alternativas excludentes de informar esse en- dereço, identificadas por três botões de opção que aceitam a escolha de uma única alternativa: � Intervalo de saída. Os resultados serão apresentados na mesma planilha a partir da célula informa- da, neste caso F4. Depois de clicar com o botão esquerdo do mouse dentro da caixa correspondente, o endereço pode ser registrado digitando F4, ou clicando com o botão esquerdo do mouse na célula F4, neste caso será registrado o endereço com os dois cifrões, $F$4. Esse endereço é o da célula supe- rior esquerda da tabela que a ferramenta construirá. Também, o Excel automaticamente definirá o tamanho da área dos resultados e exibirá uma mensagem se a tabela de saída estiver prestes a substi- tuir dados existentes. � Nova planilha. Os resultados serão apresentados a partir da célula A1 de uma nova planilha da mes- ma pasta. � Se não for informado nenhum endereço, a ferramenta inserirá uma nova planilha com o nome Plan seguido de um número sequencial. Ao escolher essa alternativa na pasta Capítulo 1, a ferra- menta inserirá a planilha Plan1. CAPÍTULO 1 / DADOS, VARIÁVEIS E AMOSTRAS 23 FIGURA 1.8 Caixa de diálogo Amostragem probabilística simples. � Há a alternativa de informar o nome da planilha na caixa desta alternativa. Ao registrar o nome Teste a ferramenta inserirá na mesma pasta uma nova planilha com o nome Teste. � Nova pasta de trabalho. Os resultados serão apresentados numa nova pasta e a partir da célula A1 da planilha Plan1. A Figura 1.9 mostra uma amostragem probabilística simples de tamanho dez extraída com a ferra- menta Amostragem. Cada vez que for ativada a ferramenta Amostragem será extraída, em geral, uma amostra diferente. Essa ferramenta é útil para gerar amostras aleatórias com reposição de tamanho de- terminado pelo leitor e a partir de uma lista de dados; entretanto, a ferramenta extrai somente valores numéricos. A Figura 1.10 mostra a caixa de diálogo Amostragem com os dados para selecionar uma amostra pe- riódica com periodicidade cinco na população das 50 maiores empresas. ESTATÍSTICA USANDO EXCEL / LAPPONI24 FIGURA 1.9 Amostragem probabilística simples com a ferramenta Amostragem. FIGURA 1.10 Caixa de diálogo Amostragem periódica com periodicidade cinco. Nas dez amostras registradas a partir da célula F17, Figura 1.9, observe que a primeira amostra retira- da corresponde ao valor da quinta posição do intervalo D3:D53. A amostra seguinte ao valor da posição dez e assim sucessivamente até a última amostra que corresponde ao último registro da tabela, a posição dez, como se pode verificar comparando os valores extraídos com os valores extraídos com as vendas da população. Se a amostragem for repetida com os mesmos dados as amostras serão as mesmas. O procedi- mento de seleção desta ferramenta não acompanha a recomendação técnica de realizar uma amostragem probabilística simples nos cinco primeiros dados da tabela que correspondem à periodicidade cinco. A partir desse primeiro resultado será aplicada a periodicidade desejada. Também se deve tomar cuidado com a periodicidade escolhida, pois esse valor definirá o tamanho da amostra; por exemplo, se for esco- lhida a periodicidade dez no nosso exemplo será recebida uma amostragem de tamanho cinco. Amostragens aleatórias sem reposição Para selecionar amostras sem reposição com os procedimentos de amostragem com reposição, a plani- lha deverá ser recalculada tantas vezes quanto seja necessário até conseguir uma amostra com dez em- presas diferentes. Para facilitar o procedimento de amostragem sem reposição foi construído o modelo do qual se pode extrair de duas a vinte amostras sem reposição da tabela das 50 primeiras empresas, como mostra o Exemplo 1.9. EXEMPLO 1.9 Construa um modelo para extrair uma amostra probabilística simples sem reposição de dez empresas da tabe- la das 50 primeiras empresas privadas por vendas no ano 2002. Solução. Começamos por preparar a planilha denominada Amostragem sem Reposição incluída na pas- ta Capítulo 1, com o mesmo layout da planilha utilizada para extrair amostras com reposição. A diferença com aquela planilha está na escolha dos números aleatórios da coluna Ordem que não podem ser repetidos. Como a seleção de números aleatórios não repetidos não pode ser realizada com os recursos da planilha foi construído um procedimento combinando os recursos da planilha Excel com macros em VBA. A macro princi- pal é ativada com o botão Nova Amostragem e a operação do modelo é a seguinte: � Depois de pressionar o botão Nova Amostragem o modelo apresenta a caixa de entrada de dados Gera- dor de amostras sem reposição solicitando a informação do tamanho da amostra, valor entre 2 e 20 com ambos limites incluídos, como mostra a figura seguinte depois de informar o valor 10 que também é o valor default dessa caixa. � Depois de pressionar o botão OK é ativada a macro que selecionará as dez amostras desejadas, como mos- tra a figura seguinte. CAPÍTULO 1 / DADOS, VARIÁVEIS E AMOSTRAS 25 As características desse modelo de amostragem sem reposição são: � Toda vez que for pressionado o botão Nova Amostragem deverá ser informado o tamanho da amostra desejada, um valor entre 2 e 20 com ambos extremos incluídos. Se for informado um valor fora desse inter- valo o modelo apresentará uma caixa de diálogo informando esse dado incorreto. Se o valor informado for correto o modelo selecionará uma nova amostra sem repetição, em geral, diferente da anterior. � No intervalo de células da planilha K4:K25 é realizado o controle da macro para a seleção das amostras sem reposição. � O código da macro pode ser visto dentro do Editor de VBA, pressionando simultaneamente as teclas ALT + F11 dentro da planilha Excel. No Apêndice 4 você encontra um modelo para retirada de amostras sem reposição que tem a vanta- gem de poder selecionar qualquer informação contida na célula, incluindo valores não numéricos. Outros tipos de amostragens Na caixa de diálogo da ferramenta de análise Amostragem pode-se escolher um dos dois métodos de amostragem incluídos, Periódico e Aleatório. Para realizar as amostragens apresentadas na Figura 1.9, escolhemos o procedimento Aleatório para a amostra registrada a partir da célula F4 e o procedimento Periódico para a amostra registrada a partir da célula F17 com periodicidade cinco, começando pela ob- servação da população na quinta posição, sendo esse tipo deamostragem denominado amostragem sis- temática. Uma variante recomendada desse tipo de amostragem é escolher a primeira observação de forma aleatória. Por exemplo, antes de iniciar a amostragem com reposição da tabela das 50 Primeiras Empresas por Vendas o número de empresas cinquenta é dividido pelo tamanho da amostra dez, obten- do cinco grupos contendo dez empresas cada um. Do primeiro grupo de dez empresas uma delas é sele- cionada de forma aleatória, por exemplo, a amostra da posição seis, e em sequência são extraídas as em- presas das posições 16, 26, 36 e 46. Em alguns casos a amostragem sistemática pode ser melhor que a simples amostragem aleatória, pois essa amostragem colhe observações em toda a extensão da popula- ção. Em outros casos, este tipo de amostragem pode colher eventos periódicos com o mesmo período da amostragem e comprometer a amostra. Por exemplo, se da máquina de produzir comprimidos com 36 punções retirarmos um comprimido a cada 36 comprimidos produzidos, a variabilidade dos com- primidos da amostra será menor que o da população. Se algumas características da população forem conhecidas antes da amostragem será possível dividir a população em camadas sem superposição,24 ou estratos, e extrair uma amostra aleatória com melhores re- sultados com representatividade de cada camada ou estrato. Na amostragem por conglomerado, em vez de sortear a população são sorteados territórios desde os estados, municípios, bairros e domicílios até a pessoa que será entrevistada. Outro procedimento é a amostragem por cotas em que não há sorteio, apenas se to- mam amostras proporcionais ao tamanho de cada grupo previamente definido, homem, mulher etc. ESTATÍSTICA USANDO EXCEL / LAPPONI26 24 Sem superposição significa que a interseção dos conjuntos é vazia. Como são feitas as pesquisas25 O Datafolha não tem como ouvir todos os eleitores no Brasil. Assim, utiliza métodos estatísticos para aferir a intenção de voto de modo que os entrevistados representem o conjunto do eleitorado. A Pesquisa Antes de iniciar uma pesquisa, o Datafolha sabe quantas pessoas vai ouvir e o perfil de cada grupo, para que o conjunto do eleitorado seja representado na mostra de forma proporcional. Antes de sair às ruas, os entrevistadores sabem quantas pessoas em cada lugar têm de ouvir e quais são os lugares. Estando lá, o entrevistador escolhe aleatoriamente os entrevistados, sempre respeitando as faixas de sexo e de ida- de que compõem o conjunto do eleitorado. Amostra O Datafolha faz estudos prévios para saber como é composto o conjunto do eleitorado. O objetivo é que a amostra seja representativa do total de eleitores. Dessa forma, os resultados obtidos na pesquisa po- dem ser, estatisticamente, ampliados para os milhões de eleitores no Brasil (ou, os eleitores de cada Estado pesquisado). Como é feito o estudo prévio? Antes de fazer uma pesquisa, o Datafolha colhe informações nos TREs dos Estados para saber, no con- junto dos eleitores, quantos são homens, quantos são mulheres, quantos estão em cada faixa de idade pesquisada, quantos moram na capital e quantos moram no interior. Margem de erro Como não é possível ouvir todos os eleitores, os resultados obtidos na pesquisa são aproximados. Cha- ma-se margem de erro o intervalo – para mais ou para menos – que deve ser considerado para os dados divulgados; por exemplo, a margem de erro é de dois pontos percentuais para São Paulo. Qualquer va- lor dentro desse intervalo deve ser considerado correto. Na pesquisa para os Estados, a margem de erro da pesquisa também é de dois pontos percentuais para Rio, Minas e Rio Grande do Sul. Para o Distrito Federal, é de três pontos. Voto espontâneo É aquele em que não há estímulo. O entrevistador pergunta: “Em quem você gostaria de votar no segun- do turno da eleição?” Voto estimulado Neste tipo de pergunta, o entrevistado é estimulado. O pesquisador pergunta: “Se a eleição para gover- nador fosse hoje, em quem você votaria: X ou Y.” O entrevistador diz, e a resposta é anotada. Urna eletrônica As eleições com urnas eletrônicas podem alterar o resultado final em relação à intenção de voto. Na vo- tação manual, o eleitor recebe a cédula em que constam os nomes e os números dos candidatos ao go- CAPÍTULO 1 / DADOS, VARIÁVEIS E AMOSTRAS 27 25 Adaptado do caderno Eleições do jornal Folha de São Paulo, 18/10/1998. verno. Ele marca um “ X ” no seu candidato. Na votação eletrônica, o eleitor precisa saber o número de seu candidato (e não apenas seu nome). A urna pede que ele digite o número. Se ele não souber, pode errar o voto. Assim mesmo que ele tenha a intenção de votar num candidato (e a pesquisa captou essa intenção) ele pode errar no momento da votação e acabar votando em outro candidato ou anular seu voto. Votos válidos São aqueles obtidos sem computar as abstenções (número de eleitores que não votaram), os votos brancos e os nulos. Quando o primeiro colocado numa eleição consegue 50% mais um voto dos votos válidos, não há segundo turno. As pesquisas e os votos válidos Os institutos de pesquisa usam o critério “votos válidos” apenas no final do período eleitoral. Isso por- que o número de indecisos no início do processo eleitoral é normalmente tão grande que esse grupo certamente terá um peso no resultado final. Ou seja, uma parte dos que dizem não ter candidato vai acabar escolhendo algum. No final, o número de pessoas sem candidatos está mais consolidado (são aqueles que devem anular ou votar em branco). Esclarecendo os métodos do ibope26 GZM. Quais são os critérios para escolha desses domicílios na coleta de índices (de audiência)? Dora. Quando se desenha uma amostra de audiência é preciso representar a situação da cidade onde você está pesquisando. Nós nos baseamos em dados do IBGE para sabermos quantos domicílios exis- tem na Grande São Paulo, como eles estão divididos por regiões, qual o percentual de pessoas por sexo, por faixa etária, presença de crianças no domicílio etc. A partir daí, a gente faz a seleção do domicílio. Só que o IBGE não tem um levantamento de classe socioeconômica, e o Ibope passou a fazer o Levanta- mento Socioeconômico (LSE). Com isso, agregamos mais uma variável. Para fazer parte de uma amos- tra, o domicílio precisa preencher todos esses requisitos. Quanto mais representativa for a amostra, mais próximo você está de um resultado real. ESTATÍSTICA USANDO EXCEL / LAPPONI28 26 Trecho da entrevista da diretora do Ibope Dora Câmara ao jornalista Gonçalo Junior publicada no jornal Gazeta Mercantil, 14/01/2000. Apêndice 1 Preparando o Excel antes de começar No livro serão utilizadas funções e ferramentas de análise disponíveis no Excel que nem sempre são in- corporadas ao iniciar o Excel. Tentando evitar aborrecimentos provenientes de uma instalação incom- pleta do Excel, sugerimos que o leitor realize a verificação a seguir. Excel versão 2000 � No menu Ferramentas escolha Suplementos. O Excel apresentará a caixa de diálogo Suplementos com os Suplementos disponíveis. � Os suplementos Ferramentas de análise e Ferramentas de análise-VBA devem estar selecionados como mostra a Figura 1.11. � Aproveite e também selecione o suplemento Solver que será utilizado neste livro. Excel versões 2002 e 2003 � No menu Ferramentas escolha Suplementos. O Excel apresentará a caixa de diálogo Suplementos com os Suplementos disponíveis. � Os suplementos Ferramentas de análise e Ferramentas de análise-VBA devem estar selecionados como mostra a Figura 1.12. Depois de pressionar o botão OK as ferramentas de análise, bem como as funções especiais, estarão sempre disponíveis quando o aplicativo Excel for carregado. � Aproveite e também selecione o suplemento Solver que será utilizado neste livro. Para todas as versões do Excel Se os suplementos Ferramentas de análise, Ferramentas de análise-VBA e Solver não aparecerem na caixa de diálogo Suplementos, então os dois suplementos não foram instalados junto com o Excel. Você deverá instalar esses arquivos incluídos no programa de instalação do Excelou Microsoft Office correspondente. CAPÍTULO 1 / DADOS, VARIÁVEIS E AMOSTRAS 29 FIGURA 1.11 Caixa de mensagem Suplementos. Apêndice 2 Como registrar uma função na planilha Excel Uma função do Excel pode ser registrada numa célula da planilha utilizando um dos três procedimen- tos seguintes: � Digitando a fórmula, começando pelo sinal = seguido do nome da função requerida e os argumentos entre parênteses. Este procedimento exige que se lembre o nome da função, os argumentos necessá- rios e sua sequência. � Copiando a fórmula de outra célula onde a função tenha sido usada anteriormente. Este procedi- mento facilita a digitação, porém exige que se lembre o significado dos argumentos necessários. � Utilizando o procedimento Colar função do Excel que elimina as desvantagens dos dois procedi- mentos anteriores. O procedimento Colar função para registrar a função matemática ALEATÓRIOENTRE entre os li- mites 0 e 599 é o seguinte: � Posicionar o cursor na célula onde será registrada a função. � No menu Inserir escolher Função. O Excel apresentará a caixa de diálogo Colar função. No lugar de utilizar o menu Inserir se pode ativar a caixa de diálogo Colar função diretamente pressionando o botão que deve ser incorporado na Barra de Ferramentas Padrão,27 acompanhando o procedi- mento de Adição de botões. ESTATÍSTICA USANDO EXCEL / LAPPONI30 FIGURA 1.12 Caixa de mensagem Suplementos. 27 Outra forma de ativar a caixa de diálogo Colar função é abrir o menu Inserir e depois escolher Função. � Na caixa ou Selecione uma categoria: escolha Matemática e trigonométrica, Figura 1.13. � Na caixa Selecione uma função escolher ALEATÓRIOENTRE. � Depois de pressionar o botão OK aparecerá a caixa de diálogo Argumentos da função ALEA- TÓRIOENTRE onde serão preenchidos os dados, Figura 1.14. Perceba que ao mesmo tempo em que os dados são registrados: � A caixa de diálogo descreve a função escolhida bem como cada argumento que está sendo registrado e à direita de cada campo é apresentado o valor informado. � Depois de informar os argumentos da função ALEATÓRIOENTRE, na linha seguinte ao último dado é apresentado o resultado do cálculo da função ALEATÓRIOENTRE, neste caso 175, valor que deveria ser repetido na última linha Resultado da fórmula que neste caso é 559. Acreditamos que esta diferença seja provocada pelo resultado de outra rodada de cálculo, pois cada vez que o Excel for recalculado o resultado da função ALEATÓRIOENTRE, em geral, será diferente. � Durante o preenchimento dos dados, na barra de fórmulas do Excel é construída a fórmula =ALEATÓRIOENTRE(0;599) que será inserida na célula escolhida. Finalmente, pressionando o botão OK o resultado da função aparecerá na célula onde foi registrada a fórmula. CAPÍTULO 1 / DADOS, VARIÁVEIS E AMOSTRAS 31 FIGURA 1.13 Selecionando a função ALEATÓRIOENTRE. FIGURA 1.14 Caixa de diálogo da função ALEATÓRIOENTRE. Apêndice 3 A função PROCV Numa tabela com várias colunas, 1, 2, 3, ..., n, a função PROCV primeiro localizará um valor determina- do na primeira coluna da esquerda da tabela e, depois, selecionará e retornará um valor registrado na mesma linha de uma coluna especificada à direita da primeira coluna da tabela. A sintaxe dessa função é: PROCV(procura;tabela;coluna;tipo_de_procura) Analisemos os quatro argumentos da função: � No argumento procura deve ser informado o valor a ser localizado na primeira coluna do argumento tabela. Este argumento pode ser um valor numérico, uma referência ou uma sequência de caracteres de texto. � Se o valor registrado no argumento procura for menor do que o menor valor registrado na primei- ra coluna da tabela, a função PROCV retornará o valor de erro #N/D. � No argumento tabela deve ser informada o intervalo de células da tabela, recomendando-se utilizar um nome de intervalo. Os valores na primeira coluna de tabela podem ser texto, números ou valores lógicos. Textos em maiúsculas e minúsculas são equivalentes. � Se o argumento tipo_de_procura for VERDADEIRO, os valores na primeira coluna de tabela deve- rão ser registrados em ordem ascendente, pois do contrário, a função PROCV poderá não retor- nar o valor correto: � Sendo valores numéricos, na ordem: –2, –1, 0, 1, 2, ... , � Sendo caracteres de texto na, ordem de A a Z. � Sendo valores lógicos, ordem: FALSO, VERDADEIRO. � Se tipo_de_procura for FALSO, não será necessário ordenar a tabela. � O argumento coluna é o número da coluna da tabela onde será selecionado e retornado o valor pro- curado, sendo a primeira coluna da tabela a número um. � Se coluna=1, a função PROCV retornará o valor na primeira coluna da tabela. � Se coluna=2, a função retornará o valor na segunda coluna da tabela. � Se coluna for menor do que 1, PROCV retornará o valor de erro #VALOR!; e se coluna for maior do que o número de colunas da tabela a função PROCV retornará o valor de erro #REF!. � O argumento tipo_de_procura é um dos dois valores lógicos, FALSO ou VERDADEIRO, e especifica o tipo de correspondência, exata ou aproximada. � Se o argumento tipo_de_procura for VERDADEIRO ou omitido, a função PROCV retornará uma correspondência aproximada. De outra maneira, se não for encontrada uma correspon- dência exata, a função selecionará o menor valor mais próximo do valor informado no argu- mento procura. � Se o argumento tipo_de_procura for FALSO, a função PROCV procurará uma correspondência exata. Se nenhuma correspondência for encontrada, a função PROCV retornará o valor de erro #N/D. Se a função PROCV não localizar o valor registrado no argumento procura e tipo_de_procu- ra for FALSO, a função retornará o valor #N/D. ESTATÍSTICA USANDO EXCEL / LAPPONI32 A Função PROCH O Excel dispõe também da função PROCH equivalente à função apresentada, porém procurando valo- res localizados em linhas. Numa tabela com várias linhas, 1, 2, 3, ..., n, a função PROCH primeiro loca- lizará um valor determinado na primeira linha superior da tabela e, depois, selecionará e retornará um valor registrado na mesma coluna de uma linha especificada mais abaixo da primeira linha da tabela. A sintaxe desta função é: PROCH(procura;tabela;linha;tipo_de_procura) O significado dos argumentos é equivalente ao da função PROCV, porém operando com linhas. Apêndice 4 Outro modelo para amostragem sem reposição Na planilha Apêndice 4 incluída na pasta Capítulo 1 foi construído um procedimento de amostragem sem reposição que se pode aplicar a planilhas que contenham séries de dados de onde se deve extrair uma amostra sem reposição. Proceda como segue, Figura 1.15: � Nas colunas B, C e D foram repetidos os dados já utilizados e referentes as 50 primeiras empresas pri- vadas. Serão extraídas amostras sem reposição das vendas do intervalo D4:D53. � Na célula F4 foi registrada a fórmula =ALEATÓRIO( ) que depois foi copiada até a célula F53. Per- ceba que o número de células com a fórmula =ALEATÓRIO( ) é o mesmo que o da população D4:D53. Lembre-se também de que cada vez que for recalculada a planilha será gerada uma nova sé- rie de números aleatórios. � A fórmula =ÍNDICE($D$4:$D$53;ORDEM(F4;$F$4:$F$53)) foi registrada na célula I4 e depois copiada até completar o tamanho da amostra, neste caso dez, célula I13. Essa fórmula utiliza a fun- ção ÍNDICE, que já foi apresentada neste capítulo, e a função ORDEM. CAPÍTULO 1 / DADOS, VARIÁVEIS E AMOSTRAS 33 FIGURA 1.15 Amostragem sem reposição, utilizando a função ALEATÓRIO. � ORDEM(valor; amostra; ordem) A função estatística ORDEM28 retorna a posição do argumento valor da amostra considerando a ordem informada: � Se ordem for igual a 0 ou omitida, os valores da amostra serão classificados em ordem decrescente. � Se ordem for diferente de 0, igual a 1, os valores da amostra serão classificados em ordem cres- cente. � Se o argumento amostra tiver valores repetidos a função ORDEM informará a posição do pri- meiro valor que encontrar na sua procura, considerando o ordenamento escolhido. Por exemplo, o objetivo da fórmula ORDEM(F4;$F$4:$F$53) é definira posição do número aleatório da célula F4 dentro do intervalo F4:F53, a posição 17, um resultado do grupo de 1 a 50. Depois, a função ÍNDICE selecionará as vendas da empresa localizada na posição 5, neste caso, a empresa TEXACO. � A fórmula =ÍNDICE($C$4:$C$53;ORDEM(I4;$D$4:$D$53)) foi registrada na célula H4 e depois copiada até completar o tamanho da amostra, neste caso dez, célula H13. Então, deve ser utilizada a função ORDEM porque a função ÍNDICE reconhece somente valores numéri- cos e não títulos. Ademais, amarrar a fórmula com a resposta da célula F4 garante que se trata da mesma seleção, como foi mostrado no Exemplo 1.8. Entende-se que a função ALEATÓRIO gerará a quantidade de números aleatórios diferentes que for necessária,29 que neste exemplo são 50 números aleatórios diferentes, premissa que não foi totalmente confirmada pelo autor. ESTATÍSTICA USANDO EXCEL / LAPPONI34 28 Em inglês, a função ORDEM é RANK. 29 O procedimento apresentado foi baseado na informação registrada no site http://www.staff.city.ac.uk/r.j.gerrard/excelfaq/faq.html #sample. Nesse endereço há outras informações úteis navegando-se através de seus links. Capítulo 2 DESCRIÇÃO DE AMOSTRAS COM TABELAS E GRÁFICOS A obtenção de informação faz parte da gestão dos negócios. Por exemplo, o gerente de produção está interessado em monitorar continuamente a qualidade do produto produzido, comparan- do-o com os padrões estabelecidos; o gerente de produtos está interessado em conhecer a aceitação de um novo produto distribuindo amostras grátis e registrando os retornos dos consumidores etc. Para tentar conhecer uma ou mais características dessa população, é extraída uma amostra de uma popula- ção, conforme orientado no Capítulo 1. Quando o tamanho da amostra é grande, maior do que 15 a 20 observações, a simples inspeção das observações não será suficiente para obter as conclusões deseja- das. Esses dados coletados devem ser organizados ou resumidos com o objetivo de facilitar a análise e a interpretação das observações. Neste capítulo, você aprenderá a agrupar os dados em tabelas de fre- quências e histogramas, procedimentos que fazem parte da Estatística Descritiva. EXEMPLO 2.1 O gerente do departamento de uma instituição financeira deseja analisar o número diário de operações fecha- das nos últimos dois anos por um operador de seu departamento de opções de ações negociadas na Bolsa de Valores. Na tabela a seguir foi registrada uma amostra probabilística simples de tamanho 26, extraída das ope- rações diárias fechadas pelo Operador B nos últimos dois anos. O objetivo é obter as possíveis conclusões dos registros dessa tabela. 14 12 13 11 12 13 16 14 14 15 17 14 11 13 14 15 13 12 14 13 14 13 15 16 12 12 Solução. Aplicando inicialmente apenas o bom senso, pode-se constatar que: � O número de operações fechadas por dia é um número do conjunto {11, 12, 13, 14, 15, 16, 17}. � O Operador B fechou entre 11 e 17 operações por dia. � O número diário máximo de operações fechadas pelo Operador B é 17, e o número mínimo é 11. � O intervalo ou range das operações fechadas por dia é seis, valor obtido como resultado da subtração 17–11=6. Embora o intervalo mostre que o número de negócios fechados por dia é variável, esse mesmo valor não consegue mostrar nada sobre a frequência do número diário de negócios. Se o número diário de opera- ções fechadas fosse constante, não seria necessário aplicar conceitos estatísticos para obter respostas. Entre- tanto, como os valores da variável não são constantes, o primeiro passo é pesquisar a origem das variações. Embora tenham sido obtidas algumas conclusões, o simples ordenamento dos dados não permite ob- ter maiores conclusões, pois ainda nos deparamos com a mesma quantidade de dados. Necessitamos agrupar os dados de alguma maneira, tendo em mente que esse procedimento não deve interferir na ob- tenção de conclusões. Uma forma prática e eficiente é agrupar os dados de acordo com suas frequências de repetição, cujo procedimento dá origem às tabelas de frequências ou distribuições de frequências. Tabelas de frequências de dados quantitativos discretos Iniciamos este tema com a construção de tabelas de frequências de uma amostra com dados quantitati- vos discretos que, em geral, medem contagens representadas por números inteiros positivos 0, 1, 2, 3, ..., n, por exemplo, o número de pessoas atendidas em um determinado período, o número de transa- ções financeiras realizadas pela Internet em um determinado banco, a quantidade de peças defeituosas em um lote de produção etc. Depois será tratada a construção de tabelas de frequências de uma amostra com dados quantitativos contínuos que podem assumir qualquer valor do conjunto dos números reais, por exemplo, o peso dos alunos da quarta série dos alunos da rede escolar de uma determinada região, as vendas diárias de uma empresa, o consumo mensal de energia elétrica, a rentabilidade diária das ações mais negociadas na Bolsa de Valores etc. Embora a classificação dos dados quantitativos pareça fácil, a separação entre discretas e contínuas nem sempre é clara. Tabela de frequências absolutas Se as observações da amostra do número diário de operações fechadas do Exemplo 2.1 forem agrupadas considerando as repetições de cada observação, poderemos obter mais informações dessa amostra.1 A frequência do valor de uma variável é o número de repetições desse valor. A tabela de frequências absolutas de uma variável é uma função formada pelos valores da variável e suas respectivas frequências; conhecida também como distribuição de frequências absolutas. O par formado por cada valor da variável e sua frequência correspondente determina a tabela de fre- quências absolutas da variável ou distribuição de frequências absolutas. EXEMPLO 2.2 Continuando com o Exemplo 2.1. Construa a tabela de frequências absolutas do número de operações fecha- das por dia pelo operador B. Solução. Para realizar a classificação de forma manual, não é necessário, previamente, ordenar os valores da variável de forma crescente. Na primeira coluna da tabela a seguir, foram registrados os valores do número de operações fechadas por dia e em ordem crescente: 11, 12, 13, 14, 15, 16 e 17. Na segunda coluna, foi realiza- da a seleção manual da ocorrência de cada um dos valores da primeira coluna da tabela. Por exemplo, o pri- meiro número 14 da amostra foi registrado com a marca I na linha 14 da segunda coluna da tabela, o segundo número 12 foi registrado com a marca I na linha 12 da segunda coluna da tabela, e assim sucessivamente até o último valor 12 da amostra. Para facilitar a contagem, o quinto valor selecionado de cada valor é representado por uma linha transversal definindo um grupo de cinco seleções do mesmo número. Uma nova seleção do mesmo valor inicia um novo grupo, como se pode ver nas linhas dos valores 13 e 14. Para completar a tabela, na última linha da última coluna, é registrada a soma das frequências absolutas cujo resultado 26 deve ser igual ao número de observações da amostra, também 26. ESTATÍSTICA USANDO EXCEL / LAPPONI36 1 A variável pode pertencer a uma amostra ou uma população. Operações fechadas por dia Seleção Frequências absolutas 11 II 2 12 IIII 5 13 IIII I 6 14 IIII II 7 15 III 3 16 II 2 17 I 1 Total 26 Essa tabela de frequências absolutas foi construída na planilha Tabelas de Frequências, incluída na pasta Capítulo 2. EXEMPLO 2.3 Analisar os resultados da tabela de frequências absolutas do Exemplo 2.2. Solução. Da tabela de frequências absolutas do Exemplo 2.2 podemos chegar às seguintes conclusões: � O número máximo 17 de operações diárias fechadas pelo Operador B aconteceu em apenas um dia da amostragem. � Entretanto, o valor mínimo 11 repetiu-se em dois dias. � Em seis dias da amostragem, o Operador B fechou 13 operações por dia, e, em sete dias da amostragem, fe- chou 14 operações por dia. � Os valores das frequências de cada observação mostram um contorno crescente da observação 11 até a 14 e decrescente desde esse valor atéo 17. A tabela de frequências absolutas resume uma série de valores numéricos em uma simples classifica- ção de frequências muito útil para descrever características importantes do conjunto de dados da amostra. As duas tabelas de frequências seguintes possibilitarão incluir outras características não mos- tradas pela primeira tabela. Tabela de frequências relativas A tabela de frequências do Exemplo 2.2 agrupa valores absolutos que permitem chegarmos a conclu- sões como, em cinco dias da amostra, o Operador B fechou 12 operações. Esse tipo de resultado não permite avaliar, por exemplo, se essa frequência doze é alta ou baixa, pois nesse resultado não há ne- nhuma informação sobre o tamanho da amostra. Conseguiremos extrair mais informação da variável se suas frequências forem expressas como porcentagem do tamanho da amostra. A frequência relativa do valor de uma variável é o resultado de dividir sua frequência absoluta pelo tamanho da amostra. A tabela de frequências relativas de uma variável é uma função formada pelos valores da variável e suas respectivas frequências relativas; conhecida como distribuição de frequências relativas. CAPÍTULO 2 / DESCRIÇÃO DE AMOSTRAS COM TABELAS E GRÁFICOS 37 O par formado por cada valor da variável e sua frequência relativa correspondente determina a tabe- la de frequências relativas da variável ou distribuição de frequências relativas, em valores unitários ou percentagem. EXEMPLO 2.4 Continuando com o Exemplo 2.1. Primeiro construa a tabela de frequências relativas da variável número de operações fechadas por dia pelo operador B e, depois, analise os resultados. Solução. As duas primeiras colunas da tabela seguinte repetem a tabela das frequências absolutas construída no Exemplo 2.2. Na terceira coluna, foi registrado o resultado da divisão do valor de cada frequência absoluta por 26, o tamanho da amostra. Para completar a tabela, foi adicionada uma linha onde foi registrado o total de cada coluna de frequência. Os resultados dessa última linha devem ser iguais ao número de observações da amostra, 26, na coluna de frequências absolutas, e 100%, na coluna de frequências relativas, pois o resultado 100% indica que todas as observações da amostra estão contidas nessas frequências. Operações fechadas por dia Frequências absolutas Frequências relativas % 11 2 7,69% 12 5 19,23% 13 6 23,08% 14 7 26,92% 15 3 11,54% 16 2 7,69% 17 1 3,85% Total 26 100,00% Essa tabela de frequências absolutas foi construída a partir da linha 14 da planilha Tabelas de Frequên- cias, incluída na pasta Capítulo 2. Da tabela de frequências relativas, chegamos a estas conclusões: � Em 3,85% dos 26 dias amostrados, o Operador B fechou 17 negócios por dia. � Em 7,69% dos dias amostrados, o Operador B fechou 11 negócios por dia. � Durante 26,92% dos dias da amostra, o Operador B fechou 14 negócios. Um ponto importante que precisa ser ressaltado é que analisando o procedimento do Exemplo 2.4, observamos que a construção da tabela de frequências relativas é realizada com os dados registrados na tabela de frequências absolutas. No sentido inverso, a construção da tabela de frequências absolutas poderá ser realizada com os dados registrados na tabela de frequências relativas se for conhecido o ta- manho da amostra. Tabela de frequências acumuladas As distribuições de frequências absolutas e relativas apresentadas são muito úteis para organizar e re- sumir os dados das observações em forma de tabela, permitindo detectar as características relevantes dos valores da variável amostrada. Em alguns casos, o interesse da análise reside em conhecer os valo- res da variável menores ou maiores a um determinado valor, por exemplo, o número de dias em que o Operador B fechou menos do que 15 operações por dia etc. ESTATÍSTICA USANDO EXCEL / LAPPONI38 A frequência acumulada do valor de uma variável é a soma das frequências absolutas ou relativas desde o valor inicial da variável. A tabela de frequências acumuladas ou distribuição de frequências acumuladas de uma variável é uma função formada pelos valores da variável e suas respectivas frequências acumuladas. Por exemplo, se conhecermos a distribuição das peças rejeitadas por lote de produção, poderemos conhecer o número de lotes que tiveram uma rejeição maior ou menor do que um determinado núme- ro de peças. Essa informação pode ser obtida da distribuição de frequências acumuladas, ou ogiva,2 for- mada pela acumulação dos valores absolutos ou relativos da distribuição inicial. EXEMPLO 2.5 Continuando com o Exemplo 2.1. Construa a tabela de frequências acumuladas da variável número de opera- ções fechadas por dia pelo operador B. Solução. Na primeira coluna da tabela seguinte, foram registrados os valores do número de operações fecha- das por dia e em ordem crescente: 11, 12, 13, 14, 15, 16 e 17. Para cada valor da variável: � Na segunda coluna, foram acumuladas as frequências absolutas do Exemplo 2.2 desta forma: � A frequência acumulada absoluta até 12 negócios fechados por dia é igual a 7=2+5. � A frequência acumulada absoluta até 13 negócios fechados por dia é igual a 13=2+5+6. Repetindo esse procedimento até a última linha da tabela, completamos a distribuição de frequências acumuladas abso- lutas. � A frequência acumulada absoluta da última linha deverá sempre ser igual ao tamanho da amostra, nesse caso, 26. � Na terceira coluna, foram acumuladas as frequências relativas do Exemplo 2.4 desta forma: � A frequência acumulada relativa até 12 negócios fechados por dia é igual a 26,92%=7,69%+19,23%. � A frequência acumulada relativa até 13 negócios fechados por dia é igual a 50%=7,69%+19,23%+23,08%. Repetindo esse procedimento até a última linha da tabela, completamos a distribuição de frequências acu- muladas relativas. � A frequência acumulada absoluta da última linha deverá sempre ser igual a 100%, pois o resultado 100% indica que todas as observações da amostra estão contidas nessas frequências Operações fechadas por dia Frequências acumuladas Absolutas Relativas % 11 2 7,69% 12 7 26,92% 13 13 50,00% 14 20 76,92% 15 23 88,46% 16 25 96,15% 17 26 100,00% Essa tabela de frequências absolutas foi construída a partir da linha 25 da planilha Tabelas de Frequên- cias incluída na pasta Capítulo 2. CAPÍTULO 2 / DESCRIÇÃO DE AMOSTRAS COM TABELAS E GRÁFICOS 39 2 Como a distribuição de frequências acumuladas sempre é crescente, quando a distribuição é representada com uma poligonal, o desenho se assemelha à ogiva de um foguete. Das tabelas de frequências acumuladas absolutas e relativas do Exemplo 2.5, temos as seguintes conclusões: � Ao afirmar que o operador B fechou 14 ou menos operações por dia em 76,92% dos dias da amos- tra, foi incluído nessa afirmativa o fechamento de 14 operações por dia. Diferente das seguintes declarações: � O operador B fechou menos de 14 operações por dia em 50% dos dias da amostra; o fechamento de 14 operações não está incluído. � O operador B fechou menos de 15 operações por dia em 76,92% dos dias da amostra; o fechamen- to de 15 operações por dia não está incluído. � Ao afirmar que em 23,08% dos dias o operador B fechou 15 ou mais operações por dia, está incluído nesse resultado o fechamento de 15 operações por dia. Verifique que esse último resultado (23,08%) é o complemento do operador ter fechado menos de que 15 operações por dia (76,92%), pois o re- sultado da soma desses dois valores é 100%. � Ao afirmar que em 61,54% dos dias o operador B fechou entre 13 e 15 operações, incluindo esses va- lores, estamos realizando os seguintes cálculos: � Em 88,46% dos dias, o operador B fechou 15 ou menos operações. � Em 26,92%, fechou 12 ou menos operações, ou fechou menos de 13 operações. � Portanto, em 61,54%=88,46% – 26,92% dos dias o operador B fechou entre 13 e 15 operações, in- cluindo esses valores. Outro ponto importante a ser destacado é que, analisando o procedimento do Exemplo 2.5, obser- vamos que: � A construção da tabela de frequências acumuladas absolutas é realizada comos dados registrados na tabela de frequências absolutas. No sentido inverso, a construção da tabela de frequências absolutas poderá ser realizada com os dados registrados na tabela de frequências acumuladas absolutas. E da mesma maneira para as frequências relativas. � A construção da tabela de frequências acumuladas relativas pode ser realizada com os dados regis- trados na tabela de frequências acumuladas absolutas se for conhecido o tamanho da amostra. No sentido inverso, a tabela de frequências acumuladas absolutas poderá ser construída com os dados registrados na tabela de frequências acumuladas relativas se for conhecido o tamanho da amostra. A função Frequência do Excel O Excel dispõe de muitas funções estatísticas que reduzem o tempo de cálculo e asseguram resultados exatos. O Apêndice 1 registra algumas dessas funções relacionadas com a determinação do valor máxi- mo, do valor mínimo e a contagem de observações de uma amostra. A função estatística FREQUÊNCIA do Excel é de grande ajuda na construção das tabelas de frequências de uma amostra. FREQUÊNCIA(matriz_dados; matriz_bin) A função estatística FREQUÊNCIA3 retorna uma matriz vertical contendo a distribuição de frequên- cias da amostra definida no argumento matriz_dados de acordo com a seleção registrada no argumento matriz_bin. Portanto: � No argumento matriz_dados, deve ser informado o intervalo da planilha em que foram registradas as observações da amostra. ESTATÍSTICA USANDO EXCEL / LAPPONI40 3 Em inglês, a função FREQUÊNCIA é FREQUENCY. � No argumento matriz_bin, deve ser informado o intervalo da planilha dos valores definidos pelo usuário para selecionar, ou agrupar, as observações da amostra. � Ao realizar a seleção dos valores da variável, a função FREQUÊNCIA não considera as células vazias ou com texto. Um detalhe importante: se o nome da função FREQUÊNCIA for inserido com letras minúsculas ou maiúsculas ou sem os acentos ortográficos, felizmente, o Excel aceitará e registrará a função com letras maiúsculas e com os acentos ortográficos. Com essa função, é possível construir a tabela de frequências absolutas e acumuladas absolutas, de acordo com a forma de registrar essa função: � Se for registrada como matriz coluna, a função FREQUÊNCIA retornará a tabela da distribuição de frequências absolutas, apresentada como matriz coluna. � Se for registrada como fórmula, a função FREQUÊNCIA retornará a tabela de frequências acumula- das absolutas. A descrição da função FREQUÊNCIA mostra que há duas formas de registrá-la na planilha Excel, obtendo, nos dois casos, resultados estatísticos diferentes, ambos importantes e de nosso interesse. Para compreender como deve ser utilizada, será novamente resolvido o Exemplo 2.1 utilizando a fun- ção FREQUÊNCIA, repetindo o enunciado. EXEMPLO 2.6 O gerente do departamento de uma instituição financeira quer analisar o número diário de operações fecha- das nos últimos dois anos por um operador de seu departamento de opções de ações negociadas na Bolsa de Valores. Na tabela a seguir, foi registrada uma amostra probabilística simples de tamanho 26 e extraída das operações diárias fechadas pelo Operador B nos últimos dois anos. Construa tabela de frequências absolutas do número de operações fechadas por dia pelo operador B utilizando a função FREQUÊNCIA do Excel. 14 12 13 11 12 13 16 14 14 15 17 14 11 13 14 15 13 12 14 13 14 13 15 16 12 12 Solução. A amostra do número de operações fechadas por dia foi registrada no intervalo B4:B29 da planilha Função Frequência incluída na pasta Capítulo 2. Para a construção da tabela de frequências absolutas, se- rão utilizados os valores do número de operações fechadas por dia em ordem crescente: 11, 12, 13, 14, 15, 16 e 17; esses valores foram registrados no intervalo D4:D10. Na descrição, foi visto que função FREQUÊNCIA re- tornará a tabela da distribuição de frequências absolutas apresentada como matriz coluna. Para trabalhar com registros em forma de matriz, devemos proceder desta forma: � Posicionar o mouse na célula E4 e selecionar o intervalo E4:E11. Observe que o intervalo selecionado con- tém uma linha a mais do que o intervalo em que estão registrados os valores do argumento a matriz_bin, in- tervalo D4:D10. CAPÍTULO 2 / DESCRIÇÃO DE AMOSTRAS COM TABELAS E GRÁFICOS 41 � A seguir, digite a fórmula =frequencia(B4:B29;D4:D10) sem pressionar a tecla Enter, como mostra a figura anterior. Note que o nome da função foi inserido com letras minúsculas e sem os acentos ortográficos, pois felizmente o Excel aceitará e registrará a função com letras maiúsculas e com os acentos ortográficos. Em vez de digitar a fórmula, você pode utilizar o assistente do Excel Colar função apresentado no Apêndice 2 do Ca- pítulo 1, que possui mais vantagens em comparação à digitação direta na célula. � Para inserir essa função como matriz, pressione simultaneamente as três teclas Ctrl + Shift + Enter. Man- tendo pressionada a tecla Ctrl, pressione e mantenha pressionada a tecla Shift e, por último, pressione a tecla Enter. Depois de pressionar as três teclas simultaneamente, obtemos os resultados apresentados na próxima figura, na qual as fórmulas receberam as chaves { }. Você pode usar esse procedimento se utilizar o assistente do Excel Colar função. Podemos notar que as fórmulas do intervalo E4:E11 são todas iguais a {=FREQUÊNCIA(B4:B29;D4:D10)}, sendo que as chaves { } indicam que as fórmulas fazem parte da mesma matriz. Por último, o valor zero na célu- la E11 informa que nenhum dos valores da variável deixou de ser classificado. De outra maneira, o objetivo da última célula E11 é informar quantos valores da variável não foram classificados.4 Como exercício, verifique que a partir das frequências absolutas é possível construir a tabela de frequências acumuladas absolutas da mesma amostra, como foi realizado no intervalo I4:I10 da planilha Função Frequência incluída na pasta Ca- pítulo 2 desta forma: � Na célula I4 foi registrada a fórmula =E4, pois ambas as frequências têm o mesmo valor. � Na célula I5 foi registrada a fórmula =I4+E5, que depois foi copiada até a célula I10. Compare os resultados. Utilizando a função FREQUÊNCIA como matriz coluna, obtemos a tabela de frequências absolutas da série de dados, adicionando a vantagem de controlar a quantidade de dados que não foram classifi- cados. EXEMPLO 2.7 Continuando com o Exemplo 2.6. Construa a tabela de frequências acumuladas absolutas do número de ope- rações fechadas por dia pelo operador B utilizando a função FREQUÊNCIA do Excel. Solução. A partir da linha 13 da planilha Função Frequência incluída na pasta Capítulo 2, foi construída a tabela de frequências acumuladas absolutas da amostra registrada no intervalo B4:B29. Se a função FREQUÊNCIA for registrada como fórmula única, a função dará como resultado a frequência acumulada dos valores iguais ou menores do que o valor informado no argumento matriz_bin. Como exemplo, se numa célu- la vazia da planilha referida for registrada a fórmula =FREQUÊNCIA(B4:B29;12), a função retornará o valor 7, a frequência do número de negócios fechados iguais ou menores a doze. ESTATÍSTICA USANDO EXCEL / LAPPONI42 4 Sugerimos que você procure se informar sobre o uso das matrizes na ajuda on-line do Excel, incluindo as rotinas para modificação das fórmulas. Para obter a tabela de frequências acumuladas absolutas da amostra registrada no intervalo B4:B29, faça o seguinte: � Registre os valores do número de operações fechadas por dia em ordem crescente: 11, 12, 13, 14, 15, 16 e 17 no intervalo D15:D21. � Na célula E15, registre a fórmula =FREQUÊNCIA($B$4:$B$29;D15) que deverá ser copiada até a célula D21. Sobre os cifrões registrados nos endereços do intervalo B4:B29, veja o Apêndice 2 deste capítulo. � Depois de pressionar Enter, a função retornará o valor 2. A seguir, copie essa fórmula até a célula D21. A figura mostra a tabela de frequências acumuladas absolutas construída com a função FREQUÊNCIA cons- truída a partir da linha 13 da planilha Função Frequênciaincluída na pasta Capítulo 2. Como exercício, ve- rifique que a partir das frequências acumuladas absolutas é possível construir a tabela de frequências absolutas da mesma amostra, como foi realizado no intervalo F15:F21 da planilha Função Frequência incluída na pas- ta Capítulo 2, procedendo desta forma: � Na célula F15, foi registrada a fórmula =E15, pois ambas as frequências têm o mesmo valor. � Na célula F16, foi registrada a fórmula =E16 – E15 e, depois, foi copiada até a célula F11. Compare os resultados. Construção das tabelas de frequências numa planilha Excel Na planilha Resultados de Frequências incluída na pasta Capítulo 2, foram construídas as tabelas de frequências. No intervalo B5:B30, foi registrada a amostra do Exemplo 2.1, com os dados ordenados de forma crescente. O ordenamento crescente dos dados foi realizado apenas para visualizar o procedi- mento de cálculo da função FREQUÊNCIA quando registrada em uma única célula. A partir das frequências acumuladas absolutas, é possível, também, construir as tabelas de frequên- cias absolutas, relativas e acumuladas relativas da amostra como foi realizado na planilha Resultados de Frequências, Figura 2.1: � No intervalo D5:D11, foram registrados os valores do número de operações fechadas por dia em or- dem crescente: 11, 12, 13, 14, 15, 16 e 17. � Na célula E5, foi registrada =FREQUÊNCIA($B$5:$B$30;D5) e, depois, foi copiada até a célula E11. Como resultado, no intervalo E5:E11 estão registradas as frequências acumuladas procu- radas. � As frequências absolutas são registradas no intervalo F5:F11 a partir das frequências acumuladas absolutas registradas no intervalo E5:E11. � Na célula F5, foi registrada a fórmula =E5, pois ambas as frequências têm o mesmo valor. � Na célula F6, foi registrada a fórmula =E6-E5 e depois foi copiada até a célula F11. � As frequências relativas são registradas no intervalo G5:G11 a partir das frequências absolutas regis- tradas no intervalo F5:F11 e da contagem de valores do intervalo B5:B30. Na célula G5, foi registra- da a fórmula =F5/CONT.NÚM($B$5:$B$30) e copiada até a célula G11. CAPÍTULO 2 / DESCRIÇÃO DE AMOSTRAS COM TABELAS E GRÁFICOS 43 � As frequências acumuladas relativas são registradas no intervalo H5:H11 a partir das frequências re- lativas registradas no intervalo G5:G11. � Na célula H5, foi registrada a fórmula =G5, pois as ambas frequências têm o mesmo valor. � Na célula H6, foi registrada a fórmula =H5+G6, que depois foi copiada até a célula H11. No intervalo D13:F15 da planilha, foi construído um modelo que, na célula F15, retorna, a partir do valor observado registrado na célula D14, o resultado da frequência selecionada na célula E14. Por exemplo, registrando 15 na célula D14, obteremos o valor 11,54% se na célula E14 for selecionado Re- lativa, uma das quatro frequências possíveis de selecionar, como mostra a Figura 2.1. As colunas de frequências construídas na planilha Excel estão em uma ordem diferente da utilizada durante sua apresentação. Depois de construídas, as colunas das frequências podem ser permutadas na ordem desejada. Também, a construção das tabelas com Excel poderia começar pela construção inicial da tabela de frequências absolutas, tarefa que deixamos para você, lembrando que a planilha Resulta- dos de Frequências foi protegida, sem senha, exceto nas células D14 e E14. Tabelas de frequências de dados quantitativos contínuos A construção das tabelas de frequências do Exemplo 2.1 foi relativamente fácil, pois os dados da variá- vel são quantitativos e discretos, que resultam de contagens, com uma quantidade pequena de observa- ções e a maior parte delas repetidas. Entretanto, se os dados da variável forem contínuos, que resultam de medições que podem ter grande precisão, a aplicação do procedimento anterior será trabalhosa e de baixa eficiência, pois poucos ou até nenhum dos dados poderão apresentar frequência. Nesse caso, o procedimento recomendado para variáveis com valores contínuos é trabalhar com classes de valores. O método começa pela definição da quantidade, dos limites e da amplitude das classes onde serão sele- cionados os valores da variável. Na construção da tabela de frequências, leve em consideração que: � Não há uma regra exata para determinar o número de classes, apenas orientações práticas para o analista. Por exemplo, para uma amostra de tamanho n, a quantidade de classes k recomendada pode ser obtida de: � k n= , arredondando o resultado para o valor inteiro menor ou maior. � k n= + ×1 3 322, log( ), arredondando o resultado para o valor inteiro menor ou maior. ESTATÍSTICA USANDO EXCEL / LAPPONI44 FIGURA 2.1 Construção de tabelas de frequências. User Realce User Realce User Realce User Realce User Realce � O número de classes é o menor valor inteiro k, que satisfaz à condição 2k n≤ . Na realidade, essa fórmula é igual à fórmula anterior na condição 2k n= . � A determinação da quantidade de classes tem um pouco do procedimento de tentativa e erro na pro- cura da distribuição que melhor represente os valores da variável. A quantidade de classes para di- versos valores do tamanho de amostra utilizando as três fórmulas é apresentada no intervalo B3:E24 da planilha Quantidade de Classes, incluída na pasta Capítulo 2. Informando o tamanho de amos- tra na célula B27, a planilha apresenta os resultados pelos três métodos no intervalo C27:E27. � Ao trabalhar com classes, a tabela de frequências não retém a identidade de cada observação indivi- dual, provocando perda de informação. Os valores da variável são transformados em uma nova va- riável cujos novos valores são os limites dos intervalos das classes. O exemplo a seguir mostra como proceder para construir tabelas de frequência absolutas utilizando classes. EXEMPLO 2.8 As vendas diárias em milhares de uma empresa estão registradas na tabela a seguir. O objetivo é construir a ta- bela de frequências absolutas e relativas e as respectivas frequências acumuladas. 280 305 320 330 310 340 330 341 369 355 370 360 370 365 280 375 380 400 371 390 400 370 401 420 430 Solução. O procedimento para construir a tabela de frequências absolutas utilizando classes é o seguinte: Determinação da quantidade de classes Como premissa inicial, é conveniente que todas as classes tenham a mesma largura, denominado também de intervalo ou amplitude da classe. A quantidade de classes deve ser fixada de forma que as classes representem adequadamente a distribuição de valores da variável sob estudo. Um número pequeno de classes gera ampli- tudes de classes grandes e vice-versa, podendo gerar distorções indesejáveis. Como vimos, não há uma regra única para escolher a quantidade de classes, apenas regras práticas que orientam o analista. Nesse caso, apli- cando qualquer uma das três fórmulas apresentadas, o número de classes sugerido para uma amostra de ta- manho 25 é igual a cinco, k = 5. Determinação da amplitude das classes Os valores máximo e mínimo da amostra são, respectivamente, 430 e 280, e o intervalo de variação é 150, re- sultado da diferença entre os valores máximo e mínimo da amostra 150=430-280. A amplitude das cinco clas- ses é igual a 30, valor obtido como resultado da divisão do intervalo de variação pela quantidade de classes, 430 280 5 30 − = . Preparação da tabela de seleção Com os resultados anteriores, é construída a tabela de seleção com três colunas: a primeira, que identifica a classe, de um a cinco, as duas últimas, que registram o limite inferior e o limite superior das cinco classes, res- pectivamente. Classe Limite inferior Limite superior 1 280 310 2 310 340 3 340 370 4 370 400 5 400 430 CAPÍTULO 2 / DESCRIÇÃO DE AMOSTRAS COM TABELAS E GRÁFICOS 45 User Realce User Realce User Realce User Realce User Realce User Realce Analisemos os limites das classes dessa tabela: � Da forma como foram registrados os limites, parece que o limite superior de uma classe é igual ao limite in- ferior da classe seguinte. O valor 310 da amostra deve ser classificado na primeiraclasse, com os limites 280-310, ou na segunda classe com os limites 310-340? O valor 310 deve ser classificado na classe 310-340, pois o limite superior de cada classe não inclui o próprio valor; o limite superior é aberto, com exceção da úl- tima classe. � Como prática corrente, o limite inferior da primeira classe deve conter a observação de menor valor da amostra e o limite superior da última classe, o maior. Nada impede utilizar os valores mínimo e máximo da amostra, respectivamente, como limite inferior da primeira classe e o limite superior da última classe. Seleção dos dados e construção das tabelas de frequências A seleção dos valores da variável nas classes estabelecidas é executada da forma como foi realizada com os da- dos discretos, obtendo as seguintes distribuições de frequências absolutas e relativas cujos resultados foram obtidos na planilha Exemplo 2.8, incluída na pasta Capítulo 2. Classe Frequências absolutas Frequências relativas Frequências acum. abs. Frequências acum. rel. 280-310 3 12,00% 3 12,00% 310-340 4 16,00% 7 28,00% 340-370 6 24,00% 13 52,00% 370-400 7 28,00% 20 80,00% 400-430 5 20,00% 25 100,00% Total 25 100% É importante ressaltar que os dados do Exemplo 2.8 facilitaram a obtenção das classes, bem como seus limites, pois, em geral, a determinação da quantidade de classes e amplitudes é um pro- cesso de tentativa e erro, procurando o equilíbrio entre a quantidade e a amplitude das classes para conseguir a distribuição de frequências que melhor represente a amostra. Quando cada classe esti- ver formada por apenas um valor, por exemplo, a quantidade de operações fechadas do Exemplo 2.1, diz-se que não há perda de informação. Entretanto, no caso do Exemplo 2.8, há perda de infor- mação, pois os valores das vendas diárias não são considerados individualmente; eles estão agru- pados em classes. O Exemplo 2.9 mostra como utilizar a função FREQUÊNCIA para obter as tabe- las de frequências. EXEMPLO 2.9 Continuando com o Exemplo 2.8. O objetivo é construir a tabela de frequências absolutas e relativas e as res- pectivas frequências acumuladas utilizando a função FREQUÊNCIA do Excel. Solução. Antes de utilizar a função FREQUÊNCIA com classes, devemos rever a forma de seleção dessa fun- ção. Se a função FREQUÊNCIA for registrada como fórmula única: � A função retornará a frequência acumulada dos valores iguais ou menores ao valor informado no argumen- to matriz_bin da função, considerando o limite superior da classe como fechado. De outra maneira, o limite superior de cada classe inclui o próprio valor. � Tecnicamente, o limite superior é aberto, com exceção da última classe. De outra maneira, o limite superior de cada classe não inclui o próprio valor. ESTATÍSTICA USANDO EXCEL / LAPPONI46 User Realce User Realce User Realce User Realce User Realce User Realce User Realce Para operar com o Excel mantendo o limite superior da classe aberto, o limite superior utilizado na função FREQUÊNCIA deverá ser menor do que o limite teórico. A diminuição do valor do limite superior dependerá dos valores dos dados, por exemplo, se todos os valores da amostra forem números inteiros, a diminuição de 0,1 será suficiente. Contudo, se alguns valores da amostra forem números com uma casa decimal, deverá ser utilizada uma diminuição de 0,01. Na planilha Exemplo 2.9, incluída na pasta Capítulo 2, foram construídas as quatro tabelas de fre- quências do Exemplo 2.9 partindo da tabela de frequências absolutas. Na primeira coluna Tec. Superior, fo- ram registrados os limites superiores de cada classe em ordem crescente a partir da primeira classe. Na coluna Excel, também foram listados os limites superiores de cada classe, porém ligeiramente menores do que seus equivalentes teóricos, subtraindo 0,10 de cada limite teórico, com exceção da última classe que permanece com o mesmo limite Histograma As quatro tabelas de frequências apresentadas resumem os valores de uma amostra, ajudando na sua análise e permitindo inferir sobre a população de onde foi extraída a amostra. O Histograma visualiza a tabela de frequências de uma amostra, ou variável, em um gráfico de barras verticais, aumentando a compreensão dos resultados e análises. Histograma é o gráfico de barras verticais das frequências dos valores de uma amostra ou variável. Vejamos algumas características gerais da construção dos histogramas. As barras verticais do histo- grama têm a mesma largura, e o comprimento ou altura das barras é proporcional à frequência de cada valor ou classe representada. Na forma do contorno do histograma, reconheceremos distribuições si- métricas e não simétricas, e essa particularidade ajudará no processo de inferência que será realizado. O histograma é construído a partir da tabela de frequências correspondente, que deverá ser previa- mente construída. Em vez de mostrar a construção manual do histograma, a seguir mostraremos como construir um histograma com o Excel. Depois será apresentada a ferramenta de análise Histograma, que constrói automaticamente o histograma e, ao mesmo tempo, pode apresentar outras respostas conforme a escolha prévia do leitor. CAPÍTULO 2 / DESCRIÇÃO DE AMOSTRAS COM TABELAS E GRÁFICOS 47 User Realce User Realce User Realce User Realce User Realce User Realce User Realce User Realce Construção do histograma com Excel Começamos com a construção do histograma de frequências absolutas de uma amostra com dados quantitativos discretos utilizando a amostra do Exemplo 2.1, deixando para depois a construção do histograma de frequências de uma amostra com dados quantitativos contínuos. O primeiro passo é a preparação da planilha Construção Histograma, incluída na pasta Capítulo 2, contendo a amostra e a tabela de frequências absolutas calculadas na mesma planilha. Para facilitar a preparação dessa planilha, pode-se economizar tempo copiando a planilha Função Frequência com o procedimento apresentado no Apêndice 3 deste capítulo. Na planilha copiada, são removidos os regis- tros desnecessários mantendo apenas a tabela de frequências absolutas. Depois de preparar a tabela de frequências absolutas, o próximo passo é construir o histograma cor- respondente. Uma forma rápida de construir o gráfico é a seguinte: � Selecione as células das frequências absolutas que serão utilizadas no gráfico, intervalo E3:E10, in- cluindo o título da coluna. � Clique no ícone assistente de gráfico e siga as instruções da caixa de diálogo Assistente de gráfi- co. Na etapa 1 de 4 – tipo de gráfico do assistente, mantenha-se na página Tipos padrão e selecione o tipo de gráfico Colunas e o subtipo de gráfico Colunas agrupadas, como mostra a Figura 2.3. � Ao pressionar o botão Manter pressionado para exibir exemplo, você verá o gráfico esperado, po- rém com os valores da amostra apenas a sequência de números 1, 2, ..., 7, que identifica as sete barras verticais. � Depois de pressionar o botão Avançar, será exibida a caixa de diálogo Assistente de gráfico – etapa 2 de 4– dados de origemdo gráfico, com duas páginas com os nomes Intervalo de dados e Sequência. � Na guia Intervalo de dados, deverá estar selecionado Colunas, e na caixa Intervalo de dados apare- cerá o endereço do intervalo previamente selecionado com a referência do nome da planilha da pas- ta, nesse caso, Construção Histograma, Figura 2.3 esquerda. ESTATÍSTICA USANDO EXCEL / LAPPONI48 FIGURA 2.2 Assistente de gráfico – etapa 1 de 4 – tipo de gráfico. User Realce User Realce User Realce User Realce User Realce User Realce User Realce User Realce FIGURA 2.3 Assistente de gráfico – etapa 2 de 4 – dados de origem. � Selecione a guia Sequência com a construção do gráfico e: � Na caixa de listagem Sequências, é exibido o título Freq. Absolutas registrado no intervalo da planilha E3:E10, Figura 2.3 à direita. � Na caixa Nome, está registrada a célula $E$3 com a referência do nome da planilha da pasta, neste caso, Construção Histograma. � Na caixa Valores, está registrada a fórmula do intervalo da planilhaE4:E10 referente ao eixo de ordenadas ou frequências. � A caixa Rótulos do eixo das categorias (X) está em branco e deve ser preenchida com os dados do intervalo D4:D10. Para isso proceda desta forma: � Posicione o cursor do mouse nessa caixa vazia. � Depois, com o mouse, apenas selecione o intervalo D4:D10. A Figura 2.3 à direita mostra o in- tervalo D4:D10 depois de ser registrado e depois de os valores desse intervalo serem registra- dos no gráfico. Agora o gráfico mostrado é o histograma que queremos. CAPÍTULO 2 / DESCRIÇÃO DE AMOSTRAS COM TABELAS E GRÁFICOS 49 FIGURA 2.4 Assistente de gráfico – etapa 3 de 4 – opções de gráfico. Novamente, depois de pressionar o botão Avançar, o Excel exibirá a caixa de diálogo Assistente de gráfico – etapa 3 de 4 – opções de gráfico contendo seis páginas e o gráfico desenhado na própria caixa de diálogo. Essa etapa do assistente permitirá realizar mudanças na apresentação do gráfico, Figura 2.4. Uma característica interessante dessa etapa é que, conforme você muda as configurações, elas apa- recem no gráfico da própria caixa de diálogo. � Na primeira página Título, procedemos como segue: � Título do gráfico. Aparece o nome Freq. Absolutas, pois é o nome da coluna dos valores informa- dos. Substituímos esse nome pelo nome Histograma. � Eixo das categorias (X). Registramos Operações fechadas. � Eixo dos valores (Y). Registramos Frequências absolutas. Observe que à medida que for registrando as letras dos títulos, o gráfico da caixa de diálogo vai in- corporando essas letras. A Figura 2.4 mostra a caixa de diálogo com o gráfico depois de completar os registros. Nas outras cinco páginas, é possível realizar outras mudanças e, ao mesmo tempo, visualizar seus resultados no gráfico. � Na página Eixos, é possível modificar as escalas dos dois eixos, bem como alterar o tipo de informa- ção incluída no eixo X. � Na página Linhas de grade, é possível adicionar ou retirar linhas de grade nos dois eixos. Nesse caso, mantemos somente as linhas de grade principais dos valores Y e desmarcamos todas as demais opções. � A página Legenda refere-se à legenda Freq. Absolutas, posicionada à direita do gráfico. Nesse caso, desmarcamos a opção Mostrar legenda. A legenda desaparece e o gráfico fica maior. � Na página Rótulo de dados, é possível incluir os valores das ordenadas ou das abscissas. � Na página Tabela de dados, é possível incluir a tabela dos dados combinada com os valores do eixo de abscissas, alternativa que deixamos para o leitor verificar. Antes de continuar verifique a visualização do gráfico para certificar-se de que está como deseja. Completadas as escolhas anteriores, pressionando o botão Avançar, o Excel exibirá a caixa de diálogo Assistente de gráfico – etapa 4 de 4 – local do gráfico, Figura 2.5: � Posicione o gráfico Como nova planilha. Escolhendo essa opção, o Excel criará a planilha de gráfico Graf1 ou com o nome que você registrar nessa caixa. � Posicione o gráfico Como objeto em. Escolhendo essa opção, o Excel construirá o gráfico na plani- lha de cálculo registrada, nesse caso Construção Histograma, ou em outra planilha que escolher. ESTATÍSTICA USANDO EXCEL / LAPPONI50 FIGURA 2.5 Assistente de gráfico – etapa 4 de 4 – local do gráfico. Pressionando o botão Concluir, o Excel construirá o gráfico na planilha Construção Histograma mostrada na Figura 2.6. Todos os histogramas numa única planilha Seguindo o roteiro apresentado anteriormente, é possível construir os outros três histogramas, de fre- quências relativas, de frequências acumuladas absolutas e de frequências acumuladas relativas. De- ve-se cuidar para construir corretamente as tabelas de frequências correspondentes. Também é impor- tante lembrar que as formas dos histogramas de frequências absolutas e frequências relativas são a mes- ma, mudando apenas a escala de ordenadas dos gráficos, situação que também ocorre com os histogra- mas de frequências acumuladas absolutas e frequências acumuladas relativas. Essa semelhança ajuda- rá na construção de todos os histogramas em uma única planilha. O primeiro passo é a preparação da planilha Histogramas Exemplo 2.1, incluída na pasta Capítulo 2, contendo a amostra e as quatro tabelas de frequências calculadas na mesma planilha. Para facilitar a prepa- ração dessa planilha, pode-se fazer uma cópia da planilha Construção Histograma e, depois, construir as três tabelas de frequências restantes, a partir da tabela de frequências absolutas. Por último, os títulos de- vem ser adequados, mantendo o gráfico de frequências absolutas. Uma alternativa de construção do histo- grama de frequências relativas é repetir o procedimento apresentado na seção anterior, assunto que deixa- mos por sua conta. Outra forma é fazer uma cópia do histograma já construído procedendo assim: � Selecione o histograma de frequências absolutas e no menu Editar selecione Copiar, ou com as te- clas Control+C, ou pressionando o ícone copiar . � Depois, selecione uma célula vazia da mesma planilha e no menu Editar, selecione Colar ou com as teclas Control+V, ou pressionando o ícone colar . � A seguir, clique com o botão esquerdo do mouse em cima do gráfico copiado para selecioná-lo. Com o cursor em cima do novo gráfico, clique com o botão direito do mouse e, no menu apresentado, se- lecione Dados de origem. CAPÍTULO 2 / DESCRIÇÃO DE AMOSTRAS COM TABELAS E GRÁFICOS 51 FIGURA 2.6 Histograma de frequências absolutas do Exemplo 2.1. � Na caixa de diálogo Dados de origem apresentada pelo Excel: � Selecione a página Intervalo de dados. Na caixa Intervalo de dados estará selecionado o interva- lo do gráfico de frequências absolutas. Para substituir esse intervalo com o cursor do mouse, sele- cione o intervalo F3:F10 correspondente às frequências relativas. � Escolha a página Sequência e, na caixa Rótulos do eixo das categorias (X), que deverá estar va- zia, com o cursor do mouse, selecione o intervalo D4:D10. � Pressione o botão OK para concluir. Como o nome do gráfico permaneceu o mesmo do gráfico copiado, será necessário mudar esse nome. Há dois procedimentos. � Clicar com o botão esquerdo do mouse em cima do título do histograma e selecionar a palavra que deverá ser substituída, Absolutas neste caso. A seguir, digite Relativas e, para sair, clique com o botão esquerdo em qualquer lugar da planilha. � Ou clicar com o botão esquerdo do mouse em cima do gráfico copiado para selecioná-lo e, depois, com o cursor em cima do novo gráfico, clicar com o botão direito do mouse e, no menu apresenta- do, selecionar Opções de gráfico. Na página Título, escolher a página Título do gráfico na qual aparece Histograma de Frequências Absolutas. A seguir, substituir Absolutas por Relativas e pressio- nar o botão OK. O procedimento anterior é repetido para os dois últimos histogramas de frequências acumuladas, absolutas e relativas. A Figura 2.7 mostra a planilha Histogramas, Exemplo 2.1, com os quatro histo- gramas. Qualquer um dos histogramas poderá receber modificações; por exemplo, você poderá mudar a cor de fundo das barras, ou a cor das próprias barras escolhendo cores únicas ou mesclas de cores: � Para mudar a cor da área do histograma, clique com o botão esquerdo do mouse em cima da área do histograma e depois com o botão direito para selecionar Formatar área de plotagem. Na caixa de ESTATÍSTICA USANDO EXCEL / LAPPONI52 FIGURA 2.7 Histograma de frequências relativas do Exemplo 2.1. diálogo apresentada pelo Excel Formatar área de plotagem na página Padrões, é possível escolher Borda ou Área e, dentro desta última, incluir efeitos de preenchimento na área do histograma pres- sionando o botão com o mesmo nome. � Para mudar a cor das barras ou colunas do histograma, clique com o botão esquerdo do mouse em cima de uma das colunas do histograma e depois com o botão direito para selecionar Formatar se- quência de dados. Na caixa de diálogo apresentada pelo Excel Formatar sequência de dados na pá- gina Padrões, é possível escolher Borda ou Área para mudaras cores procedendo de forma parecida à apresentada anteriormente. � Na página Opções, é possível aumentar a largura das barras ou colunas. Por exemplo, pressionan- do o botão giratório até registrar o valor zero na caixa Largura do espaçamento, consegue-se au- mentar as barras do histograma até não ficar nenhum vazio, como mostra a Figura 2.8. Um histo- grama sem espaços vazios entre as barras ou colunas é bem aceito. Sugerimos que você teste as outras opções desta página, por exemplo, a escolha de Variar cores por pontos. Gráfico poligonal – ogiva As barras ou colunas verticais dos histogramas construídos podem ser substituídas por uma linha, re- cebendo o nome de poligonal. Esse tipo de representação é interessante no caso do histograma de fre- quências acumuladas. Por exemplo, a poligonal da distribuição de frequências acumuladas do Exemplo 2.1, que se acostuma denominar ogiva, foi construída na planilha Histogramas, Exemplo 2.1, incluída na pasta Capítulo 2, procedendo como segue, Figura 2.8: � Faça uma cópia do gráfico Frequências Acumuladas Absolutas. Clique no gráfico e depois de clicar com o botão direito do mouse selecione Tipo de gráfico. Na cai- xa Tipo de gráfico, selecione a guia Tipos padrão e depois, na caixa Tipo de gráfico, primeiro selecione o gráfico Linha e depois selecione o gráfico Linhas com marcadores exibidos a cada valor de dado e, para terminar, pressione OK. � O gráfico construído é o apresentado na Figura 2.8 depois de mudar algumas formatações e títulos, como já explicado. CAPÍTULO 2 / DESCRIÇÃO DE AMOSTRAS COM TABELAS E GRÁFICOS 53 FIGURA 2.8 Mudando a largura das barras verticais. Histograma combinado Os recursos do Excel permitem também construir o histograma combinado de frequências relativas e frequências acumuladas absolutas, ou outra combinação adequada, como foi realizado na planilha Histogramas Exemplo 2.1, incluída na pasta Capítulo 2, procedendo como segue. � Selecione as células das frequências absolutas que serão utilizados no gráfico, intervalo F3:F10 e G3:G10, incluindo o título de cada coluna. Para selecionar dois intervalos ao mesmo tempo, primei- ro selecione um dos intervalos e, a seguir, mantendo pressionada a tecla Ctrl, selecione o segundo intervalo. � Clique no ícone assistente de gráfico e siga as instruções da caixa de diálogo Assistente de gráfi- co. Na etapa 1 de 4 – tipo de gráfico do assistente, selecione a página Tipos personalizados e o tipo de gráfico Lins. – Cols. em dois eixos, Figura 2.10, que mostra o gráfico que será construído pelo Excel. Depois de pressionar o botão Avançar, será exibida a caixa de diálogo Assistente de gráfico – etapa 2 de 4 – dados de origem do gráfico contendo duas páginas com os nomes Intervalo de dados e Se- quência. ESTATÍSTICA USANDO EXCEL / LAPPONI54 Freqüências Acumuladas Absolutas 0 5 10 15 20 25 30 11 12 13 14 15 16 17 Operações fechadas FIGURA 2.9 Poligonal das frequências acumuladas. FIGURA 2.10 Escolha de Tipo personalizado de gráfico. � Na guia Intervalo de dados, deverá estar selecionado Colunas e, na caixa Intervalo de dados, apare- cerá o endereço do intervalo previamente selecionado com a referência do nome da planilha da pas- ta, neste caso, Histogramas Exemplo 2.1. � Selecione a guia Sequência com a construção do gráfico e: � Na caixa de listagem Sequências, aparecerão os títulos registrados no intervalo da planilha F3:F10 e G3:G10, os nomes Relativas e Absolutas, Figura 2.11. � Na caixa Nome, está registrada a célula $F$3 com a referência do nome da planilha da pasta, neste caso, Histogramas Exemplo 2.1. � Na caixa Valores, está registrada a fórmula do intervalo da planilha F4:F10 referente ao eixo de ordenadas ou frequências. � A caixa Rótulos do eixo das categorias (X) está em branco e deve ser preenchida com os dados do intervalo D4:D10. � A caixa Rótulos do eixo das segundas categorias (X) está em branco e deve ser preenchida, tam- bém, com os dados do intervalo D4:D10. Pode-se verificar que o gráfico mostrado no assistente é o histograma que esperamos, Figura 2.11. Depois de pressionar o botão Avançar, o Excel exibirá a caixa de diálogo Assistente de gráfico – etapa 3 de 4 – opções de gráfico contendo seis páginas e o gráfico desenhado na própria caixa de diá- logo. Essa etapa do assistente permitirá realizar mudanças na apresentação do gráfico da mesma for- ma como já foi apresentado, porém para dois eixos de ordenadas. Tenha em mente que uma caracte- rística interessante dessa etapa é que, conforme você muda essas configurações, elas aparecem no gráfico da própria caixa de diálogo. Portanto, antes de continuar, verifique a visualização do gráfico para certificar-se de que está como deseja. A Figura 2.12 mostra o histograma concluído depois de al- guns ajustes, espessura da linha, aumento da largura das colunas ou barras, ajuste dos corpos das fontes dos títulos etc. CAPÍTULO 2 / DESCRIÇÃO DE AMOSTRAS COM TABELAS E GRÁFICOS 55 FIGURA 2.11 Assistente de gráfico – etapa 2 de 4 – dados de origem. Histograma com dados quantitativos contínuos Agora será apresentada a construção do histograma de uma amostra contendo dados quantitativos contínuos. O procedimento de construção do histograma é o mesmo, o que muda é a forma de preparar os limites das classes para trabalhar corretamente com a planilha Excel. O primeiro passo é a prepara- ção da planilha Histograma Exemplo 2.8, incluída na pasta Capítulo 2, contendo a amostra e a tabela de frequências absolutas e relativas calculadas na mesma planilha. Para facilitar a preparação dessa pla- nilha, pode-se fazer uma cópia da planilha Exemplo 2.9 com o procedimento apresentado no Apêndice 3 deste capítulo. Depois de copiada, na nova planilha, são apagados os registros desnecessários man- tendo apenas as tabelas de frequências absolutas. Vimos que, para utilizar o Excel e manter o limite superior da classe aberto, o limite superior deverá ser inferior ao limite teórico, como apresentado no Exemplo 2.9 e repetido no intervalo D3:F10 da planilha Histograma Exemplo 2.8, Figura 2.13. Nas duas primeiras colunas da tabela apresentada na Figura 2.13, foram registrados o limite inferior e superior de cada classe em ordem crescente a partir da primeira classe. Como a mínima variação dos valores da amostra é uma unidade, na terceira coluna, denominada Excel, foi registrado o limite superior de cada classe igual ao limite superior registrado na segunda coluna subtraído do valor 0,1, com exceção da última classe. Para construir o histograma de frequências absolutas, utilizamos o pro- cedimento já apresentado utilizando as colunas Excel e Frequências Absolutas da tabela. Analisemos o histograma de frequências absolutas da Figura 2.13, na qual os valores do eixo de abscissas se referem ao limite superior de cada classe. ESTATÍSTICA USANDO EXCEL / LAPPONI56 Histogramas 0,0% 5,0% 10,0% 15,0% 20,0% 25,0% 30,0% 11 12 13 14 15 16 17 Operaçôes fechadas 0 5 10 15 20 25 30 F re q ü ên ci as re la ti va s F re q ü ên ci as ac u m u la d as ab so lu t a s FIGURA 2.12 Histograma combinado. FIGURA 2.13 Histograma dados quantitativos contínuos. � A barra vertical com o valor 369,9 e frequência absoluta 6 indicam que a frequência dos valores me- nores ou iguais a 369,9 e maiores do que 339,9 é 6. Da mesma maneira, o número de valores maiores ou iguais a 340 e menores do que 370 é 6. � Considerando a variação mínima igual a 1 entre os valores da amostra Vendas diárias e a redução 0,10 utilizada para definir os limites superiores das classes para construir o histograma com o Excel, poderíamos formatar a escala de abscissas sem a parte decimal e representar o histograma com os li- mites teóricos como mostra a Figura 2.14. Nesse caso, a barra vertical com o valor 370 e frequência absoluta 6 indicam que a frequência dos valores menores ou iguais a 370 e maiores do que 340 é seis. � Como todos os valores da amostra estão distribuídos entre o valor mínimo 280 e máximo 430, de- ve-se entender quenão há nenhum vazio entre as barras do histograma; as classes preenchem todo o espaço, como mostra a Figura 2.14. O aumento da largura das colunas do histograma da Figura 2.14 foi realizado com o procedimento já apresentado do Excel e a seguir resumido: � Clicando com o botão esquerdo do mouse em cima de uma barra qualquer do gráfico, todas as barras serão automaticamente selecionadas. � Com o mouse em uma barra qualquer do gráfico, pressione o botão direito do mouse e, no menu, se- lecione Formatar sequência de dados. � A caixa de diálogo Formatar sequência de dados tem seis páginas. Selecione a página Opções e, de- pois, na caixa Largura do espaçamento, registre o valor zero. Para finalizar, pressione o botão OK. � Nas outras cinco caixas de diálogo, você poderá realizar outras modificações, por exemplo, mudar a cor das barras, do fundo do gráfico etc. Ferramenta de análise Histograma A partir de uma amostra registrada em uma planilha Excel, uma série de valores de uma amostra regis- trados em uma ou mais colunas contíguas, a ferramenta de análise Histograma retornará soluções inte- gradas das tabelas de frequências e histogramas, registrados a partir do endereço informado pelo usuá- rio. A amostra que será analisada com a ferramenta de análise Histograma deve estar registrada em uma planilha, como a de nome Ferramenta Histograma, incluída na pasta Capítulo 2, onde: � No intervalo B3:B29, foram registrados os valores numéricos da amostra do Exemplo 2.1, incluindo o nome Amostra na célula B3. Os valores da amostra podem ser registrados em uma linha, uma colu- na ou combinando linhas e colunas, contanto que sejam contíguos e possíveis de identificá-los com um único intervalo. � No intervalo D4:D10, foram registrados os valores de seleção utilizados no Exemplo 2.1, incluindo o nome Seleção na célula D3. CAPÍTULO 2 / DESCRIÇÃO DE AMOSTRAS COM TABELAS E GRÁFICOS 57 Histograma Fr eq uê nc ia s ab so lu ta s 0 2 4 6 8 310 340 370 400 430 Vendas diárias (‘000) FIGURA 2.14 Histograma com barras mais largas. Para utilizar a ferramenta Histograma:5 � Depois de selecionar Análise de dados dentro do menu Ferramentas, o Excel exibirá a caixa de diá- logo Análise de dados com todas as ferramentas de análise disponíveis, Figura 1.7 do Capítulo 1. � Escolhendo a ferramenta Histograma e depois pressionando o botão OK, será exibida a caixa de diá- logo Histograma mostrada na Figura 2.15 depois de selecionadas algumas opções. � Pressionando o botão Ajuda dessa caixa de diálogo, o Excel exibirá a página Sobre a caixa de diálo- go Histograma pertencente à Ajuda do Excel. As informações que devem ser registradas no quadro Entrada da caixa de diálogo da ferramenta His- tograma são: � Intervalo de entrada. Informar o intervalo de células da planilha na qual os dados estão registrados, nesse caso, o intervalo B3:B29 que inclui a célula onde foi registrado o título Amostra, ou rótulo no Excel. � Intervalo do bloco. A informação deste intervalo é opcional, porém com resultados diferentes, como será mostrado. Nesse momento, foi registrado o intervalo D3:D10, que inclui a célula onde foi registrado o título Seleção. � Se não for informado nenhum intervalo do bloco, o Excel definirá os limites das classes, tendo presente que, em qualquer caso, a ferramenta Histograma considera os limites superiores das classes como fechados, de forma coerente com a função FREQUÊNCIA. � Rótulos. Selecionamos este item, pois os intervalos informados B3:B29 e D3:D10 incluem títulos, respectivamente, Amostra Seleção. Na primeira parte do quadro Opções de saída, deve ser obrigatoriamente informado um endereço a par- tir do qual a ferramenta Histograma registrará os resultados. Há três alternativas excludentes de informar esse endereço, identificadas por três botões de opção que aceitam a escolha de uma única alternativa: � Intervalo de saída. Os resultados serão apresentados na mesma planilha a partir da célula informa- da, nesse caso F3. Depois de clicar com o botão esquerdo do mouse dentro da caixa correspondente, o endereço pode ser registrado digitando F3, ou clicando com o botão esquerdo do mouse na célula F3. Nesse caso, será registrado o endereço com os dois cifrões, $F$3. Esse endereço é o da célula su- perior esquerda da tabela de frequências que a ferramenta construirá. Também, o Excel automatica- mente definirá o tamanho da área dos resultados e exibirá uma mensagem se a tabela de saída estiver prestes a substituir dados existentes. ESTATÍSTICA USANDO EXCEL / LAPPONI58 5 Em inglês, a ferramenta HISTOGRAMA é HISTOGRAM. FIGURA 2.15 Caixa de diálogo da ferramenta Histograma. � Nova planilha. Os resultados serão apresentados a partir da célula A1 de uma nova planilha da mes- ma pasta. � Se não for informado nenhum endereço, a ferramenta inserirá uma nova planilha com o nome Plan, seguido de um número sequencial. Escolhendo essa alternativa na pasta Capítulo 2, a ferra- menta inserirá a planilha Plan1. � Há a alternativa de informar o nome da planilha na caixa desta alternativa. Registrando o nome Tes- te, a ferramenta inserirá na mesma pasta uma nova planilha com o nome Teste. � Nova pasta de trabalho. Os resultados serão apresentados em uma nova pasta e a partir da célula A1 da planilha Plan1. Em continuação, no quadro Opções de saída, há três alternativas não excludentes de resultados possíveis, sendo possível selecionar qualquer combinação delas, incluindo a alternativa de não selecio- nar nenhuma. Essas seleções são realizadas em três caixas de seleção. Se não for selecionada nenhuma das três alternativas, a ferramenta Histograma apresentará a tabela de frequências absolutas, em ordem crescente de valores da amostra. � Pareto (histograma classificado). Essa alternativa deve ser selecionada quando se deseja construir o gráfico de frequências absolutas em ordem decrescente de valores de frequências. O diagrama de Pa- reto é tratado com mais detalhe mais adiante neste capítulo. � Porcentagem cumulativa. Selecionando essa alternativa, a ferramenta adicionará à tabela de fre- quências absolutas, que sempre será construída, a coluna da tabela de frequências acumuladas rela- tivas. � Resultado do gráfico. Selecionando essa alternativa, a ferramenta construirá o gráfico das tabelas de frequências escolhidas. Se desejar incluir no histograma que a ferramenta construirá a poligonal das frequências acumuladas relativas, selecione a alternativa anterior. Depois de pressionar o botão OK, a ferramenta Histograma apresentará os resultados solicitados nas seleções realizadas, como mostra a Figura 2.16. É importante destacar que o layout da planilha foi me- lhorado, ajustando a largura de algumas colunas, mudando as dimensões do gráfico, as cores, o corpo da fonte dos títulos etc. CAPÍTULO 2 / DESCRIÇÃO DE AMOSTRAS COM TABELAS E GRÁFICOS 59 FIGURA 2.16 Histograma do Exemplo 2.1 com a ferramenta Histograma. Como escolher o intervalo de seleção Talvez você esteja estranhando a última linha Mais da coluna Seleção com frequência zero, construída pela ferramenta Histograma, bem como a última seleção Mais do histograma sem coluna. Da forma como foi selecionado o intervalo Seleção, a ferramenta adicionou, por sua conta, o valor Mais nas tabelas de fre- quências e no gráfico. É isso aí! Se for informada a tabela completa de seleção de valores, a ferramenta adi- cionará mais um valor que denomina Mais. Para que a ferramenta de análise Histograma construa os mes- mos gráficos que obtivemos utilizando somente os recursos da função FREQUÊNCIA e os gráficos do Excel, não se deve informar o maior valor de seleção, nesse caso registrado na célula D10. Informando o intervalo D3:D9 no Intervalo do bloco, mantendo selecionadas Porcentagem cumu- lativa e Resultado do gráfico e escolhendo a célula F25 da planilha Ferramenta Histograma para regis- trar as tabelas de frequências, a ferramenta Histograma apresentou os resultados mostrados na Figura 2.17. A ferramenta continua apresentando a última barra com Mais,porém agora se refere aos valores superiores a 16, que, nesse exemplo, é o próprio valor 17, pois o limite superior de cada classe é consi- derado fechado ou o limite superior de cada classe inclui o próprio valor registrado. Sem informar o intervalo de seleção Dissemos que a informação no Intervalo do bloco é opcional, porém com resultados diferentes. Omi- tindo apenas essa informação, a partir da linha 36, a ferramenta Histograma construirá um gráfico usando critérios próprios e semelhantes aos apresentados na construção de distribuições de fre- quências com classes. Portanto, omitindo a informação na caixa Intervalo do bloco, mantendo selecio- nadas Porcentagem cumulativa e Resultado do gráfico e escolhendo a célula F37 da planilha Ferra- menta Histograma para registrar as tabelas de frequências, a ferramenta Histograma apresentou os re- sultados a partir dessa célula, como mostrado na Figura 2.18. Como não foi informado o intervalo de seleção, a ferramenta apresentou seus resultados de seleção na coluna de título Bloco, célula F37. Analisemos os resultados da Figura 2.18. A ferramenta Histograma formou seis classes construídas como segue, conclusões baseadas na observação de resultados utilizando a ferramenta Histograma. ESTATÍSTICA USANDO EXCEL / LAPPONI60 FIGURA 2.17 Gráfico com intervalo reduzido. FIGURA 2.18 Ferramenta Histograma, omitindo o intervalo de seleção. � Como a amostra tem 26 observações, as três fórmulas apresentadas para determinação do número de classes recomendam escolher cinco classes. O número de classes escolhido pela ferramenta de análise Histograma é igual ao resultado de somar um ao valor cinco obtido por uma das três fórmu- las. Entretanto, como o limite superior da primeira classe é o valor mínimo da amostra, podemos concluir que a ferramenta Histograma cria seis colunas, porém com amplitudes correspondentes a cinco classes. � O intervalo de variação é seis, resultado da diferença entre o valor máximo observado e o mínimo, 6=17-11. � As cinco últimas classes têm a mesma amplitude igual a 1,20, valor obtido como resultado de divi- dir o intervalo de variação seis pelo número cinco. � O limite superior da segunda classe é 12,2=11+1,2 e os limites superiores das três classes seguintes são obtidos de forma equivalente. � O limite superior da sexta e última classe é o maior valor da amostra. Comparando o histograma da Figura 2.17 com o da Figura 2.18, a forma da distribuição de frequên- cias do primeiro histograma representa a amostra de forma mais adequada, pois tanto o perfil da subida quanto o da descida é mais contínuo, enquanto no segundo histograma aparece um patamar constante nos últimos dois valores. Entendemos que as ferramentas de análise do Excel devem ser utilizadas da forma como foram desenvolvidas, salvo que seus resultados apresentem erros. Sugerimos que a ferra- menta de análise Histograma seja utilizada sem especificar o Intervalo do bloco. Você deverá analisar se os resultados da ferramenta estão dentro de sua expectativa de aceitação. Se não for assim, lembre-se de que o que fornece a ferramenta Histograma pode ser conseguido, como foi mostrado, com os recur- sos das funções estatísticas e dos gráficos do Excel. Gráfico de Pareto Terminando o século XVIII, o economista italiano Vilfredo Pareto mostrou que 80% da terra na Itália pertencia a 20% da população, confirmação socioeconômica que posteriormente teve aplicação uni- versal.6 Por exemplo, 80% dos estoques de uma empresa são preenchidos por 20% dos produtos; 20% dos clientes são responsáveis por 80% das vendas, 80% das informações de que os usuários precisam estão nos primeiros 20% dos resultados das páginas de busca de Internet etc. Sobre defeitos e perdas, verifica-se que não são muitos os fatores que realmente causam desvios indesejáveis. O que é o gráfico de Pareto? As barras ou colunas do histograma de frequências absolutas são desenha- das com os valores das observações ordenadas de forma crescente. No gráfico de Pareto, as barras ou co- lunas do histograma de frequências absolutas estão desenhadas com as frequências ordenadas de forma decrescente, primeiro a coluna de maior frequência e por último a de menor frequência. Na planilha Grá- fico de Pareto, incluída na pasta Capítulo 2, foi construído o gráfico de Pareto utilizando a ferramenta de análise Histograma. A Figura 2.19 mostra as tabelas e o gráfico de Pareto tendo informado o intervalo de seleção D3:D9 e selecionado as três alternativas, Pareto, Porcentagem cumulativa e Resultado do gráfi- co. A ferramenta Histograma apresenta a tabela de frequências absolutas, acumuladas absolutas e, em continuação, a tabela da distribuição de Pareto absoluta e acumulada (intervalo I4:K11). Modelo histogramas A determinação da quantidade de classes tem um pouco do procedimento de tentativa e erro na procu- ra da distribuição que melhor represente os valores da amostra ou variável. Realizar esse processo de aproximação de forma manual é muito trabalhoso. O uso de planilhas do Excel diminui um pouco esse trabalho, sobretudo com a ferramenta de análise Histograma. Todavia, esse procedimento não é práti- CAPÍTULO 2 / DESCRIÇÃO DE AMOSTRAS COM TABELAS E GRÁFICOS 61 6 Hitoshi Kume – Métodos Estatísticos para a Melhoria da Qualidade – Editora Gente, 1993. co, pois devem ser informados outros dados como o intervalo de seleção para construir um histograma com outra quantidade de classes. Esses inconvenientes são eliminados no Modelo Histograma construí- do pelo autor na pasta Modelo Histogramas, que pode ser encontrada na página do livro, no site da Editora. A Figura 2.20 mostra esse modelo para uma amostra de tamanho n=1.000. O Modelo Histogramas constrói três histogramas, frequências absolutas, frequências relativas e fre- quências relativas acumuladas, a partir das respectivas tabelas também construídas na planilha. Para operar o modelo: � Recomenda-se zerar os dados e resultados pressionando o botão Limpar Dados. � Informe a série de valores numéricos a partir da célula B5. Não há limite de tamanho da amostra, apenas os limites impostos pela planilha Excel e a memória do microcomputador que está sendo utilizando. � Depois de informar a amostra, pressione o botão Calcular. O modelo fornecerá os resultados do in- tervalo F5:F10 e construirá as tabelas de frequências e os histogramas. A quantidade de classes é de- terminada com a fórmula k n= , utilizando a parte inteira do resultado. ESTATÍSTICA USANDO EXCEL / LAPPONI62 FIGURA 2.19 Gráfico de Pareto com a ferramenta Histograma. FIGURA 2.20 Modelo Histogramas. � Querendo testar um número de classes diferente do sugerido pelo modelo, deve-se, primeiro, informar o novo valor na célula G9 e depois pressionar o botão Calcular. O modelo realizará todos os cálculos e mos- trará os novos resultados do intervalo F5:F10 e construirá as tabelas de frequências e os histogramas. Que- rendo voltar para o cálculo automático, deve-se limpar a célula G9 e depois pressionar Calcular. � Preste atenção aos avisos que o modelo apresenta na célula mesclada E3. Dados qualitativos O procedimento com dados qualitativos é mais simples do que com dados quantitativos. Considere- mos os resultados populacionais do Censo 2000 apresentados no Capítulo 1. Consideremos a classi- ficação por grandes grupos de idade no ano 2000, cuja planilha Censo 2000 da pasta Capítulo 1 foi copiada na pasta Capítulo 2, mantendo o mesmo nome da planilha Censo 2000. O intervalo I3:J6 re- gistra a população por três grandes grupos de idade no ano 2000, resultados ligados na mesma planilha Censo 2000. Analisemos os gráficos da Figura 2.21. � O gráfico denominado Pizza representa a frequência dos grupos de idades como setores de um cilin- dro da pequena altura. Selecionando Opções de gráfico, é possível mudar as formatações do gráfico incluindo títulos e legendas. � O gráfico de barras verticais representa a frequência dos grupos de idades como altura das barras. Sele- cionando Opções de gráfico, é possível mudar asformatações do gráfico incluindo títulos e legendas. Considerando que os temas apresentados neste capítulo permitirão navegar pelos tipos de gráficos, bem como alterar as formatações, deixamos por conta do leitor as tentativas de mudar os tipos dos grá- ficos da Figura 2.21 utilizando dados qualitativos. Problemas Na planilha Problemas, incluída na pasta Capítulo 2, estão registrados problema com seus enunciados e soluções. CAPÍTULO 2 / DESCRIÇÃO DE AMOSTRAS COM TABELAS E GRÁFICOS 63 FIGURA 2.21 População por três grandes grupos de idade, ano 2000. Apêndice 1 Funções estatísticas do Excel Algumas medidas realizadas em uma amostra dão resultados intermediários de um procedimento de cálculo estatístico, por exemplo, a contagem da quantidade de dados de uma amostra, seu valor míni- mo etc. Alguns desses resultados podem ser obtidos utilizando funções estatísticas do Excel, como mostrado na planilha Funções estatísticas, incluída na pasta Capítulo 2, aplicadas na amostra do Exemplo 2.1, Figura 2.22. Uma característica comum das funções que serão apresentadas, exceto a função CONTAR.VAZIO, são os 30 argumentos (núm1; núm2; ... ; núm30) utilizados para registrar os valores de intervalos. Na apresentação da primeira função MÁXIMO, será mostrado como utilizar esses argumentos, procedi- mentos que se repetem com as demais funções com o mesmo tipo de argumentos. As sintaxes dessas funções estatísticas são apresentadas a seguir. MÁXIMO(núm1; núm2; ... ; núm30) A função estatística MÁXIMO7 retorna o valor máximo dos valores numéricos núm1; núm2; ... ;núm30. Cada um desses núm pode ser um intervalo de células de uma planilha contendo valores numéricos ou assemelhados.8 Se o nome da função MÁXIMO for inserido com letras minúsculas ou maiúsculas sem o acento ortográfico, o Excel aceitará e registrará a função com letras maiúsculas e com o acento orto- gráfico. Por exemplo, a função MÁXIMO aplicada na amostra do Exemplo 2.1 dará como resultado 17. Para obter esse resultado, a função MÁXIMO pode ser utilizada das seguintes maneiras, Figura 2.22: � Registrando os valores da amostra em um intervalo de células da planilha. � Se os valores da variável estiverem registrados em um único intervalo, ou intervalos contíguos, apenas será necessário informar um único intervalo no argumento num1. Por exemplo, registran- do a fórmula =MÁXIMO(B4:C16) � Se os valores da variável estiverem registrados em intervalos não adjacentes, será necessário in- formar o endereço de cada intervalo em cada argumento núm1; núm2; ... ; núm30. Por exemplo, na célula F6, a fórmula =MÁXIMO(B4:B11;B12:B16;C4:C6;C7:C16) registra três intervalos nos três primeiros argumentos da função MÁXIMO núm1; núm2; núm3 � Registrando os valores da amostra como matriz na própria fórmula da função, evitando registrar os valores da amostra em um intervalo de células da planilha. � Na célula G6, os valores foram registrados em uma única matriz: =MÁXIMO({14;12;13;11;12;13;16;14;14;15;17;14;11; 13;14;15;13;12;14;13;14;13;15;16;12;12}) � Na célula G7, os valores foram registrados em quatro matrizes: =MÁXIMO({14;12;13;11;12;13;16};{14;14;15;17;14}; {11;13;14;15;13;12;14;13;14;13;15;16};{12;12}) ESTATÍSTICA USANDO EXCEL / LAPPONI64 7 Em inglês, a função MÁXIMO é MAX. 8 Assemelhados são os intervalos definidos por nomes, células vazias, valores lógicos, representações em forma de texto de números, por exemplo, VALOR("10")=10. Os argumentos que são valores de erro ou texto que não podem ser traduzidos em números geram erros. MÍNIMO(núm1; núm2; ... ; núm30) A função estatística MÍNIMO9 retorna o valor mínimo dos valores numéricos núm1; núm2; ... ; núm30. Cada um desses núm pode ser um intervalo de células da planilha contendo valores numéricos ou asse- melhados. Se o nome da função MÍNIMO for inserido com letras minúsculas ou maiúsculas sem o acento ortográfico, o Excel aceitará e registrará a função com letras maiúsculas e com o acento ortográ- fico. A função MÍNIMO pode ser registrada de diversas formas equivalentes às descritas na função MÁXIMO descrita anteriormente, Figura 2.22. MÁXIMOA(núm1; núm2; ... ; núm30) A função estatística MÁXIMOA10 é equivalente à função anterior MÁXIMO. A diferença está relaciona- da com os valores registrados nos argumentos núm1; núm2; ... ;núm30 que, nesta função, além de nú- meros, podem ser valores lógicos e de texto, como VERDADEIRO e FALSO. Deixamos que você pes- quise na Ajuda do Excel. MÍNIMOA(núm1; núm2; ... ; núm30) A função estatística MÍNIMOA11 é equivalente à função anterior MÍNIMO. A diferença está relaciona- da com os valores registrados nos argumentos núm1; núm2; ... ;núm30 que, nesta função, além de nú- meros, podem ser valores lógicos e de texto, como VERDADEIRO e FALSO. Deixamos que você pes- quise na Ajuda do Excel. CONT.NÚM(valor1; valor2; ... ; valor30) A função estatística CONT.NÚM12 retorna a quantidade de valores numéricos das observações valor1; valor2; ... ; valor30. Cada um dos argumentos valor pode conter ou fazer referência a vários tipos de da- dos; entretanto, apenas os valores numéricos serão considerados na contagem. Se o nome da função CONT.NÚM for inserido com letras minúsculas ou maiúsculas sem o acento ortográfico, o Excel acei- CAPÍTULO 2 / DESCRIÇÃO DE AMOSTRAS COM TABELAS E GRÁFICOS 65 9 Em inglês, a função MÍNIMO é MIN. 10 Em inglês, a função MÁXIMOA é MAXA. 11 Em inglês, a função MÍNIMOA é MINA. 12 Em inglês, a função CONT.NÚM é COUNT. FIGURA 2.22 Como utilizar as funções de estatística no Exemplo 2.1. tará e registrará a função com letras maiúsculas e com o acento ortográfico. A função CONT.NÚM pode ser registrada de diversas formas equivalentes às descritas na função MÁXIMO tratada anterior- mente, Figura 2.22. CONT.VALORES(valor1; valor2; ... ; valor30) A função estatística CONT.VALORES13 retorna a quantidade de observações não vazias contidas em valor1; valor2; ... ; valor30. Cada um dos argumentos valor pode ser qualquer tipo de informação, inclu- indo texto vazio (""), porém excluindo as células em branco. A função CONT.VALORES pode ser re- gistrada de diversas formas equivalentes às descritas na função MÁXIMO tratada anteriormente, Figu- ra 2.22. CONTAR.VAZIO(intervalo) A função CONTAR.VAZIO14 retorna o número de células vazias contidas no intervalo informado. Cé- lulas com fórmulas que forneçam um texto vazio (“”) também são contadas; entretanto, células com valores nulos não são contadas. Aplicando a função CONTAR.VAZIO para, obter o número de células vazias da série do Exemplo 2.1 dará como resultado 0, como mostra a Figura 2.22. Apêndice 2 Fixando o endereço de células Na célula E15 da planilha Função Frequência, foi registrada a fórmula =FREQUÊNCIA($B$4:$B$29;D15) que depois foi copiada até a célula D21. Se o intervalo da amostra fosse registrado sem os dois cifrões em cada endereço de célula, não teria sido possível copiar a fórmula de forma correta, pois o intervalo B4:B29 mudaria o endereço em cada célula que fosse copiada. Portanto, os cifrões utilizados no intervalo fixam as duas células do intervalo $B$4:$B$29, que facilitará a cópia da fórmula até a célula D21. Vejamos as quatro possibilidades de referenciar uma célula em uma fórmula: � $B$4 Tanto a linha quanto a coluna são absolutas. Se a fórmula que contém essa referência for co- piada em qualquer célula da planilha, o endereço $B$4 permanecerá inalterado. � B$4 A linha é absoluta e a coluna é relativa. Se a fórmula que contém essa referência for copiada em qualquer célula da planilha, o endereço será alterado mantendo a linha inalterada e adotando a colu- na da nova célula. � $B4 A coluna é absoluta e a linha é relativa. Se a fórmula que contém essa referência for copiada em qualquer célula da planilha, o endereço será alterado mantendo a coluna inalterada e adotando a li- nha da nova célula. � B4 A linha é relativa e a coluna relativa. Se a fórmula que contém essa referência for copiada em qualquer célula da planilha, as duas coordenadas do endereço serão alteradas. ESTATÍSTICAUSANDO EXCEL / LAPPONI66 13 Em inglês, a função CONT.VALORES é COUNTA. 14 Em inglês, a função CONTAR.VAZIO é COUNTBLANK. Na Ajuda do Excel, a função CONTAR.VAZIO é classificada como fun- ção de informação; entretanto, no menu Inserir é classificada como função Estatística. A escolha do tipo de referência de uma célula pode ser facilmente incluída no endereço de uma célu- la utilizando a tecla de função [F4] como segue: � Em uma célula qualquer da planilha digite, por exemplo, =E13 sem inserir a fórmula na planilha. � Depois, pressionando a tecla de função [F4], a fórmula passa a ser =$E$13; pressionando novamen- te a tecla, obtemos =E$13, e pressionando novamente a tecla =$E13. Esse procedimento também pode ser utilizado, dentro de uma fórmula já construída durante sua edição. Apêndice 3 Cópia de uma planilha Para realizar a cópia de uma planilha na mesma ou em outra pasta proceda desta forma: � Posicione o cursor em qualquer célula da planilha que será copiada, por exemplo, a célula F1 da pla- nilha Quantidade de Classes. � No menu Editar, selecione Mover ou copiar planilha. O Excel apresentará a caixa de diálogo da Fi- gura 2.23. Nessa caixa de diálogo foram selecionadas: � Para pasta. Escolhemos a própria pasta. Você poderá escolher qualquer pasta que estiver aberta ou uma nova pasta. � Antes da planilha. Escolhemos Exemplo 2.8. Essa escolha significa que a cópia da pasta será po- sicionada depois da pasta Quantidade de Classes. � Criar uma cópia. Deve-se selecionar para copiar a planilha, pois, do contrário, o Excel simples- mente moverá a planilha atual para a nova posição. � Pressionando o botão OK, o Excel criará uma nova planilha idêntica à planilha Quantidade de Clas- ses, porém com o nome Quantidade de Classes (2). � Para concluir, mude o nome da planilha procedendo assim: � Selecione a planilha Quantidade de Classes (2). � Clique com o botão direito do mouse. No menu, selecione Renomear e, a seguir, digite o novo nome da planilha. Como alternativa, consegue-se o mesmo efeito clicando duas vezes seguidas em cima da guia da planilha selecionada. CAPÍTULO 2 / DESCRIÇÃO DE AMOSTRAS COM TABELAS E GRÁFICOS 67 FIGURA 2.23 Caixa de Diálogo de Mover ou copiar. Capítulo 3 MEDIDAS DE TENDÊNCIA CENTRAL Para tentar conhecer uma ou mais características de uma população, extraímos uma amostra des- sa população, conforme descrito no Capítulo 1. Em geral, quando o tamanho da amostra é gran- de, maior do que quinze dados, a simples inspeção das observações não será suficiente para obter as características relevantes desses valores. Para facilitar a análise e a interpretação, esses dados devem ser organizados ou resumidos, por exemplo, em tabelas de frequências e histogramas, como foi apre- sentado no Capítulo 2. As medidas de ordenamento e as medidas de posição são os métodos numéricos para resumir e analisar os valores de uma série de dados numéricos, seja uma amostra ou a própria população, denominados como medidas de tendência central. No Capítulo 4, serão apresentadas as medidas de dispersão. Ordenamento de dados Em algumas situações, o objetivo é conhecer a posição de um determinado valor numérico em relação aos demais valores da amostra; por exemplo, qual a posição de um determinado candidato a trainee comparando seuQI com osQIs dos outros candidatos que concorrem? O QI desse candidato é baixo ou alto? Quantos candidatos têm QI maior do que o candidato sob análise? Ou, quão maior é o QI do can- didato? Outro exemplo, o retorno de 15% ao ano é baixo ou alto quando comparado com as rentabili- dades das aplicações do mercado financeiro durante o mesmo período? Quantos retornos do mercado financeiro são maiores do que 15%? Para responder a perguntas desse tipo, primeiro, os valores da série de dados devem estar ordenados em ordem crescente ou decrescente. Depois, deve-se estabelecer um critério que permita definir a posi- ção de um determinado valor da série dentro da própria série de valores numéricos. EXEMPLO 3.1 Ordene de forma crescente os valores da amostra registrada na tabela a seguir: 31 38 19 27 24 42 32 18 43 15 39 Solução. Depois de ordenar de forma crescente os onze valores numéricos da amostra, a seguir são associa- dos os números 1, 2, ..., 11 aos valores ordenados como mostra esta tabela: Amostra 15 18 19 24 27 31 32 38 39 42 43 Ordem 1 2 3 4 5 6 7 8 9 10 11 Agora, o valor 15 tem a posição 1, o 19 a posição 3 e o 43 a posição final 11. De forma geral, o Exemplo 3.1 mostra que os n valores numéricos de uma amostra ordenada de for- ma crescente foram associados à série dos números naturais 1,2, 3, ... até n. Foi estabelecida uma rela- ção de ordem entre os valores numéricos da amostra. EXEMPLO 3.2 Determine a ordem de cada valor da amostra seguinte: 27 32 64 65 58 62 59 54 29 30 26 48 47 46 43 38 29 32 35 37 31 43 45 42 37 36 Solução. Depois de ordenar os valores da amostra de forma crescente, foi associada a série de números 1, 2, ..., 26 aos valores como mostra a tabela seguinte. Amostra 26 27 29 29 30 31 32 32 35 36 37 37 38 Ordem 1 2 3 4 5 6 7 8 9 10 11 12 13 Amostra 42 43 43 45 46 47 48 54 58 59 62 64 65 Ordem 14 15 16 17 18 19 20 21 22 23 24 25 26 O procedimento de ordenamento em ordem crescente utilizado no Exemplo 3.2 foi o mesmo que o do Exemplo 3.1. No primeiro exemplo, o trabalho manual foi facilitado pelo pequeno tamanho da amostra. No último exemplo, o ordenamento manual é menos eficiente, pois é mais trabalhoso e está sujeito a erro de seleção dos valores da amostra. O comando de classificação do Excel ajudará a ordenar séries de valores em ordem crescente ou decrescente. EXEMPLO 3.3 Ordene de forma crescente os dados do Exemplo 3.2 utilizando o Excel. Solução. Primeiro, os dados da amostra do Exemplo 3.2 foram registrados na coluna B da planilha Exemplo 3.3, incluída na pasta Capítulo 3. A seguir, o intervalo B4:B30 foi copiado no intervalo C4:C30, adicionando o título Amostra ordenada como se pode ver na figura a seguir. O ordenamento dos valores da amostra pode ser realizado na própria coluna B; entretanto, a amostra foi copiada na coluna C para manter a amostra inicial e destacar o procedimento de ordenamento do Excel. ESTATÍSTICA USANDO EXCEL / LAPPONI70 Para ordenar a amostra da coluna C procedemos assim: � Selecione o intervalo C4:C30, incluindo o título Ordenada da célula C4. � Depois de escolher Classificar no menu Dados, o Excel apresentará a caixa de diálogo que detecta outros valores ao redor do intervalo selecionado, mostrando duas opções Expandir a seleção e Continuar com a seleção atual; selecione esta última opção e depois pressione o botão Classificar.... � Em vez de utilizar o menu Dados – Classificar, é possível pressionar o ícone para classificar em or- dem crescente, e o ícone para classificar em ordem decrescente. � Em sequência, o Excel exibirá a caixa de diálogo Classificar com as seguintes escolhas: no grupo Minha lista tem a opção Linha de cabeçalho, na caixa Classificar por foi selecionado Ordenada, a opção Crescente e o intervalo C5:C30 estará selecionado, como mostra a figura à esquerda. Verifique que a célu- la C4 foi retirada da seleção do intervalo, pois informamos que o intervalo C4:C30 contém uma linha de ca- beçalho. Essas escolhas estão de acordo com o intervalo da amostra informado. � Como teste, se no grupo Minha lista tem for selecionada a opção Nenhuma linha de cabeçalho, mantendo a opção Crescente, na caixa Classificar por aparecerá Coluna C e o intervalo C4:C30 esta- rá selecionado. Nesse caso, a célula C4 foi incluída na seleção do intervalo, pois informamos que o inter- valo C4:C30 não contém uma linha de cabeçalho. Depois de pressionar o botão OK, os valores da amostra são ordenados de forma crescente no mesmo in- tervalo C5:C30 da planilha, como mostra a figura à direita. Para obter mais informações sobre o comando classificar, na ajuda do Excel, procure Classificar uma lista, onde encontrará suporte para realizar classificações em mais de uma coluna, classificando valoresnuméricos ou nomes e assemelhados na ordem crescente (A até Z ou 0 até 9) ou ordem decrescente (Z até A) ou (9 até 0). Percentil Os Exemplos 3.1 e 3.2 mostram o mesmo procedimento de ordenamento para duas listas de valores numéricos com quantidade de valores diferentes, sendo que há amostras com quantidades maiores de dados. É conveniente dispor de um procedimento que, mantendo o ordenamento crescente dos dados da amostra e a associação com os números naturais, tenha uma mesma medida e permita realizar com- parações. A Figura 3.1 mostra uma relação entre a série de números naturais 0, 1, 2, ... n no eixo de abs- cissas com uma escala de 0% a 100% no eixo de ordenadas, sendo que 0% corresponde ao primeiro dado da amostra ordenada de forma crescente, e 100% ao último dado da amostra ordenada. CAPÍTULO 3 / MEDIDAS DE TENDÊNCIA CENTRAL 71 Os valores da escala de ordenadas são denominados percentil, sendo que o menor valor do percentil é 0% e o maior valor 100%; dessa maneira, qualquer dado da amostra estará sempre entre o percentil 0% e 100%, como se pode ver na Figura 3.1, na qual o valor com ordem x corresponde ao percentil p. A relação entre as ordens dos n dados da amostra ou variável e todos os valores de percentil entre 0% a 100% é regida pela seguinte relação geométrica: n x p − − = − − 1 100 0 1 0% % % Nessa relação, n é a quantidade de dados da amostra, x é a ordem de um determinado dado da amos- tra ordenada de forma crescente, e p é o percentil correspondente em porcentagem. Dessa relação, ob- temos as fórmulas de p e x. � O percentil p em porcentagem do dado da amostra ou variável com ordem x é obtido com a fórmula: p x n = − − × 1 1 100%. Qual é o significado do resultado p? O dado de ordem x é maior do que os primei- ros p dados da amostra e, ao mesmo tempo, menor do que os restantes (1–p) dados da amostra. � Da mesma maneira, conhecido o percentil p de um dado da amostra, sua ordem x é calculada com a fórmula: x n p = − × +( )1 100 1. Resumindo, agora dispomos de uma relação entre uma escala de 0% a 100% (eixo de ordenadas) e a série de números naturais 0, 1, 2, ... n que representam uma série de dados quantitativos ou amostra or- denada de forma crescente (eixo de abscissas), sendo que 0% (percentil 0%) corresponde ao primeiro dado da amostra, e 100% (percentil 100%) corresponde ao último dado da amostra. EXEMPLO 3.4 Calcule o percentil dos dados da amostra do Exemplo 3.1. Solução. A partir da ordem de cada dado da amostra do Exemplo 3.1 foi calculado o percentil corresponden- te. Por exemplo, o dado 18 tem ordem x=2 e percentil p=10%, resultado obtido com a fórmula: p x n = − − ×1 1 100% p = − − × =2 1 11 1 100 10% % Repetindo esse procedimento de cálculo, foi construída a tabela a seguir: Amostra 15 18 19 24 27 31 32 38 39 42 43 Percentil 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% ESTATÍSTICA USANDO EXCEL / LAPPONI72 1 2 n 0% 100% x p Ordem Percentil FIGURA 3.1 Ordenamento dos n valores de uma amostra. O percentil do dado 32 do Exemplo 3.4 é 60%. Qual o significado do resultado p=60%? O percentil 60% significa que o dado ordenado 32 é maior do que os primeiros 60% dos dados ordenados de forma crescente da amostra e, ao mesmo tempo, menor do que os demais 40% dos dados da amostra. Sem dú- vida que a quantidade exata de dados da amostra do Exemplo 3.1 facilitou o cálculo do percentil de cada dado, pois é um múltiplo de 10%. EXEMPLO 3.5 Determine a ordem do percentil 10%, 50% e 80% da amostra do Exemplo 3.1. Solução. Para p=50%, obtemos a ordem x=6 como resultado da fórmula: x n p= − × +( )1 100 1 x = − × + =( )11 1 50 100 1 6 Portanto, consultando a tabela de dados ordenados do Exemplo 3.1, a posição 6 está ocupada pelo valor 31. Continuando com o exemplo: � Para p=10%, a ordem é x=2, que se refere ao valor 18. � Para p=80%, a ordem é x=9, que se refere ao valor 39. Tenha em mente que há diversas formas de relacionar um conjunto de dados ordenados de forma cres- cente com o respectivo percentil. A forma apresentada é a utilizada pelas funções estatísticas do Excel. EXEMPLO 3.6 Determine a ordem dos dados da amostra do Exemplo 3.2, depois, para cada ordem, calcule o percentil corres- pondente e, por último e a partir desse resultado, obtenha a ordem utilizando o Excel e as fórmulas apresentadas. Solução. Primeiro foi feita uma cópia da planilha Exemplo 3.3 que recebeu o nome Exemplo 3.6. A seguir: � Na coluna D, foi registrada a ordem de cada dado ordenado da coluna C, do número um até o 26. Esse pre- enchimento pode ser realizado de duas formas: � Registre os números 1 e 2, respectivamente, nas células D5 e D6. Depois, com o mouse, selecione as duas células e arraste a alça de preenchimento das células selecionadas até a célula D30. Essa alternativa pode provocar mudanças das formatações de células que receberão a cópia dos valores. � A alternativa é a seguinte: registrar o número 1 na célula D5, no menu Editar, selecionar Preencher e, a seguir, Sequência que apresentará a caixa de diálogo Sequência, cuja figura é mostrada a seguir de- pois de preencher os dados necessários para registrar os números 1 a 26. Depois de pressionar OK, esse comando preenche os valores solicitados. Essa alternativa também pode provocar mudanças das forma- tações de células que receberão a cópia dos valores. CAPÍTULO 3 / MEDIDAS DE TENDÊNCIA CENTRAL 73 � Continuando, na célula E5, foi registrada a fórmula =(D5-1)/($D$30 -1) que calcula o percentil do dado da amostra com ordem igual a um. Depois, essa fórmula foi copiada até a célula E30, completando o cálculo do percentil da ordem dos dados restantes da amostra. Na coluna F, foi calculada a ordem de cada percentil registrado na coluna E. Na célula F5, foi registrada a fór- mula: =($D$30-1)*E5+1, que, depois, foi copiada até a célula F30. A próxima figura mostra a Planilha 3.6 depois de completar o registro das fórmulas. EXEMPLO 3.7 Continuando com os dados e resultados do Exemplo 3.2, quais os dados da amostra com percentil 50% e 77%? Solução. Para o percentil p=50%, obtemos a ordem x=13,50, resultado obtido com a fórmula: x = − × + =( ) ,26 1 50 100 1 13 50 Na tabela do Exemplo 3.2 ou do Exemplo 3.6 ou na planilha Excel correspondente, observa-se que não há or- dem 13,50. Entretanto, tendo presente que na definição de percentil foi estabelecida uma relação linear com a ordem, é possível realizar uma interpolação linear entre as ordens definidas. Dessa maneira, se para x=13 o dado da amostra é 38 e para x=14 é 42, a ordem x=13,50 corresponderá ao dado 40=38+(42–38)×0,50, valor que também não pertence à amostra. Com o mesmo procedimento, para o percentil p=77%, obtém-se a ordem x=20,25 e o dado correspondente 49,50=48+(54–48)×0,25, que também não pertence à amostra. EXEMPLO 3.8 Os retornos acumulados nos últimos doze meses dos primeiros vinte fundos de investimento estão registrados em ordem crescente na segunda coluna da tabela da figura a seguir. Nessa tabela, foi adicionada uma coluna com a ordem dos retornos, de um a vinte. Calcule o percentil de cada retorno e, a partir dele, verifique a or- dem desse retorno utilizando funções estatísticas do Excel. Solução. As funções estatísticas ORDEM.PERCENTUAL e PERCENTIL do Excel retornam, respectivamente, o percentil e a ordem. Comecemos por conhecer as sintaxes dessas duas funções � ORDEM.PORCENTUAL(matriz; valor; núm_ decimais) A função estatística ORDEM.PORCENTUAL1 retorna o percentil do argumento valor, considerando a ma- triz ordenada de forma crescente. Se a matriz tiver valores repetidos, a função informará o percentil do pri- meiro valor que encontrar. O argumento núm_decimais define o número de casas decimais do resultado; se omitido, o resultado terá três casas decimais. Perceba que não será necessário ordenar previamente os dados da amostra, pois a função ORDEM.PORCENTUAL ordena os dados da amostra de forma crescente antes de calcular. ESTATÍSTICA USANDO EXCEL / LAPPONI74 1 Em inglês, a função ORDEM.PORCENTUAL é PERCENTRANK.A fórmula =ORDEM.PORCENTUAL($C$4:$C$23;C4;6) foi registrada na célula D4 e depois copiada até a célula D23. Agora, no intervalo D4:D23 está registrado o percentil de cada retorno do intervalo C4:C23. Os ci- frões no intervalo da matriz foram adicionados para poder copiar essa fórmula até o último dado da amostra, e o número seis de casas decimais foi para comparar esses resultados. A função ORDEM.PORCENTUAL também pode ser registrada como matriz em uma coluna da planilha: � Selecione o intervalo G4:G23. � Digite a fórmula =ORDEM.PORCENTUAL(C4:C23;C4:C23;6) sem pressionar a tecla Enter. � Para inserir essa função como matriz, pressione simultaneamente as três teclas Ctrl + Shift + Enter; man- tendo pressionada a tecla Ctrl, pressione e mantenha pressionada a tecla Shift e, por último, pressione a tecla Enter. Depois de pressionar as três teclas simultaneamente, obtemos os mesmos resultados do inter- valo D4:D23 no qual as fórmulas receberam as chaves { }. As fórmulas matriciais não utilizam cifrões e ocu- pam menos memória da unidade de processamento comparada a com o registro individual de fórmulas. � PERCENTIL(matriz; k) A função estatística PERCENTIL2 retorna o valor que divide a matriz em duas partes, uma menor do que o argumento k e a outra maior do que k. O argumento k é um valor entre 0 e 1, correspondendo respectiva- mente a 0% e 100% da quantidade de dados da matriz. Observe que não será necessário ordenar previa- mente os dados da amostra, pois a função PERCENTIL ordenará os dados da amostra de forma crescente antes de calcular. Nem sempre o resultado da função percentil é um valor da amostra. Por exemplo, o va- lor correspondente ao percentil 75% da amostra do Exemplo 3.1 é 38,50, resultado obtido por interpola- ção linear a partir da relação linear entre a ordem e o percentil de cada valor da amostra, como vimos no Exemplo 3.7. A fórmula =PERCENTIL($C$4:$C$23;D4) foi registrada na célula E4 e depois copiada até a célula E23. Agora, no intervalo E4:E23 está registrado o retorno do percentil registrado no intervalo D4:D23. Os cifrões no intervalo da matriz foram adicionados para poder copiar essa fórmula até o último dado da amostra. A função PERCENTIL pode ser também registrada como matriz em uma coluna da planilha: � Selecione o intervalo H4:H23. � Digite a fórmula =PERCENTIL(C4:C23;D4:D23) sem pressionar a tecla Enter. CAPÍTULO 3 / MEDIDAS DE TENDÊNCIA CENTRAL 75 2 Em inglês, a função PERCENTIL é PERCENTILE. � Para inserir essa função como matriz, pressione simultaneamente as três teclas Ctrl + Shift + Enter. De- pois de pressionar as três teclas simultaneamente, obtemos os mesmos resultados do intervalo E4:E23, no qual as fórmulas receberam as chaves { }. Outras funções estatísticas relacionadas com esse tema podem ser encontradas no Apêndice 1 deste capí- tulo. Se o administrador de um fundo equivalente não listado na tabela afirma que o retorno acumulado nos últimos doze meses de seu fundo foi 30,2%, então seu percentil é p=57,9% e, consequentemente, o retorno do seu fundo é maior do que 57,9% dos primeiros fundos da tabela e menor do que os 42,1% dos demais fundos. Observe que um fundo com retorno de 32,52% tem percentil 80%; dessa maneira, o retorno desse fundo é maior do que 80% dos fundos da amostra e menor do que os restantes 20% dos fundos com seus retornos ordenados de forma crescente. Note que, enquanto o percentil 80% é uma medida relativa, pois somente avalia o desempenho do fundo em relação aos outros fundos, o retorno do fundo de 32,52% é uma medida absoluta. O ordenamento com percentil não representa uma escala intervalar constante, pois trata apenas com posições de valores ordenados. Quartil Na relação entre a escala de 0% a 100% e a série de números naturais 0, 1, 2, ... n que representam uma série de dados de uma amostra ordenada de forma crescente, o primeiro dado da amostra é o percentil 0%, e o último dado da amostra é o percentil 100%. Também há outras formas de definir referências fi- xas, por exemplo, cada 10% ou decil, ou cada 12,5% ou octil, ou cada 25% ou quartil que será apresenta- do a seguir. Dividindo os valores ordenados da variável em quatro quartos iguais, obtém-se um quartil para cada quarto definido desta forma: � O primeiro quartil Q1 é o percentil 25%. O valor da amostra do primeiro quartil Q1 é maior do que 25% dos valores menores e menor do que 75% dos demais valores maiores. � O segundo quartil3 Q2 é o percentil 50%. O valor da amostra do segundo quartil Q2 é maior do que 50% dos valores menores e menor do que 50% dos demais valores maiores. O segundo quartil é tam- bém a mediana que divide a área da distribuição de frequências em duas partes iguais a 50%. � O terceiro quartil Q3 é o percentil 75%. O valor da amostra do terceiro quartil Q3 é maior do que 75% dos valores menores e menor do que 25% dos demais valores maiores. Da fórmula do percentil, obtêm-se as fórmulas dos três quartis utilizadas pelo Excel, como mostrado a seguir. � Conhecido o percentil p de um dado da amostra ordenada, sua ordem x é calculada com a fórmula x n p = − × +( )1 100 1. No primeiro quartil, p=25% ou 1/4, a fórmula passa a ser x n n = − × + = + ( )1 1 4 1 3 4 � A fórmula da ordem no segundo quartil p=50% é x n = + 1 2 . � A fórmula da ordem no terceiro quartil p=75% é x n = × +3 1 4 . Se o resultado de x não for um número inteiro, o valor do dado da amostra ou variável será obtido com interpolação linear como já apresentado. ESTATÍSTICA USANDO EXCEL / LAPPONI76 3 A mediana divide a área da distribuição de frequências em duas partes iguais a 50%. EXEMPLO 3.9 Calcule o primeiro, segundo e terceiro quartis dos retornos do Exemplo 3.8. Solução. A função estatística QUARTIL do Excel retorna o valor do quartil informado. Comecemos por co- nhecer a sintaxe dessa função. � QUARTIL(matriz; quarto) A função estatística QUARTIL4 retorna o dado da matriz ordenada correspondente ao argumento quarto identificado da seguinte maneira: � Se quarto=0, a função retornará o primeiro ou menor valor da matriz. � Se quarto=1, 2 ou 3, a função retornará o valor da matriz correspondente e respectivamente, ao primeiro, segundo ou terceiro quartis. � Se quarto=4, a função retornará o último ou maior valor da matriz. Enquanto a função QUARTIL fornece resultados de posições definidas na amostra ordenada, a função PERCENTIL dá os resultados para qualquer posição de 0 a 1, ou 0% a 100%. No entanto, nem sempre o retor- no da função QUARTIL é um dado da amostra. A próxima figura mostra o cálculo de todos os resultados da função QUARTIL utilizando os retornos dos fundos de investimento da planilha Exemplo 3.8 a partir da linha 26. Analisemos os cinco resultados da função estatística QUARTIL, lembrando que nem sempre o retorno é um dado da amostra. � Os resultados da função QUARTIL para o argumento quarto igual a zero ou quatro coincide, respectivamen- te, com o primeiro (menor) ou último (maior) dado da amostra ordenada. � O retorno do primeiro quartil é 24,775%, valor que não consta na série de retornos. Nesse caso, o valor do quartil foi obtido com a interpolação linear 0,24775=0,2470+(0,2480–0,2470)×(0,25–0,21053)/(0,26316–0,21053). � Os retornos do segundo e do terceiro quartil foram obtidos da mesma forma que o do segundo quartil. Ferramenta de análise Ordem e Percentil A partir de uma amostra quantitativa discreta registrada em uma planilha Excel, uma série de valores registrados em uma ou mais colunas contíguas, a ferramenta de análise Ordem e percentil retornará, a partir do endereço informado pelo usuário, uma tabela com a posição ordinal e percentual de cada dado da amostra, permitindo analisar a posição relativa dos valores em um conjunto de dados. Para utilizar a ferramenta de análise Histograma Ordem e Percentil,5 a amostra que será analisada deve estar registrada em uma planilha como a Ferramenta Ordem e Percentil incluída na pasta Capí- tulo 3, sendo que: � No intervalo B3:B29 foram registrados os valores numéricos da amostra do Exemplo3.2, incluindo o nome Amostra na célula B3. Os valores da amostra podem ser registrados em uma linha, uma colu- na ou combinando linhas e colunas, contanto que sejam contíguos e possíveis de identificá-los com um único intervalo. CAPÍTULO 3 / MEDIDAS DE TENDÊNCIA CENTRAL 77 4 Em inglês, a função QUARTIL é QUARTILE. 5 Em inglês, a ferramenta ORDEM E PERCENTIL é RANK AND PERCENTILE. � Selecione o intervalo B3:B29. � Depois de selecionar Análise de dados dentro do menu Ferramentas, o Excel apresentará a caixa de diálogo Análise de dados com todas as ferramentas de análise disponíveis, como mostrado na Figu- ra 1.7 do Capítulo 1 do livro. � Escolhendo a ferramenta Ordem e percentil, depois de pressionar o botão OK, você receberá a caixa de diálogo Ordem e percentil mostrada na Figura 3.2, depois de selecionadas algumas opções. � Pressionando o botão Ajuda dessa caixa de diálogo, o Excel apresentará a página Sobre a caixa de diálogo Ordem e percentil pertencente à Ajuda do Excel. As informações que devem ser registradas no quadro Entrada da caixa de diálogo da ferramenta Or- dem e percentil são: � Intervalo de entrada. Informe o intervalo de células da planilha no qual os dados estão registrados; nesse caso, o intervalo B3:B29 que inclui a célula onde foi registrado o título Amostra, ou rótulo no Excel. � Agrupado por. Selecionamos Colunas, pois a amostra foi registrada em uma coluna. Em geral, o Excel selecionará automaticamente depois de ter informado o intervalo da amostra. � Rótulos na primeira linha. Tendo escolhido Colunas no item anterior, necessariamente seleciona- remos Rótulos na primeira linha, pois na primeira célula da série foi incluído o nome Amostra. No quadro Opções de saída, deve ser obrigatoriamente informado um endereço a partir do qual a ferramenta de análise registrará os resultados. Há três alternativas excludentes de informar esse ende- reço, identificadas por três botões de opção que aceitam a escolha de uma única alternativa: � Intervalo de saída. Os resultados serão apresentados na mesma planilha a partir da célula informa- da, nesse caso, D3, que é o endereço da célula superior esquerda da tabela de respostas que a ferra- ESTATÍSTICA USANDO EXCEL / LAPPONI78 FIGURA 3.2 Caixa de diálogo da ferramenta Ordem e percentil. FIGURA 3.3 Ferramenta Ordem e Percentil resolvendo o Exemplo 3.6. menta construirá. Também, o Excel automaticamente definirá o tamanho da área dos resultados e exibirá uma mensagem se a tabela de saída estiver prestes a substituir dados existentes. Podem ser encontradas mais informações no Capítulo 1 ou na Ajuda do Excel. � Nova planilha. Os resultados serão apresentados a partir da célula A1 de uma nova planilha da mes- ma pasta. � Nova pasta de trabalho. Os resultados serão apresentados em uma nova pasta e a partir da célula A1 da planilha Plan1. Depois de pressionar o botão OK, a ferramenta Ordem e percentil apresentará os resultados solicita- dos nas seleções realizadas, como mostra a Figura 3.3. A partir da célula D3 da planilha, a ferramenta registra a tabela de resultados cuja análise é realizada a seguir. � Na coluna E (Amostra) da tabela, a ferramenta registrou os dados da amostra ordenados de forma de- crescente. � Na coluna D (Ponto), foi registrada a posição de cada dado da coluna E registrado na coluna B. Por exemplo, o valor 62 registrado na célula E6 tem a posição 6 (célula D6) na amostra da coluna B, ou o valor 62 é o sexto dado da amostra da coluna B, célula B9. � Na coluna F (Ordem), foi registrada a ordem de cada dado da amostra registrada na coluna E da tabe- la. Se na amostra há valores repetidos, a classificação manterá ordem do primeiro valor não repetido. A ordem é calculada com a função estatística ORDEM, apresentada no Apêndice 1 do Capítulo 3. � Na coluna G (Porcentagem), foi registrado o percentil de cada dado da amostra ordenada de forma decrescente. Esses valores foram calculados com a função estatística ORDEM.PORCENTUAL já apresentada. Medidas de tendência central No Capítulo 2, mostramos como apresentar dados numéricos de forma agrupada utilizando tabelas de frequências e histogramas. A parte inicial deste Capítulo 3 mostrou como trabalhar com as posições re- lativas dos dados ordenados de uma amostra utilizando percentil e quartil. Os exemplos desenvolvidos no Capítulo 2 mostram que os dados tendem a se agrupar ao redor de um ponto central, mostrando a oportunidade de definir novas medidas que podem representar toda a amostra ou variável. Amediana é uma das medidas de tendência central cuja definição coincide com o percentil 50%, ou o segundo quar- til, de uma série de dados ordenados de forma crescente. As outras medidas de tendência central são a moda e a média aritmética ou simplesmente média. Mediana A medianaMd é uma medida de tendência central cuja definição coincide com o percentil 50%, ou o se- gundo quartil, de uma série de dados ordenados de forma crescente. A medianaMd é um valor localiza- do na posição central, tal que 50% dos valores são menores do queMd, e os demais 50% são maiores. Depois de ordenar os n valores da variável de forma crescente, a Md é determinada de acordo com o tipo do número n: Se n for um número ímpar, a Md será o valor da variável situado na posição (n+1)/2. Se n for um número par, a Md será igual ao resultado da divisão por dois da soma dos va- lores das posições (n/2) e (n/2)+1. Nesse caso, a Md poderá não ser um valor da variável. CAPÍTULO 3 / MEDIDAS DE TENDÊNCIA CENTRAL 79 Note que a quantidade de dados da amostra acima de Md é igual à quantidade de dados da amostra abaixo dele, seja n par ou ímpar. De outra maneira, a mediana Md divide a área da distribuição de fre- quências em duas partes iguais a 50%. EXEMPLO 3.10 Calcule a mediana da amostra do Exemplo 3.1. Solução. Para facilitar o trabalho, os dados da amostra são repetidos a seguir. 31 38 19 27 24 42 32 18 43 15 39 A tabela a seguir mostra os 11 valores da amostra ordenados de forma crescente, identificando o valor da mediana dentro de um círculo. 15 18 19 24 27 31 32 38 39 42 43 Como a quantidade de dados da amostra n=11 é um número ímpar, o valor da mediana é Md=31, que cor- responde ao dado da posição 6=(11+1)/2. O mesmo resultado foi obtido com a função MED do Excel, como mostra a figura a seguir, referente à planilha Cálculo da Mediana da pasta Capítulo 3. A mediana foi obtida com a fórmula =MED(B4:B14) registrada na célula E4. � MED(núm1; núm2; ... ; núm30) A função estatística MED(núm1; núm2; ... ; núm30) retorna a mediana dos valores numéricos núm1; núm2; ... ; núm30. Cada um desses núm pode ser um intervalo de células de uma planilha contendo valores numé- ricos ou assemelhados. Nesse exemplo, a amostra do intervalo B4:B14 foi registrada no primeiro argumen- to núm1. Mais informações sobre essa função e outras formas de utilizá-la estão disponíveis no Apêndice 1 deste capítulo. EXEMPLO 3.11 Calcule a mediana da amostra do Exemplo 3.2. Solução. Para facilitar o trabalho, os dados da amostra são repetidos a seguir. 27 32 64 65 58 62 59 54 29 30 26 48 47 46 43 38 29 32 35 37 31 43 45 42 37 36 A tabela a seguir mostra os 26 valores da amostra ordenados de forma crescente, identificando os valores que fazem parte do cálculo da mediana dentro de um círculo. 26 27 29 29 30 31 32 32 35 36 37 37 38 42 43 43 45 46 47 48 54 58 59 62 64 65 ESTATÍSTICA USANDO EXCEL / LAPPONI80 Como a quantidade de dados n=26 é um número par, o valor da mediana será igual ao resultado da divisão por dois da soma dos valores das posições (n/2)=13 e (n/2)+1=14. O valor da mediana é Md=40, resultado ob- tido de (38+42)/2. O mesmo resultado foi obtido com a função MED do Excel, como mostra a figura a seguir referente à planilha Cálculo da Mediana da pasta Capítulo 3. Analisando os resultados dos exemplos anteriores, podemos chegar a algumas conclusões interes- santes: � Na amostra do Exemplo 3.10, acima daMd=31, há cinco dados da amostra e, abaixo dela, também há cinco dados, e a mediana é um valorda amostra. � Da mesma forma, na amostra do Exemplo 3.11, acima da Md=40, há 13 dados da amostra e, abaixo dela, também há 13 dados; entretanto, a Md não é um valor da amostra. � A mediana divide a distribuição de frequências em duas áreas iguais, ou duas áreas com a mesma quantidade de valores ordenados da amostra ou variável ou, de outra maneira, a mediana Md divide a área da distribuição de frequências em duas partes iguais a 50%. � Se o maior valor da amostra for duplicado, o valorMdnão será alterado, pois está relacionado apenas com a ordem da série de valores. A mediana é uma medida, resistente, ela é menos sensível à presen- ça de valores suspeitos, dados bastante diferentes da maioria dos dados coletados na mesma amos- tra. A eliminação de dados suspeitos não deverá afetar a mediana, o que não ocorrerá com a média que será afetada. Moda A tabela de frequências absolutas do Exemplo 2.1 do Capítulo 2 mostra que o número de operações diárias fechadas pelo Operador B com maior frequência da série de dados dessa amostra é 14 operações. Essa é a medida de tendência central denominada moda Mo, nesse exemplo Mo=14. Moda é o valor da amostra ou variável que mais se repete; ou valor com mais frequência. EXEMPLO 3.12 Calcule a moda Mo da amostra do número de operações fechadas diariamente pelo Operador B do Exemplo 2.1, cujos dados repetimos. 14 12 13 11 12 13 16 14 14 15 17 14 11 13 14 15 13 12 14 13 14 13 15 16 12 12 CAPÍTULO 3 / MEDIDAS DE TENDÊNCIA CENTRAL 81 Solução. A tabela de frequências absolutas do Exemplo 2.1 mostra que Mo=14, o número de operações diá- rias fechadas pelo Operador B com maior frequência. O mesmo resultado foi obtido com a função MODO do Excel, como mostra a figura a seguir referente à planilha Cálculo da Moda da pasta Capítulo 3. O valor da moda foi obtido com a fórmula registrada na célula C12 =MODO(B4:B10;C4:C10;D4:D10;E4:E8). � MODO(núm1; núm2; ... ; núm30) A função estatística MODO(núm1; núm2; ... ; núm30) retorna a moda dos valores numéricos núm1; núm2; ... ; núm30. Cada um desses núm pode ser um intervalo de células de uma planilha contendo valores numé- ricos ou assemelhados. Nesse exemplo, a amostra foi registrada nos quatro primeiros argumentos núm1, núm2, núm3 e núm4. Mais informações sobre essa função e outras formas de utilizá-la estão disponíveis no Apêndice 1 deste capítulo. EXEMPLO 3.13 Determine a moda Mo da amostra do Exemplo 3.2. Solução. Para facilitar a determinação da moda, os dados ordenados de forma crescente da amostra são re- petidos e identificados a seguir. 26 27 29 29 30 31 32 32 35 36 37 37 38 42 43 43 45 46 47 48 54 58 59 62 64 65 Na amostra da tabela apresentada detectamos quatro modas, com dois dados cada uma com áreas pinta- das, Mo=29, 32, 37 e 43. O resultado obtido com a função MODO do Excel na planilha Cálculo da Moda da pasta Capítulo 3 é 32. As amostras ou variáveis com valores quantitativos contínuos costumam não apresentar moda; por exemplo, a série das 50 maiores empresas privadas por venda mostrada no Capítulo 1 não tem moda. A amostra ou variável com uma única moda é denominada unimodal, com duas modas é bimodal etc. A moda também é uma medida resistente, pois está relacionada apenas com a frequência de um ou mais dados da amostra. Por exemplo, a mudança de um dado da amostra poderá não afetar a moda Mo. Média A medida de posição mais utilizada é a média aritmética ou simplesmente média de uma amostra ou va- riável. ESTATÍSTICA USANDO EXCEL / LAPPONI82 Média X é o resultado da divisão da soma dos valores das observações ou dados X X X Xi n1 2, , , , ,� � da amostra X pela quantidade de dados n: X X n n X i i n i i n = == = ∑ ∑1 1 1 As características importantes da média são: � A unidade de medida da média é a mesma que a dos valores da amostra. � O resultado da multiplicação da média X pela quantidade n de valores da amostra X é igual à soma dos n valores da amostra. No Apêndice 3 você encontra informações e como utilizar o símbolo somatória ∑. EXEMPLO 3.14 Calcule a média da amostra do Exemplo 3.1. Solução. A média da amostra é igual a X, resultado obtido com a fórmula e também resolvido na planilha Cálculo da Média da pasta Capítulo 3. O cálculo da média da amostra é realizado de três formas diferentes. � De forma manual, utilizando a fórmula que define a média da amostra. � Com funções do Excel equivalentes à fórmula que define a média da amostra utilizando a fórmula =SOMA(B4:B14)/CONT.NÚM(B4:B14) registrada na célula E13. � SOMA(núm1; núm2; ... ; núm30) A função matemática SOMA(núm1; núm2; ... ; núm30) retorna a soma dos valores numéricos núm1; núm2; ... ; núm30. Cada um desses núm pode ser um intervalo de células de uma planilha contendo valo- res numéricos ou assemelhados. Mais informações sobre essa função e outras formas de utilizá-la estão disponíveis no Apêndice 1 deste capítulo. � Com a função estatística MÉDIA do Excel utilizando a fórmula =MÉDIA(B4:B14) registrada na célula E14. � MÉDIA(núm1; núm2; ... ; núm30) A função estatística MÉDIA(núm1; núm2; ... ; núm30) retorna a média aritmética dos valores numéricos núm1; núm2; ... ; núm30. Cada um desses núm pode ser um intervalo de células de uma planilha conten- do valores numéricos ou assemelhados. Nesse exemplo, a amostra do intervalo B4:B14 foi registrada no primeiro argumento núm1. Se o nome da função MÉDIA for inserido com letras minúsculas ou maiúscu- CAPÍTULO 3 / MEDIDAS DE TENDÊNCIA CENTRAL 83 las ou sem o acento ortográfico, o Excel aceitará e registrará a função com letras maiúsculas e com o acen- to ortográfico. Mais informações sobre essa função e outras formas de utilizá-la estão disponíveis no Apêndice 1 deste capítulo. EXEMPLO 3.15 Calcule a média da amostra de operações diárias fechadas pelo Operador B e explicar seu significado, Exemplo 2.1. Solução. Aplicando a definição de média da população temos o resultado obtido com a seguinte fórmula. X Xi i = = × + + + = = ∑1 26 1 26 14 12 12 352 261 26 ( )� X = 13 54, Qual o significado da média igual a 13,54? � A média tem a mesma unidade de medida que os valores da amostra. � A média 13,54 é a quantidade equivalente de operações fechadas diariamente pelo operador B, pois o resul- tado da multiplicação da média pelo número 26 é igual a 352, a soma dos 26 valores da variável. Propriedades da média A média é a medida de posição mais utilizada porque tem propriedades importantes, como as que serão apresentadas. Para mostrar essas propriedades, necessitamos utilizar algumas expressões matemáti- cas. Suponha uma amostra ou variávelX com ndados ou observações, não necessariamente ordenados, e identificados pela sequência de valores X X X Xi n1 2, , , , ,� � , onde X1 é o primeiro dado, X 2 é o se- gundo dado, X i é um dado qualquer da amostra, e assim sucessivamente até o último dado X n . Deno- mina-se desvio de umdadoXi de uma amostra o resultado da diferença entreXi e a médiaX da amostraX. Em termos matemáticos = −X Xi . Primeira propriedade A soma dos desvios de uma amostra ou variável é sempre igual a zero. ( )X Xi i n − = = ∑ 1 0 Essa propriedade é útil para verificar ou confirmar o resultado do cálculo da média de uma amostra ou variável, como também no desenvolvimento de provas matemáticas que apresentam a soma de des- vios com relação à média. A primeira propriedade da média também pode ser utilizada para determinar a média de uma amostra, como mostra o Exemplo 3.16. EXEMPLO 3.16 Determine o valor da média da amostra do Exemplo 3.1 aplicando a primeira propriedade da média e utilizan- do o Excel. Solução. No intervalo B3:B14 da planilha Média com Atingir Meta, incluída na pasta Capítulo 3, foi re- gistrada a amostra do Exemplo 3.1. Depois foram adicionados os registros mostrados na próxima figura. ESTATÍSTICA USANDO EXCEL / LAPPONI84 � Na célula E5 será determinado o valor da média da amostra. � Na célula C4 foi registrada a fórmula =B4-$E$5 que calcula o desvio do dado da amostra registrado na célula B4 com relação à média registradana célula E5. Depois essa fórmula foi copiada até a célula C14. � Na célula C15 foi registrada a fórmula =SOMA(C4:C14) que retorna a soma de todos os desvios. Pela primeira propriedade da média, verificamos que o valor 10 registrado na célula E5 não é o valor da mé- dia da amostra, pois a soma dos desvios é diferente de zero. Da forma como foi preparada a planilha, podere- mos encontrar o valor da média de forma manual, registrando diferentes valores na célula E5 até conseguir ze- rar o valor da célula E5, procedimento trabalhoso e cansativo. Essa resposta pode ser encontrada rapidamente utilizando o comando Atingir Meta da seguinte forma: � Posicione o cursor do Excel na célula C15. � No menu Ferramentas do Excel, selecione Atingir meta. Será exibida a caixa de diálogo Atingir meta. � Nessa caixa de diálogo, informe os dados, como mostra a figura a seguir. � Definir célula. Nessa caixa é registrado o endereço da célula que contém a fórmula cujo resultado será definido na caixa seguinte. Posicionando o cursor do Excel na célula C15, nessa caixa aparecerá esse en- dereço. A célula C15 deve obrigatoriamente conter uma fórmula. � Para valor. Nessa caixa, registramos o resultado desejado na célula C15 endereço definido em Definir célula, nesse caso o valor 0. Para acessar a caixa Para valor, basta pressionar a tecla Tab ou clicar na caixa. � Alternando célula. Nessa caixa é registrado o endereço da célula que deverá ser alterada para que a cé- lula C15 atinja o valor desejado 0, ou o endereço da célula que contém o valor que se deseja ajustar. Esse dado pode ser registrado, depois de posicionar o cursor nesta caixa, clicando na própria célula E5, ou di- gitando o endereço da célula E5 na própria caixa. � Depois de completar as informações, clique em OK, e o comando Atingir Meta inicia o processo de busca da CAPÍTULO 3 / MEDIDAS DE TENDÊNCIA CENTRAL 85 solução desejada. Concluído o processo de busca, o Excel apresentará a caixa de diálogo Status do comando atingir meta, informando que foi encontrada uma solução, o Valor de destino 0 registrado na caixa Para valor e o Valor atual encontrado na célula C15. Segunda propriedade A soma dos quadrados dos desvios com relação à própria média de uma variável ou amostra é sempre um valor mínimo. ( )X Xi i n = ∑ − ⇒ 1 2 mínimo No Capítulo 4 será mostrado como medir a variabilidade dos dados de uma amostra utilizando os desvios dos dados com relação à média, onde a soma dos quadrados dos desvios é utilizada na definição de variância. Visualização das propriedades No caminho ficou a pergunta: qual é o significado de mínimo? A resposta está, inicialmente, na própria declaração da propriedade. Que a soma dos quadrados dos desvios com relação à média da própria va- riável ou amostra seja um valor mínimo significa que se os desvios fossem calculados com relação a qualquer outro valor diferente da média da amostra, a nova soma dos quadrados dos desvios seria maior do que a primeira. Demonstra-se que somente a própria média da amostra ou variável satisfaz à condição de mínimo, como se pode ver no Apêndice 3 deste capítulo. Também há a possibilidade de compreender essa propriedade de forma visual com a planilha Visualização Propriedades incluída na pasta Capítulo 3, como mostra a Figura 3.4, utilizando a amostra do Exemplo 3.1. � No intervalo B5:B15 foi registrada a amostra do Exemplo 3.1. � Na célula D26 foi calculada e registrada a verdadeira média da amostra utilizando a função estatísti- ca MÉDIA. � No intervalo D21:D24, foi incluído o controle giratório , recurso disponível no Excel para au- mentar ou diminuir o valor da célula D17, as possíveis médias da amostra. Para aumentar o valor do parâmetro da célula D17, clique na seta para cima do controle e, para diminuir, clique na seta para baixo. � No intervalo C5:C15, foram calculados os desvios dos valores da amostra com relação ao valor regis- trado na célula D17. A soma dos desvios foi registrada na célula D18. ESTATÍSTICA USANDO EXCEL / LAPPONI86 � No intervalo D5:D15 foram calculados os quadrados dos desvios cuja soma foi registrada na célula D19. Na planilha, foram construídos dois gráficos que permitem visualizar o que ocorre quando informa- mos valores arbitrários da média da amostra. No primeiro gráfico, Ajuste manual do valor daMédia, cli- cando na seta para cima ou na seta para baixo do controle giratório, a reta se desloca no sentido vertical do gráfico. Esse ajuste pode ser visualizado de duas formas: � O primeiro procedimento é comparar os comprimentos das retas tracejados verticais entre os pon- tos acima e os pontos abaixo da reta horizontal, que representa a possível média da amostra. Consi- derando positivos os comprimentos dos valores situados acima da reta horizontal, e negativos os va- lores abaixo da mesma reta, a soma desses comprimentos tem de ser igual a zero, de acordo com a primeira propriedade. � O segundo procedimento é acompanhar a variação do valor da soma dos quadrados dos desvios re- gistrada na célula D19. O segundo gráfico, Soma quadrado dos desvios Vs.Médias, mostra a parábola dos valores da soma dos quadrados dos desvios para diversos valores arbitrários da média. O valor de média registrado na célula D17 é destacado nessa parábola, facilitando a compreensão do procedimento de procura do mínimo. Resumindo, ao clicar na seta para cima ou na seta para baixo do controle giratório, um novo valor arbi- trário de média é registrado, a reta do primeiro gráfico se desloca na vertical, o ponto que representa o novo valor arbitrário de média se desloca na parábola e os valores dos desvios mudam, intervalo D18:D19. Uma reta horizontal de espessura fina localizada na parte inferior da parábola é a tangente à curva no ponto de mínimo. CAPÍTULO 3 / MEDIDAS DE TENDÊNCIA CENTRAL 87 FIGURA 3.4 Visualização das propriedades da média. Análise do resultado da média Analisando o procedimento de cálculo da média, pode-se concluir que: � Todos os valores da variável são incluídos no cálculo da média. � A média é um valor único. � A média está posicionada de forma equilibrada entre os valores ordenados da amostra. De outra ma- neira, os valores da amostra se distribuem ao redor da média. Os gráficos da planilha Visualização Propriedades ajudam a compreender o que descrevemos. � A média não é uma medida resistente, como a mediana ou a moda, pois ela é sensível à presença de dados suspeitos ou extremos; dados com valores bastante diferentes da maioria dos dados coletados na mesma amostra. Nesse caso, a média será uma medida distorcida da tendência dos valores da amostra, como mostra o Exemplo 3.17. Ao mesmo tempo, a eliminação de dados suspeitos deverá também afetar a média. � Nas amostras ou variáveis com histograma simétrico, os valores da mediana, a moda e a média, coin- cidem, seus valores são iguais. Sugerimos que você tenha em mente essa representação ao analisar a formação da média e as variações ou dispersões dos valores da variável ao redor da média, tema que será apresentado no Capítulo 4. Você deve ter percebido que alguns termos foram utilizados como sinônimos, ou quase. Por exem- plo, dados e observações, amostra e variável etc. Poucas vezes nos referimos à amostra e à população como sinônimos, embora o procedimento de cálculo e o resultado da média, e apenas ela, sejam os mesmos. Entretanto, no caso de população e amostra deve-se manter essa separação para identificar a origem das variáveis, pois: � Parâmetros são as medidas numéricas de uma população, identificados com letras gregas, μ para a média e σ para o desvio padrão (tema do próximo capítulo). � Estatísticas são as medidas numéricas de uma amostra, identificadas com letras do nosso alfabeto, X para a média e S para o desvio padrão. Média da população X é o resultado da divisão da soma dos valores X X X Xi n1 2, , , , ,� � da variável X pela quantidade de valores N: μX i i N i i NX N N X= == = ∑ ∑1 1 1 EXEMPLO 3.17 A tabela a seguir registra uma amostra ordenada de 28 retornosde diversos investimentos no mesmo período. Analise a média dessa amostra e detecte dados suspeitos. –2,1% 10,1% 10,6% 16,3% 16,3% 20,4% 21,0% 23,6% 24,7% 24,8% 26,2% 26,6% 27,0% 27,8% 28,6% 30,2% 30,3% 30,7% 32,0% 32,5% 32,6% 34,3% 35,5% 36,7% 52,9% 59,5% 76,2% 114,7% Solução. Na planilha Exemplo 3.17 incluída na pasta Capítulo 3, foram calculadas a mediana e a média dos retornos de diversos investimentos no mesmo período, respectivamente, Md = 28,17% e X=32,31%. Ana- lisando a série de retornos desses diversos investimentos ordenados verificamos que: ESTATÍSTICA USANDO EXCEL / LAPPONI88 � A série de retornos tem valores extremos, por exemplo, o primeiro retorno igual a –2,1% e o último igual a +114,7%. Recalculando a média sem considerar os dois valores extremos, temos X=30,27%, retorno mais próximo da mediana. � Recalculando a média sem considerar o penúltimo valor da série 76,2%, temos X=28,44%, próximo da me- diana. Análise das medidas de tendência central Embora média, mediana e moda sejam medidas importantes de tendência central por serem fáceis de serem obtidas e úteis para obter informações sobre uma amostra, elas devem ser utilizadas de acordo com a análise desejada. Analisemos, primeiro, as principais vantagens e desvantagens dessas medidas. MODA Vantagens Desvantagens Fácil de calcular. Pode estar afastada do centro dos dados. Não é afetada pelos dados extremos da amostra. Difícil de incluir em funções matemáticas. Pode ser aplicada em qualquer escala: nominal, ordinal, intervalar e proporcional. Não utiliza todos os dados da amostra. A amostra pode ter mais de uma moda. Algumas amostras podem não ter moda. MEDIANA Vantagens Desvantagens Fácil de calcular. Difícil de incluir em funções matemáticas. Não é afetada pelos dados extremos da amostra. Não utiliza todos os dados da amostra. É um valor único. Pode ser aplicada nas escalas: ordinal, intervalar e proporcional. MÉDIA Vantagens Desvantagens Fácil de compreender e aplicar. É afetada pelos dados extremos da amostra. Utiliza todos os dados da amostra. É necessário conhecer todos os dados da amostra. É um valor único. Fácil de incluir em funções matemáticas. Pode ser aplicada nas escalas: intervalar e proporcional. Agora comparemos os valores dessas medidas em três formas diferentes do contorno de uma distri- buição de frequências de uma amostra ou variável. A distribuição da esquerda da Figura 3.5 mostra uma distribuição de frequências simétrica ao redor da média. Na distribuição simétrica de frequências, os valores de média, mediana e moda coincidem. As outras duas distribuições da Figura 3.5 não são si- CAPÍTULO 3 / MEDIDAS DE TENDÊNCIA CENTRAL 89 métricas, e as medidas de tendência central têm posições relativas diferentes entre si, antecipando a forma da distribuição de frequências da amostra ou variável: � Na figura do meio a distribuição tem inclinação para a direita, simplesmente inclinação direitaou po- sitiva. A moda está na posição do pico da distribuição, e a mediana, que divide a distribuição em duas áreas iguais, situa-se à direita da moda, pois a distribuição tem inclinação para a cauda direita. Como a média é uma medida afetada pelos dados extremos da amostra, ela estará situada à direita da mediana. Utilizando os valores das medidas, verifica-se a seguinte relação Média > Mediana > Moda. Como nem sempre uma amostra ou variável terá moda, a análise da forma de distribuição poderá ser realizada com as outras duas medidas, Média > Mediana. Ou seja, se a média é maior do que a media- na, a distribuição deve ter inclinação para a direita. � De forma equivalente, na distribuição da direita da Figura 3.5, a distribuição tem inclinação para a esquerda, simplesmente inclinação esquerda ou negativa. A moda está na posição do pico da distri- buição, e a mediana, que divide a distribuição em duas áreas iguais, está situada à esquerda da moda, pois a distribuição tem inclinação para a cauda esquerda. Como a média é uma medida afetada pelos dados extremos da amostra, ela estará situada à esquerda da mediana. Utilizando os valores das me- didas, verifica-se a seguinte relaçãoMédia<Mediana<Moda. Como nem sempre uma amostra ou va- riável terá moda, a análise da forma de distribuição poderá ser realizada com as outras duas medidas, Média < Mediana. Ou seja, se a média é menor do que a mediana, a distribuição deve ter inclinação esquerda. Qual das três medidas de tendência central utilizar? A escolha da medida depende da aplicação. � Quando procuramos conhecer valores totais, será utilizada a média. Por exemplo, em controle de qualidade, a média é utilizada para determinar se o processo opera ao redor de um valor esperado ou alvo. Dá-se preferência à média pelas suas propriedades matemáticas. � Se a amostra apresentar valores extremos, uma distribuição com acentuada inclinação, a mediana será mais adequada, pois não é afetada pelos dados extremos, como a média. Se quisermos conhecer o valor típico dos salários de uma determinada categoria de trabalhadores, será utilizada a mediana. Por exemplo, se os salários pesquisados da categoria são $500, $1.800, $2.000, $2.200 e $2.500, a mediana é $2.000 e a média $1.800. Portanto, o valor da média tende na direção dos valores extre- mos e a mediana não é afetada por esses valores extremos. � A moda é um valor típico de uma amostra ou variável. Por exemplo, na distribuição do consumo de um mesmo produto com diferentes apresentações, a moda mostra a apresentação mais consumida, como é o caso do número de calçados, o tamanho de calças etc. Média ponderada O cálculo da média de uma amostra é realizado com todos os dados da amostra. Todos os dados rece- bem a mesma importância ou o mesmo peso; eles têm uma distribuição uniforme e discreta. Contudo, ESTATÍSTICA USANDO EXCEL / LAPPONI90 Simétrica Inclinação direita Inclinação esquerda Moda Mediana Média= = Moda Mediana Média ModaMediana Média FIGURA 3.5 Distribuições de frequências, simétrica e inclinada. os valores repetidos poderiam ser agrupados como mostra o cálculo da média do Exemplo 3.15 que re- petimos. X = × × + × + × + × + × + × + × 1 26 2 11 5 12 6 13 7 14 3 15 2 16 1 17( ) Realizando a operação indicada nessa expressão: X = × + × + × + × + × + × + × 2 26 11 5 26 12 6 26 13 7 26 14 3 26 15 2 26 16 1 26 17 X = × + × + × + × + +0 0769 11 0 1923 12 0 2308 13 0 2692 14 0 0385, , , , ,� × 17 X = 13 54, O agrupamento dos dados repetidos formam a média ponderada, que é a distribuição de frequências relativas de X, veja Exemplo 2.4 do Capítulo 2. A média ponderada X da amostra ou variável X é obtida com: X w X w i i i n i i n= × = = ∑ ∑ 1 1 Nessa expressão, Xi é o dado repetido e wi seu peso ou frequência. Algumas conclusões importantes: � O cálculo da média ponderada é um caso particular do cálculo da média aritmética. � Os pesos formam a distribuição de frequências relativas da variável. � No cálculo da média aritmética, a quantidade de dados da variável é conhecida; entretanto, no caso da média ponderada, a quantidade de valores da variável não é explícita. � Uma vantagem do procedimento da média ponderada é poder definir os pesos de cada dado numa previsão, lembrando que a soma dos pesos deve ser sempre igual a um ou 100%. EXEMPLO 3.18 O capital da empresa foi captado de três fontes, ações, financiamentos de longo prazo e debêntures, cada um com seu próprio custo definido por uma taxa anual de juros. O objetivo é calcular o custo médio ponderado do capital captado pela empresa, considerando as informações na tabela a seguir: Capital da empresa Participação Taxa de juros Acionistas $1.000.000 12% Financiamentos $600.000 8% Debêntures $400.000 14% CAPÍTULO 3 / MEDIDAS DE TENDÊNCIA CENTRAL 91 Solução. O capital da empresa é $2.000.000, obtido como resultado da soma dos três capitais. O custo mé- dio anual CM do capital da empresa é 11,20%. CM w X w i i i i i = × = = ∑ ∑ 1 3 1 3 CM = × + × + × + 1000000 12 600000 8 400000 14 10000006 . . % . % . % . . 00000 400000 1120 . . , % + = Na planilha Exemplo 3.18, incluída na pasta Capítulo 3, são apresentadas outras formas de cálculo utili- zando diversos recursos do Excel. O resultado do custo médio de capital CM foi obtido da seguinte forma: � Na célula C8, foi registrada a fórmula =B4*C4+B5*C5+B6*C6 � Na célula C11, foi registrada =SOMARPRODUTO(B4:B6;C4:C6)6. � Na célula C14, foi registrada a fórmula =SOMA(B4:B6*C4:C6), inserida como matriz. � A fórmula =MATRIZ.MULT(C17:E17;B18:B20)7 foi registrada na célula E20. Problemas Problema 1 Determine a quantidade de valores e os valores mínimo e máximo da amostra: 5 7 3 4 2 8 9 12 R: n=8, Mínimo=2 e Máximo=12 ESTATÍSTICA USANDO EXCEL / LAPPONI92 6 Em inglês, a função SOMARPRODUTO é SUMPRODUCT. 7 Em inglês, a função MATRIZ.MULT é MMULT. Problema 2 Continuando com o Problema 1, determine a ordem e o percentil do valor 7. R: Ordem=5 e Percentil=57,1% Problema 3 Continuando com o Problema 1, qual o valor da amostra com percentil 85,7%? R: Valor=9 Problema 4 Continuando com o Exemplo 3.2, determine o percentil das observações cujas ordens são x=1, 4, 10 e 22. R: p=0%, 12% e 84%. Problema 5 Continuando com o Problema 4, qual o valor da amostra com p=32%? R: x=9. Problema 6 Repita os Problemas 1, 2 e 3 considerando a amostra a seguir: você escolhe o valor do segundo. 15 16 12 18 22 21 17 16 12 16 18 21 19 18 16 Problema 7 Continuando com o Problema 6, quais os valores do primeiro quartil, do segundo quartil e do terceiro quartil? R: Q1=16; Q2=17 e Q3=18,50 Problema 8 Calcule os quartis da amostra registrada na próxima tabela. 10 15 14 23 21 18 11 12 14 15 23 12 15 R: Q1=12 Q2=15 e Q3=18 Problema 9 Continuando com o Problema 8, qual o percentil do valor 15? R: p(15)=50% Problema 10 Continuando com o Problema 8, qual o percentil dos valores 10 e 21? R: p(10)=0% e p(21)=83% Problema 11 Continuando com o Problema 8, qual o valor com percentil 35% e 63%? R: X(p=35%)=14 e X(p=63%)=15 Problema 12 A tabela a seguir registra uma amostra do número de gerentes operacionais que respondem diretamen- te a um diretor em empresas do ramo químico. Calcule: CAPÍTULO 3 / MEDIDAS DE TENDÊNCIA CENTRAL 93 a. Os quartis da amostra. b. Quais os percentis dos valores 8 e 11? c. Quais os valores com percentis 40% e 75%? 7 7 9 8 7 13 10 14 8 9 8 6 9 9 10 11 7 8 9 6 8 11 12 10 R: a) Q1=7,75 Q2=9 e Q3=9,75 b) p(8)=26% e p(11)=82% c) (p=40%)=8 e X(p=75%)=10 Problema 13 A tabela a seguir registra os retornos das aplicações mais tradicionais do mercado financeiro. Calcule a ordem e o percentil de cada retorno. Ouro –1,74% Inflação 0,10% Curto prazo 0,52% Dólar paralelo 0,87% CDB para <$5.000 1,15% Caderneta de poupança 1,16% FRF 30 dias 1,30% FRF 60 dias 1,49% CDB para >$100.000 1,58% Bolsa RJ 2,12% Bolsa SP 2,99% Problema 14 Continuando com o Problema 13. No mesmo mês, o retorno do produto financeiro FourA foi 1,85% ao mês. Qual o percentil do retorno 1,85%? Explique o significado desse percentil. R:O produto FourA tem percentil p=83,3%. O retorno desse produto é maior do que os 83,3% primei- ros retornos da tabela, e menor do que os 16,7% restantes. Problema 15 Continuando com o Problema 13. Para que o gerente de produtos doBanco possa afirmar que o retorno de fundoTREALé maior do que os 75% primeiros produtos da tabela, qual deve ser o retorno desse produto? R: 1,54% ao mês Problema 16 A tabela seguinte registra o salário bruto mensal dos operadores de oito empresas do mesmo ramo. Qual o percentil e o significado do salário $1.050? $1.250 $980 $1.050 $1.165 $1.175 $1.220 $1.100 $1.050 R: p=14,0% ESTATÍSTICA USANDO EXCEL / LAPPONI94 Problema 17 Continuando com o Problema 16. Quando Carlos reivindicou aumento de salário o chefe afirmou que nada podia fazer, pois seu salário está entre o segundo e o terceiro quartis de sua categoria. Qual deve ser o salário de Carlos? R: O salário de Carlos está no intervalo de $1.132,50 (Q2) até $1.186,30 (Q3). Problema 18 Calcular a média da variável do Exemplo 3.2 considerada como população. R: μ=42,11 Problema 19 Calcule a média, a moda e a mediana da amostra registrada na tabela seguinte. 10 15 14 23 21 18 11 12 14 15 23 12 18 16 15 R: X =15,62 Mo=15 e Md=15 Problema 20 Calcule a média, a moda e a mediana das notas finais daTurmaC da disciplina Estatística registradas na tabela a seguir. 89,5 74,7 99,4 84,9 96,5 82,1 77,7 92,7 59,1 74,7 91,0 100,0 77,6 98,5 2,2 60,8 83,1 20,1 84,2 70,1 90,8 97,5 78,2 31,7 98,1 99,0 94,3 73,4 85,7 94,1 61,0 77,8 R: X=78,1 Mo=74,7 e Md=83,7 Problema 21 Calcule a média, a moda e a mediana da série de dados do Problema 13. R: X=1,05% Mo=Não tem e Md=1,16% Problema 22 Calcule a média, a moda e a mediana dos dados da relação das 50 maiores empresas listadas na pasta Capítulo 1. R: X =$2.550,5 Mo=Não tem e Md=$2.119,7 Problema 23 A tabela a seguir registra o lucro bruto em $milhares no primeiro trimestre do ano dos vinte maiores hotéis. Calcular a média, a moda e a mediana do lucro. 619,7 475,5 356,5 338,5 336 310,5 258 223 209,7 198,4 190,5 189,3 176,9 162,4 155,5 155,5 149 143 141,9 136,6 R: X=$246,3 Mo=$155,5 e Md=$194,5 Problema 24 Continuando com o Problema 23, calcule os três quartis. R: Q1=$155,5 Q2=$194,5 Q3=$316,9 CAPÍTULO 3 / MEDIDAS DE TENDÊNCIA CENTRAL 95 Problema 25 Com os resultados do Problema 23, explique a forma da distribuição do lucro bruto dos vinte maiores hotéis. R:Como os resultados do Problema 23 verificam a condição μ>Md, a distribuição do lucro tem inclina- ção positiva. Problema 26 O hotel TRI não participa do grupo de hotéis do Problema 23. Se no mesmo período o lucro bruto foi igual a $190, determine o percentil do lucro dessa empresa e explique o significado desse valor. R:O lucro da empresa TRI tem percentil p=45%; portanto, o lucro da empresa é maior do que as 45% primeiras empresas listadas em ordem crescente de lucro, e menor do que as 55% demais empresas listadas. Problema 27 Continuando com o Problema 23. Para que seja possível afirmar que o lucro bruto de um hotel foi maior do que o lucro das 60% primeiras empresas listadas, qual deverá ser o lucro desse hotel? R: Lucro=$215,1 milhares Problema 28 Mensalmente a empresa fabrica 40 lotes de 100.000 parafusos cada um. Ao escolher uma amostra aleatória de oito lotes, o controle de qualidade verificou o seguinte número de parafusos com defeito em cada lote: 1 2 3 4 5 6 7 8 300 550 480 980 1.050 350 450 870 Estime o número de parafusos com defeito em um mês de trabalho. R:A média de defeitos é 628,75 parafusos por lote, isto é, 0,62875% de cada lote de 100.000 parafusos. Como durante um mês de produção serão produzidos 4.000.000 de parafusos, a projeção mensal do número de parafusos com defeitos será igual a 25.150 por mês. Problema 29 A revista de negócios de maior circulação informou que os salários anuais de seus leitores têm média de $2.200.000 e mediana $800.000. a. Desenhe a distribuição de frequências dos salários anuais dos leitores. b. Explique a forma dessa curva. Problema 30 Na empresa de contabilidade trabalham sete funcionários e o dono da empresa. No ano passado, o ren- dimento anual dos dois contadores seniores foi de $60.000 cada um e dos cinco contadores juniores foi de $25.000 cada um. Se o rendimento anual do dono da empresa de contabilidade foi $255.000: a. Calcule a média, a moda e a mediana dos rendimentos anuais. b. Desenhe a curva da distribuição das frequências dos rendimentos anuais e explique sua forma. R: Média=R$62.500 e Mediana=R$25.000 ESTATÍSTICA USANDO EXCEL / LAPPONI96 Problema 31 As duas tabelas seguintes registram a remuneração total dos executivos das empresas brasileiras in- cluindo o salário fixo, a remuneração variável e os seguintes benefícios quantificados: assistência mé- dica, assistência odontológica, automóvel, previdência privada e alimentação.8 Empresas com faturamento mensal acima de $100 milhões Presidente Dir. financeiro Dir. comercial Dir. industrial Dir. de RH Dir.marketing Primeiro quartil $30.911 $18.973 $14.750 $15.084 $13.944 $12.703 Mediana $37.328 $20.521 $17.974 $19.991 $15.235 $18.026 Terceiro quartil $40.538 $21.663 $20.116 $20.638 $19.118 $18.582 Empresas com faturamento mensal entre $25 e $100 milhões Presidente Dir. financeiro Dir. comercial Dir. industrial Dir. de RH Dir. marketing Primeiro quartil $25.998 $13.305 $12.746 $13.523 - - $11.250 Mediana $29.654 $15.225 $14.762 $13.940 - - $12.765 Terceiro quartil $31.282 $18.026 $15.801 $15.902 - - $16.579 Analise os resultados registrados acima e responda às seguintes perguntas: a. Que percentagem dos entrevistados de cada categoria pesquisada se encontram entre o primeiro e o terceiro quartis? b. Por que o intervalo entre a mediana e o primeiro quartil de remuneração da categoria Presidente é diferente do intervalo entre o terceiro quartil e a mediana? Explique essa diferença. c. Repita a comparação anterior com as outras categorias. d. Apresente os resultados das empresas com faturamento mensal acima de $100 milhões em um grá- fico e analise sua forma. Problema 32 A rede de restaurantes AQUIeAGORA, especializada em almoços pelo sistema refeição por quilo, tem 30 lojas distribuídas em diversos bairros de São Paulo, todas com o mesmo padrão e capacidade de atendi- mento. A tabela a seguir apresenta o número de refeições servidas pelas 30 lojas em um dia típico. 290 243 295 275 216 253 266 232 256 224 252 298 316 247 234 278 270 280 226 233 298 278 266 278 252 269 239 325 240 295 Pede-se realizar uma análise dos dados, considerando que a experiência no gerenciamento desse tipo de negócio mostra que o ponto de equilíbrio de uma loja é de 250 refeições por dia. CAPÍTULO 3 / MEDIDAS DE TENDÊNCIA CENTRAL 97 8 Revista Exame de 15/12/1999 de uma pesquisa da consultoria Arthur Andersen. Apêndice 1 Funções de procura e ordenamento do Excel O cálculo das medidas de ordenamento utilizando o Excel pode ser realizado utilizando expressões matemáticas e procedimentos combinados com os recursos da planilha, as funções estatísticas e a fer- ramenta de análiseOrdem e Percentildo Excel. Na planilha Funções de Ordenamento, incluída na pas- ta Capítulo 3, está registrada a utilização de cada função utilizando a amostra do Exemplo 3.1, como se pode ver na Figura 3.6. As sintaxes dessas funções estatísticas são apresentadas a seguir. CORRESP(valor; matriz; tipo) A função de procura e referência CORRESP9 retorna a posição relativa do argumento valor especifica- do no argumento matriz de valores em uma ordem específica. A procura é realizada conforme o argu- mento tipo: � Se tipo=1, então a função CORRESP selecionará o menor valor da matriz que for maior ou igual ao valor em uma matriz previamente ordenada de forma decrescente. � Se tipo=0, então a função CORRESP selecionará o primeiro valor da matriz que for exatamente igual ao valor especificado, sem necessidade de a matriz estar ordenada. � Se tipo=1, então a função CORRESP selecionará o maior valor da matriz que for menor ou igual ao valor especificado, em uma matriz previamente ordenada de forma crescente. A função CORRESP é parecida com as funções PROCV e PROCH com a diferença de retornar a posi- ção de um valor em um intervalo em vez do valor propriamente dito. O argumento matriz pode ser in- formado como um intervalo de células no qual foi registrada previamente a amostra, por exemplo, o in- tervalo B4:B14 da Figura 3.6; ou pode ser informado declarando todos os valores da amostra {31;38;19;27;24;42;32;18;43;15;39}. ORDEM(valor; amostra; ordem) A função estatística ORDEM10 retorna a posição do argumento valor da amostra, considerando a ordem informada: � Se ordem for igual a 0 ou omitida, os valores da amostra serão classificados em ordem decrescente. � Se ordem for diferente de 0, igual a 1, os valores da amostra serão classificados em ordem crescente. Se o argumento amostra tiver valores repetidos, a função ORDEM informará a posição do primeiro valor que encontrar na sua procura, considerando o ordenamento escolhido. ESTATÍSTICA USANDO EXCEL / LAPPONI98 9 Em inglês, a função CORRESP é MATCH. 10 Em inglês, a função ORDEM é RANK. ORDEM.PORCENTUAL( matriz; valor; núm_ decimais) A função estatística ORDEM.PORCENTUAL11 retorna o percentil do argumento valor, considerando a matriz ordenada de forma crescente. Se a matriz tiver valores repetidos, a função informará o percentil do primeiro valor que encontrar. O argumento núm_decimais define o número de casas decimais do re- sultado; se for omitido, o resultado terá três casas decimais. O argumento matriz pode ser informado em qualquer ordem, pois a função ORDEM.PORCENTUAL ordena os valores da amostra de forma crescente antes de calcular. O argumento matriz pode ser informado como um intervalo de células onde previamente foi registrada a amostra, por exemplo, o intervalo B4:B14 da Figura 3.6; ou pode ser informado declarando todos os valores da amostra {31;38;19;27;24;42;32;18;43;15;39}. PERCENTIL(matriz; k) A função estatística PERCENTIL12 retorna o valor que divide a matriz em duas partes, uma menor do que o argumento k e a outra maior do que k. O argumento k é um valor entre 0 e 1,0% e 100%, ou o valor do percentil em que a matriz ordenada será dividida. A função PERCENTIL ordena os valores da ma- triz de forma crescente antes de calcular. Nem sempre o resultado da função percentil é um valor da amostra. O argumento matriz pode ser informado como um intervalo de células no qual previamente foi registrada a amostra, por exemplo, o intervalo B4:B14 da Figura 3.6; ou pode ser informado como {31;38;19;27;24;42;32;18;43;15;39}, declarando todos os valores da amostra. QUARTIL(matriz; quarto) A função estatística QUARTIL13 retorna o valor da matriz correspondente ao argumento quarto identi- ficado da seguinte maneira: � Se quarto=0, a função retornará o primeiro ou menor valor da matriz. � Se quarto=1, 2 ou 3, a função retornará o valor da matriz correspondente e, respectivamente, ao pri- meiro, segundo ou terceiro quartil. � Se quarto=4, a função retornará o último ou maior valor da matriz. A função QUARTIL ordena os valores da matriz de forma crescente antes de calcular. Enquanto a fun- ção QUARTIL fornece resultados de posições definidas na amostra ordenada, a função PERCENTIL re- torna os resultados para qualquer posição de 0 a 1, ou 0% a 100%. No entanto, nem sempre o retorno da função QUARTIL é um dado da amostra. O argumento matriz pode ser informado como um intervalo de células no qual previamente foi registrada a amostra, por exemplo, o intervalo B4:B14 da Figura 3.6; ou pode ser informado declarando todos os valores da amostra {31;38;19;27;24;42;32;18;43;15;39}. MENOR(matriz; k-ésimo) A função estatística MENOR14 retorna o k-ésimo menor valor da matriz ordenada de forma crescente. Para uma mesma matriz, o resultado dessa função dependerá do valor do argumento k-ésimo: � Se k-ésimo=1, então o menor valor será o primeiro valor da matriz ordenada de forma crescente. � Se k-ésimo=2, então o menor valor será o segundo valor da matriz ordenada de forma crescente e as- sim sucessivamente, até o último valor da matriz. CAPÍTULO 3 / MEDIDAS DE TENDÊNCIA CENTRAL 99 11 Em inglês, a função ORDEM.PORCENTUAL é PERCENTRANK. 12 Em inglês, a função PERCENTIL é PERCENTILE. 13 Em inglês, a função QUARTIL é QUARTILE. 14 Em inglês, a função MENOR é SMALL. Na função MENOR, não é necessário informar a série ordenada de forma crescente. O argumento matriz pode ser informado como um intervalo de células no qual previamente foi registrada a amostra, por exemplo, o intervalo B4:B14 da Figura 3.6; ou pode ser informado declarando todos os valores da amostra {31;38;19;27;24;42;32;18;43;15;39}. MAIOR(matriz; k-ésimo) A função estatística MAIOR15 dá o k-ésimo maior valor da matriz ordenada de forma crescente. Para uma mesma matriz, o resultado dessa função dependerá do valor do argumento k-ésimo: � Se k-ésimo=1, então o maior valor da matriz será o último valor da matriz ordenada de formacres- cente. � Se k-ésimo=2, então o maior valor da matriz será o penúltimo valor da matriz e assim sucessivamen- te, até o primeiro valor da matriz. O argumento matriz pode ser informado como um intervalo de células no qual previamente foi re- gistrada a amostra, por exemplo, o intervalo B4:B14 da Figura 3.6; ou pode ser informado declarando todos os valores da amostra {31;38;19;27;24;42;32;18;43;15;39}. Na função MAIOR, não é necessário informar a série ordenada de forma crescente. ESTATÍSTICA USANDO EXCEL / LAPPONI100 FIGURA 3.6 Como utilizar as funções de ordenamento. 15 Em inglês, a função MAIOR é LARGE. Apêndice 2 O símbolo somatório Suponha uma amostra ou variável X com n dados ou observações identificados pela sequência de valo- res X X X Xi n1 2, , , , ,� � , onde X1 é o primeiro dado, X2 é o segundo dado, Xi é um dado qualquer da amostra, e assim sucessivamente, até o último dado Xn. A soma desses valores representada com X X X Xi n1 2+ + + + +� � se pode expressar simbolica- mente com X i i n = ∑ 1 , pois X i i n = ∑ = 1 X X X Xi n1 2+ + + + +� � . A letra grega Σ, sigma maiúscula, indica que devem ser somadas expressões da forma Xi começando com i=1 até i=n. Outro exemplo: a expressão simbólica da somaR = + + +2 2 2 21 2 3 4 éR X i i = = ∑ 1 4 =2 2 2 21 2 3 4+ + + . Vejamos algumas propriedades de interesse, tendo presente que as propriedades se aplicam sempre nos dois sentidos da igualdade. � O resultado de somar n vezes a constante c é o resultado do produto de n vezes a constante c. Com o símbolo somatório c n c i n = × = ∑ 1 . � Se cada valor da sequênciaX X X Xi n1 2, , , , ,� � for multiplicado pela constante c, o resultado dessa soma será cX c Xi i i n i n = × == ∑∑ 11 . � A soma algébrica das sequências X X X Xi n1 2, , , , ,� � e Y Y Y Yi n1 2, , , , ,� � é ( )X Y X Yi i n i i i i n i n = == ∑ ∑∑± = ± 1 11 . Há casos em que as propriedades anteriores do somatório são combi- nadas ( )cX Y cX Y c X Yi i n i i i i n i i i n i n i n = = === ∑ ∑ ∑∑∑+ = + = + 1 2 2 1 2 111 . � Somatórios múltiplos. A seguinte expressão é formada por três somatórios. X X X Xi j i i i iiiji , , , ,= + + ===== ∑∑∑∑∑ 1 2 3 1 3 1 3 1 3 1 3 1 3 Essa expressão desenvolvida é: X X X X X X X X X Xi j j , , , , , , , , , ,= + + + + + + + +1 1 1 2 1 3 2 1 2 2 2 3 3 1 3 2 3 3 == ∑∑ 1 3 1 3 i Essas expressões representam a soma dos dados da seguinte tabela, onde i representa a linha e j a co- luna. X1,1 X1,2 X1,3 X2,1 X2,2 X2,3 X3,1 X3,2 X3,3 CAPÍTULO 3 / MEDIDAS DE TENDÊNCIA CENTRAL 101 Apêndice 3 Prova do mínimo da soma dos quadrados dos desvios Denominando o desvio comoD e z a qualquer número possível de ser a média da amostraX, a soma dos quadrados dos desvios será medida com a expressão D X zi i n = − = ∑( ) 1 2 . Para calcular o mínimo dessa função, primeiro deve-se calcular a primeira derivada da função D. D X zX zi i i n = − + = ∑( )2 1 22 dD dz d dz X d dz zX d dz zi i n i i n i n = − + = = = ∑ ∑ ∑2 1 1 2 1 2 Depois, a primeira derivada deve ser igualada a zero. dD dz X zi i n i n = − + = = = ∑ ∑0 2 2 0 1 1 Na última expressão simplificada − + = = ∑X nzi i n 1 0, reconhecemos que a segunda parcela é a soma dos dados da amostra. O valor de z é o próprio valor da amostra de X já definido como z X n i i n = = ∑ 1 . O va- lor encontrado é realmente um mínimo, pois sua segunda derivada é positiva, como mostrado a seguir: d D dz d dz X nzi i n2 2 2 2 1 2 2= − +⎛ ⎝⎜ ⎞ ⎠⎟= ∑ d D dz n 2 2 2 0= > ESTATÍSTICA USANDO EXCEL / LAPPONI102 Apêndice 4 Funções de tendência central do Excel O cálculo das medidas de tendência central utilizando o Excel pode ser realizado utilizando expressões matemáticas e procedimentos combinados com os recursos da planilha e funções estatísticas. Na plani- lha Funções de Tendência Central, incluída na pasta Capítulo 3, está registrada a utilização de cada função utilizando a amostra do Exemplo 3.15, como se pode ver na Figura 3.7. Uma característica co- mum das funções a seguir, exceto a função MÉDIA.INTERNA, são os 30 argumentos (núm1; núm2; ... ; núm30) utilizados para registrar os valores de intervalos. Na apresentação da primeira função SOMA, será mostrado como utilizar esses argumentos, procedimentos que se repetem com as demais funções com o mesmo tipo de argumentos. As sintaxes dessas funções estatísticas são apresentadas a seguir. SOMA(núm1; núm2; ... ; núm30) A função matemática SOMA16 retorna a soma dos valores numéricos núm1; núm2; ... ; núm30. Cada um desses núm pode ser um intervalo de células de uma planilha contendo valores numéricos ou asseme- lhados.17 Por exemplo, a função SOMA aplicada aos valores da amostra do Exemplo 3.15 dá como re- sultado 352. Para obter esse resultado, a função SOMA pode ser utilizada das seguintes maneiras, Figu- ra 3.7: � Registrando os valores da amostra em um intervalo de células da planilha. � Se os valores da variável estiverem registrados em um único intervalo, ou intervalos contíguos, apenas será necessário informar um único intervalo no argumento num1. Por exemplo, na célula F6 foi registrada a fórmula =SOMA(B4:C17), Figura 3.7. � Se os valores da variável estiverem registrados em intervalos não adjacentes, será necessário in- formar o endereço de cada intervalo no lugar de cada núm de núm1; núm2; ... ; núm30, até um má- ximo de 30. Por exemplo, a fórmula =SOMA(B4:C8;B9:B17;C9:C15) registrada na célula F7 tem três intervalos nos três primeiros argumentos da função SOMA núm1; núm2; núm3. � Registrando os valores da amostra como matriz na própria fórmula da função, evitando registrar os valores da amostra em um intervalo de células da planilha. � Na célula G6, os valores foram registrados em uma única matriz: =SOMA({14;12;13;11;12;13;16;14;14;15;17;14;11;13;14;15; 13;12;14;13;14;13;15;16;12;12}) � Na célula G7, os valores foram registrados em quatro matrizes: =SOMA({14;12;13;11};{12;13;16;14;14;15;17;14;11;13}; {14;15;13;12;14;13;14;13;15};{16;12;12}) correspondentes aos quatro primeiros argumentos da função SOMA núm1; núm2; núm3; núm4. CAPÍTULO 3 / MEDIDAS DE TENDÊNCIA CENTRAL 103 16 Em inglês, a função SOMA é SUM. 17 Assemelhados são os intervalos definidos por nomes, valores lógicos, representações em forma de texto de números; por exem- plo, com a função de texto VALOR("10")=10. MÉDIA(núm1; núm2; ... ; núm30) A função estatística MÉDIA18 retorna a média aritmética dos valores numéricos núm1; núm2; ... ; núm30. Cada um desses núm pode ser um intervalo de células de uma planilha contendo valores numé- ricos ou assemelhados. Um detalhe importante: se o nome da função MÉDIA for inserido com letras minúsculas ou maiúsculas sem o acento ortográfico, o Excel aceitará e registrará a função com letras maiúsculas e com o acento ortográfico. A função MÉDIA pode ser registrada de diversas formas equi- valentes às descritas na função SOMA menciona anteriormente, Figura 3.7. MÉDIAA(núm1; núm2; ... ; núm30) A função estatística MEDIAA19 é equivalente à função anterior MÉDIA. A diferença está relacionada com os valores registrados nos argumentos núm1; núm2; ... ; núm30 que, nesta função, além de núme- ros, podem ser valores lógicos e de texto, como VERDADEIRO e FALSO. Deixamos para o leitor pes- quisar na Ajuda do Excel. MED(núm1; núm2; ... ; núm30) A função estatística MED20 retorna a mediana dos valores numéricos núm1; núm2; ... ; núm30. Cada um dos núm pode ser um intervalo de células de uma planilha contendo valores numéricos ou assemelha- dos. A função MED pode ser registrada de diversas formas equivalentes às descritas na função SOMA anteriormente, Figura 3.7. MODO(núm1; núm2; ... ; núm30) A função estatística MODO21 retorna o modo dos valores numéricos núm1; núm2; ... ; núm30. Cada um desses núm pode ser um intervalo de células de uma planilha que contém valores numéricos ou asseme- ESTATÍSTICA USANDO EXCEL / LAPPONI104 18 Em inglês, a função MÉDIAé AVERAGE. 19 Em inglês, a função MEDIAA é AVERAGEA. 20 Em inglês, a função MED é MEDIAN. 21 Em inglês, a função MODO é MODE. FIGURA 3.7 Como utilizar as funções de tendência central. lhados. Quando a série tem mais de uma moda, a função reconhece apenas uma delas. A função MOD pode ser registrada de diversas formas equivalentes às descritas na função SOMA anteriormente, Figu- ra 3.7. MÉDIA.GEOMÉTRICA(núm1; núm2; ... ; núm30) A função estatística MÉDIA.GEOMÉTRICA22 retorna a média geométrica dos valores da amostra. Cada um dos núm pode ser um intervalo de células de uma planilha que contém valores numéricos ou asse- melhados. A média geométricaMg é definida comoMg X X X n n= × × ×( )1 2 1� com os valoresXi mai- ores do que zero. Comparando com a média aritmética: � A média geométrica é menos afetada por valores extremos. � A média geométrica é uma medida mais central quando os valores da variável apresentam uma taxa constante de crescimento. � Para um mesmo grupo de valores, a média geométrica é sempre menor do que a média aritmética. A função MÉDIA.GEOMÉTRICA pode ser registrada de diversas formas equivalentes às descritas na função SOMA anteriormente, Figura 3.7. Uma aplicação frequente da média geométrica é o cálculo da taxa equivalente de juros de uma operação financeira formada por n operações com taxas de juros dife- rentes, como mostrado no Capítulo 16, utilizando a fórmula: ( )Mg i i in n= + × + × × +( ) ( ) ( )1 1 11 2 1� i Mg= − 1 MÉDIA.HARMÔNICA(núm1; núm2; ... ; núm30) A função estatística MÉDIA.HARMÔNICA23 retorna a média harmônica dos valores da amostra. Cada um dos núm pode ser um intervalo de células de uma planilha que contém valores numéricos ou asse- melhados. Amédia harmônica é uma medida útil quando os valores se referem a mudanças de uma mag- nitude, e seu valor é sempre menor do que o da média geométrica do mesmo conjunto de valores. � Amédiaharmônica é a inversa da média aritmética das inversas dos valores da amostra:Mh n X ii n = × = ∑ 1 1 1 1 . � De outra maneira, a inversa da média harmônica Mh é a média da inversa dos valores da amostra: 1 1 1 1Mh n X ii n = × = ∑ . A função MÉDIA.HARMÔNICA pode ser registrada de diversas formas equivalentes às descritas na função SOMA anteriormente, Figura 3.7. MÉDIA.INTERNA(matriz; porcentagem) A função estatística MÉDIA.INTERNA24 retorna a média aritmética da matriz de valores, tendo previa- mente excluído, de ambos extremos damatriz, uma porcentagem de valores informada como valor uni- tário. É uma média reduzida útil para remover dados extremos, suspeitos, de uma amostra. CAPÍTULO 3 / MEDIDAS DE TENDÊNCIA CENTRAL 105 22 Em inglês, MÉDIA.GEOMÉTRICA é GEOMEAN. 23 Em inglês, MÉDIA.HARMÔNICA é HARMEAN. 24 Em inglês, MÉDIA.INTERNA é TRIMMEAN. Capítulo 4 MEDIDAS DE DISPERSÃO No Capítulo 3, foi mostrado que a média e a mediana determinam um valor central de uma amostra ou variável. Enquanto a mediana localiza a posição do dado ou observação situada no centro da amostra ordenada de forma crescente, e sem considerar os valores da variável, a média determina o va- lor central considerando todos os valores da variável. Por exemplo, as amostras X={28, 29, 30, 31, 32} e Y={21, 25, 29, 34, 41} têm o mesmo número de dados e, também, a mesma média 30. Entretanto, os desvios são diferentes, pois os desvios da variável X são –2, –1, 0, 1 e 2, e os desvios da variável Y são –9, –5, –1, 4 e 11. A comparação dessas duas amostras aponta a variabilidade ou dispersão de seus dados com relação à média como uma medida importante para descrever uma amostra ou variável. Esse ra- ciocínio poderia ser repetido em variáveis com medianas iguais, porém com menor aplicação do que a média. Você deve ter em mente que, se não houver variabilidade, a maior parte das medidas estatísticas não teria utilidade. Há várias formas de medir a variabilidade dos dados de uma variável. Uma pri- meira tentativa é medir o intervalo ou range de variação, definido como o resultado da diferença entre os valores máximo e mínimo da amostra ou variável, como apresentado no Exemplo 2.1 do Capítulo 2. EXEMPLO 4.1 Determine o intervalo de variação da seguinte amostra: 31 38 19 27 24 42 32 18 43 15 39 Solução. Os valores mínimo e máximo são, respectivamente, 15 e 43. O intervalo ou range de variação dos dados da amostra é 28=43–15. O resultado do Exemplo 4.1 mostra que os dados da amostra se distribuem dentro do intervalo de variação igual a 28. O conhecimento desse intervalo não auxilia muito na tentativa de medir a disper- são dos dados da variável, pois seu cálculo envolve apenas os valores extremos, deixando de considerar os demais valores da variável que também são importantes. Desvio absoluto médio No Capítulo 3, vimos que os desvios dos dados de uma amostra ou variável medem sua dispersão ao re- dor de sua média. Portanto, a tentativa inicial de quantificar a variabilidade seria calcular a soma de to- dos os desvios, isto é ( )X Xi i n − = ∑ 1 . No entanto, pela primeira propriedade da média, a soma dos desvios é sempre igual a zero. Tentando manter o conceito desvio como medida de variabilidade, pode-se utili- zar a média dos valores absolutos1 dos desvios, procedimento denominado desvio absoluto médio ou simplesmente DAM.2 O Desvio absoluto médio-DAM é obtido da expressão: ( )DAM n X X X X X Xn= × − + − + + − 1 1 2| | | | | |� DAM n X Xi i n = × − = ∑1 1 | | onde Xi é um valor genérico e X é a média da variável ou amostra. EXEMPLO 4.2 Calcule o desvio absoluto médio da amostra do Exemplo 4.1. Solução. A resposta foi obtida na planilha Exemplo 4.2, incluída na pasta Capítulo 4, como mostra a figura a seguir. � No intervalo B4:B14 foi registrada a amostra. � Na célula G5, foi calculada a média da amostra com =MÉDIA(B4:B14), retornando o valor 29,82. � Na célula C6 foi calculado o desvio do dado 31 da amostra registrando a fórmula =B4-$G$5, retornando o valor 1,18. Depois, essa fórmula foi copiada até a célula C14. � O valor de média que mostra a célula G5 é 29,82, valor arredondado com duas casas decimais. Entretan- to, o valor exato e registrado na memória do Excel é 29,8181818181818. Ao mesmo tempo, no cálculo dos desvios, o Excel utiliza o valor exato da média. Portanto, você poderá encontrar diferenças entre o re- sultado final do DAM obtido manualmente com a média e os desvios arredondados e o obtido com o Excel sem arredondar nenhum resultado intermediário. � Na célula D4, foi calculado o valor absoluto do desvio do dado 31, calculado na célula C4, registrando a fór- mula =ABS(C4) que retornou o valor 1,18. Depois essa fórmula foi copiada até a célula D14. � Em vez de utilizar duas colunas para calcular o desvio absoluto, poderia ter sido utilizada uma única co- luna registrando na célula C4; por exemplo, a fórmula combinada =ABS(B4-$G$5) que depois seria co- piada. � A função matemática ABS(número)3 retorna o valor absoluto do argumento número que pode ser qual- quer número do campo real. Pode-se dizer que o valor absoluto de um número é o próprio número sem o respectivo sinal, seja positivo ou negativo. � Na célula G6 foi registrada a fórmula =SOMA(D4:D14) que retorna o resultado da soma dos desvios absolu- tos igual a 92,18. ESTATÍSTICA USANDO EXCEL / LAPPONI108 1 O valor absoluto de um número é o valor desse número considerado positivo. 2 Este procedimento é apenas um registro, pois o DAM não ajuda na compreensão da dispersão, nem apresenta as vantagens matemá- ticas da variância e do desvio padrão. 3 Em inglês, a função ABS é ABS. Com os resultados parciais obtidos, pode-se calcular o DAM=8,38: � Manualmente a fórmula DAM X Xi i= − = == ∑ | | , ,1 11 11 92 18 11 8 38 � Registrando a fórmula =G6/CONT.NÚM(D4:D14) na célula G7 da planilha. Uma forma direta de obter o resultado desejado é utilizar a função estatística DESV.MÉDIO do Excel que retorna o desvio absoluto médio da amostra informada. Na célula G9 foi registrada a fórmula =DESV.MÉDIO(B4:B14). No Apên- dice 1, você encontrará a descriçãocompleta dessa e de outras funções que serão apresentadas neste capítulo. Comparado com a tentativa de medir a variabilidade com o intervalo, o DAM é a média dos desvios absolutos e utiliza todos os valores da variável ou amostra. Entretanto, o valor absoluto dos desvios é um resultado difícil de compreender e não aceita tratamento matemático com as propriedades, por exemplo, do quadrado do desvio que será utilizado a seguir. Variância Mantendo os desvios para medir a variabilidade de uma variável, o procedimento recomendado é utili- zar a soma dos quadrados dos desvios, pois seu resultado é um valor mínimo, como mostrou a segunda propriedade da média apresentada no Capítulo 3. Seja a variável X X X XN= 1 2, , ,� uma população. Define-se variância σ X 2 da variável X da população contendo N dados: ( )σ μ μ μX X X n XN X X X2 1 2 2 2 21 = × − + − + + −( ) ( ) ( )� σ μX i X i N N X2 2 1 1 = − = ∑( ) Seja a variável X X X Xn= 1 2, , ,� uma amostra. Define-se a variância S X 2 da variável X da amostra contendo n dados: ( )S n X X X X X XX n 2 1 2 2 2 21 1 = − × − + − + + −( ) ( ) ( )� S n X XX i i n 2 2 1 1 1 = − − = ∑( ) CAPÍTULO 4 / MEDIDAS DE DISPERSÃO 109 EXEMPLO 4.3 Calcule a variância da amostra e da população do Exemplo 4.1 utilizando as fórmulas e as funções estatísticas do Excel. Solução. A resposta foi obtida na planilha Exemplo 4.3, incluída na pasta Capítulo 4, como mostra a figura seguinte e tendo presente as características de arredondamento dos resultados intermediários e finais já co- mentadas. � No intervalo B4:B14 foi registrada a amostra, na célula G4 foi calculada quantidade de dados da amostra e na célula G5 foi calculada a média da amostra utilizando a fórmula =MÉDIA(B4:B14). � No intervalo C4:C14 foram calculados os desvios e no intervalo D4:D14, os quadrados dos desvios come- çando por registrar a fórmula =C4^2 na célula D4. Depois essa fórmula foi copiada até a célula D14. � Na célula G8 foi calculada e registrada a soma dos quadrados dos desvios igual a 997,64 com a fórmula =SOMA(D4:D14). � Utilizando a função matemática SOMAQUAD não é necessário construir a coluna dos quadrados dos des- vios. A fórmula =SOMAQUAD(C4:C14) registrada na célula G9 retorna a soma dos quadrados dos valores registrados no intervalo C4:C14. No Apêndice 1, você encontrará a descrição completa dessa e de outras funções que serão apresentadas. Cálculo da variância da amostra. Com os resultados parciais obtidos, pode-se calcular o valor da variância da amostraSX 2 99 76= , , utilizando: � Manualmente a fórmula S X X X i i2 2 1 11 11 1 997 64 10 99 76= − − = == ∑ ( ) , , � Registrando a fórmula =G8/(G4-1) na célula G12 da planilha. � Utilizando a função estatística VAR, registrando a fórmula =VAR(B4:B14) na célula G13. Cálculo da variância da população. Com os resultados parciais obtidos, pode-se calcular o valor da va- riância da amostra σX 2 90 69= , , utilizando: � Manualmente a fórmula σ μ X i X i X 2 2 1 11 11 997 64 11 90 69= − = == ∑ ( ) , , � Registrando a fórmula =G8/G4 na célula G16 da planilha. � Utilizando a função estatística VARP, registrando na célula G17 a fórmula =VARP(B4:B14). ESTATÍSTICA USANDO EXCEL / LAPPONI110 O procedimento de cálculo manual da variância é bastante trabalhoso quando comparado com a utiliza- ção das funções estatísticas do Excel; entretanto, essas funções apenas auxiliam o cálculo e podem obscure- cer o conceito. O Apêndice 3 deste capítulo mostra como utilizar doze funções para banco de dados ou lis- tas de valores, conhecidas genericamente como BDfunções(banco_dados; campo; critérios). Algumas dessas doze funções são equivalentes às apresentadas. Ademais, esse apêndice apresenta também as funções SUBTOTAL, CONT.SE e SOMASE úteis para realizar operações com bancos de dados ou listas de valores. Relação entre as variâncias A partir das definições das variâncias da amostra e da população, o Exemplo 4.3 mostra os procedimen- tos de cálculo, incluindo as funções estatísticas VAR e VARP. Verifique que uma das variâncias pode ser obtida da outra se o tamanho da amostra também for conhecido. Para facilitar a relação entre as va- riâncias da população e da amostra repetimos a seguir suas fórmulas. ( )X Ni i N X X = ∑ − = × 1 2 2μ σ ( ) ( )X X n Si i n X = ∑ − = − × 1 2 21 Como os dois primeiros membros dessas expressões são iguais, é possível igualar os dois segundos membros, o que nos leva à seguinte igualdade: N n SX X× = − ×σ 2 21( ) Portanto, conhecida uma das variâncias, é possível calcular a outra, sendo necessário também co- nhecer o tamanho da amostra. σ X X n N S2 21 = − × ( ) e S N nX X 2 2 1 = − × σ EXEMPLO 4.4 Calcule a variância da população a partir da variância da amostra do Exemplo 4.3, sabendo que o tamanho da amostra é 11. Solução. A variância da população σX 2 = 90,69 pode ser obtida com a fórmula: σX X n N S2 21= − × σX 2 10 11 99 76 90 69= × =, , Em vez de tentar memorizar a fórmula de transformação entre as variâncias, recomenda-se ter pre- sente a seguinte orientação: � A variância da amostra foi obtida como resultado da divisão da soma dos quadrados dos desvios pela quantidade de valores da amostra (n–1). Para obter o valor da variância da população, será necessá- rio multiplicar a variância da amostra por (n–1) e, em sequência, dividi-la por n. � A variância da amostra será o resultado da multiplicação da variância da população por n e, em se- quência, divida-a por (n–1). CAPÍTULO 4 / MEDIDAS DE DISPERSÃO 111 Características da variância O procedimento de cálculo utilizando a soma dos quadrados dos desvios é bastante trabalhoso. No Apêndice 2, mostramos um procedimento de cálculo da variância que utiliza somente os dados da amostra e os quadrados desses dados, não sendo necessário utilizar a média e os desvios. Contudo, esse procedimento de cálculo perde força quando comparado com a utilização das funções estatísticas do Excel. A fórmula e o resultado da variância têm características importantes. � A variância é sempre um número positivo. � As fórmulas para a amostra e para a população têm o mesmo numerador, a soma dos quadrados dos desvios. � A variância de uma variável considerada como população é a média aritmética dos quadrados dos desvios. � A variância de uma variável considerada como amostra é também um tipo de média, pois a soma dos quadrados dos desvios é dividida pela quantidade de dados da variável menos um.4 � Para a mesma amostra de tamanho n, a variância da amostra é sempre maior do que a da população. Na medida em que o tamanho n da amostra aumenta, para n maior do que 30, o valor da variância da amostra se aproxima do valor da variância da população. � Da mesma forma que a média, a variância é afetada pelos valores extremos da variável, ela não é uma medida resistente. � Uma desvantagem da variância é sua unidade de medida, o quadrado da unidade de medida dos da- dos da amostra ou variável; outra desvantagem é operar com os valores dos desvios ampliados, pois os desvios são elevados ao quadrado. Regras operacionais da variância Há propriedades operacionais muito práticas. Para evitar muitos símbolos nas fórmulas, as variâncias serão representadas como Var(X). Sendo a, b e c constantes, sempre se verifica: � Se Y = a, Var(Y) = 0 � Se Y = aX, Var(Y) = a2 Var(X) � Se Y = X + a, Var(Y) = Var(X) � Se Y = X + Z, Var(Y) = Var(X) + Var(Z) + 2 Cov(X, Z) � Se Y = aX + bZ, Var(Y) = a2 Var(X) + b2 Var(Z) + 2 ab Cov(X, Z) Desvio padrão Para definir da variância nos valemos da segunda propriedade da média: a soma dos quadrados dos des- vios é sempre um valor mínimo, como foi apresentado no Capítulo 3. Uma desvantagem da variância é sua unidade de medida, o quadrado da unidade de medida dos dados da amostra ou variável; outra des- vantagem é ampliar os desvios, pois são elevados ao quadrado. Por exemplo, se a amostra do Exemplo 4.3 se refere a peças rejeitadas por lote, a unidade de medida da variância da amostra será 99,76peças rejeitadas ao quadrado, o que não faz muito sentido. Como a unidade de medida da variância não expli- ca nada sobre as características dos valores da amostra, é definido o desvio padrão que mantém a unida- de de medida dos valores da variável. ESTATÍSTICA USANDO EXCEL / LAPPONI112 4 No cálculo da variância da amostra S2, deve-se dividir por (n-1) em vez de n para corrigir a tendência de S2 subestimar 2; para que S2 seja um estimador não viesado. O desvio padrão da variável X é a raiz quadrada positiva de sua variância. Dessa maneira: O desvio padrão considerado como população é: σ σX X= + 2 . O desvio padrão considerado como amostra é: S SX X= + 2 . Essas definições mostram que para determinar o desvio padrão é necessário conhecer o valor da va- riância correspondente, da amostra ou da população. EXEMPLO 4.4 Calcular o desvio padrão da amostra e da população do Exemplo 4.1 utilizando as fórmulas e as funções esta- tísticas do Excel. Solução. A resposta foi obtida na planilha Exemplo 4.4, incluída na pasta Capítulo 4, como mostra a figura a seguir e tendo presente as características de arredondamento dos resultados intermediários e finais já co- mentadas. O registro da amostra, os cálculos dos resultados intermediários e a obtenção dos valores das va- riâncias da amostra e da população foram realizados da mesma forma como foi apresentado no Exemplo 4.3. Esse procedimento é necessário para mostrar o cálculo do desvio padrão a partir de sua definição, ou a partir do conhecimento da variância correspondente, amostra ou população. No entanto, esse procedimento de cálculo perde força quando comparado com a utilização das funções estatísticas do Excel. Cálculo do desvio padrão da amostra. O valor do desvio padrão da amostraSX = 9 99, pode ser obtido: � Manualmente a fórmula S SX X= + = + =2 99 76 9 99, , � Registrando a fórmula =RAIZ(G7) na célula G11 da planilha. � A função matemática RAIZ(número)5 retorna a raiz quadrada positiva do argumento número que deve ser qualquer número positivo. � Utilizando a função estatística DESVPAD ao registrar na célula G12 a fórmula =DESVPAD(B4:B14). Cálculo do desvio padrão da população. O valor da desvio padrão da população σX = 9 52, pode ser obtido: � Manualmente pela fórmula σ σX X= + = + =2 90 69 9 52, , � Registrando a fórmula =RAIZ(G8) na célula G15 da planilha. � Utilizando a função estatística DESVPADP ao registrar na célula G16 a fórmula =DESVPADP(B4:B14). CAPÍTULO 4 / MEDIDAS DE DISPERSÃO 113 5 Em inglês, a função RAIZ é SQRT. Se a amostra do Exemplo 4.4 se refere à quantidade mensal de peças rejeitadas, o desvio padrão da amostra será 9,99 peças rejeitadas, pois o desvio padrão tem a mesma unidade dos dados da amostra ou variável. Da mesma maneira, o desvio padrão da população é σ X = + =90 69 9 52, , peças rejeitadas. O procedimento de cálculo manual do desvio padrão é bastante trabalhoso quando comparado com a uti- lização das funções estatísticas do Excel; entretanto, essas funções apenas auxiliam o cálculo e podem obscurecer o conceito. Relação entre os desvios padrão A partir das definições dos desvios padrão da amostra e da população, o Exemplo 4.4 mostra os proce- dimentos de cálculo, incluindo as funções estatísticas DESVPAD e DESVPADP. Nesse caso, também, verifica-se que um dos desvios padrão pode ser obtido do outro se o tamanho da amostra também for conhecido. Em alguns casos é necessário operar com os valores do desvio padrão da população e do desvio padrão da amostra de uma variável, tentando sempre usar uma forma prática de obter um valor do outro. Da mesma forma como foi mostrada a relação entre a variância da amostra e a variância da população, as expressões a seguir mostram a relação entre os desvios padrão da população e da amostra. σ X X n N S= − × 1 e S N nX X= − × 1 σ O procedimento recomendado para obter o valor de um desvio padrão em função do outro é, pri- meiro, realizar essa operação com as variâncias equivalentes, evitando carregar uma fórmula com o símbolo de raiz quadrada. Da mesma forma que a variância, as características do desvio padrão são: � O desvio padrão é sempre um número positivo. � Se os dados de uma variável forem iguais, o desvio padrão será zero. � O desvio padrão não é uma medida resistente, pois é afetada pelos valores extremos da variável. Significado do desvio padrão O desvio padrão depende da soma dos quadrados dos desvios dos dados da variável com relação a sua média. Portanto, quanto menor for o desvio padrão, mais os valores da variável se aproximarão de sua média. Analisando a expressão do desvio padrão, podemos chegar a conclusões importantes: � Qualquer dado da amostra ou variável com desvio menor do que o desvio padrão da variável estará mais próximo da média do que qualquer outro valor com desvio maior. � Quanto mais os dados se afastarem da média, maior serão os desvios e, consequentemente, maior será o desvio padrão da variável. � Duas variáveis com médias iguais e desvios padrão diferentes têm distribuições de frequências com formas diferentes. A distribuição da variável com maior desvio padrão será mais aberta do que a da variável com menor desvio padrão. Qual a proporção de dados incluídos em um intervalo de desvios padrão ao redor da média de uma variável ou amostra? O Teorema de Chebyshev dá uma resposta para uma variável com qualquer tipo de distribuição de frequências. ESTATÍSTICA USANDO EXCEL / LAPPONI114 Teorema de Chebyshev. Para qualquer conjunto de dados de uma amostra ou população, a proporção mínima de valores que se encontram dentro de k desvios padrão ao redor da média é pelo menos igual a 1 1 2− k , sendo k uma constante maior do que 1. A próxima tabela mostra a proporção mínima de dados dentro de k desvios padrão ao redor da mé- dia. Por exemplo, 75% dos dados de uma amostra ou variável estão distribuídos no intervalo de dois desvios padrão ao redor da média; entre menos dois e mais dois desvios padrão ao redor da média. 1,5 2 2,5 3 3,5 4 0,56 0,75 0,84 0,89 0,92 0,94 Outro exemplo, pelo menos sete dos onze dados da amostra do Exemplo 4.1 estão distribuídos no intervalo de dois desvios padrão ao redor da média 29,8; isto é, entre menos dois desvios padrão (9,8=29,8–2×9,99) e mais dois desvios padrão (49,8=29,8+29,99) ao redor da média. Verifique que no Exemplo 4.1 todos os dados estão distribuídos no intervalo de dois desvios padrão ao redor da média. Regra prática Pelo teorema de Chebyshev, é possível determinar a proporção mínima de dados de uma variável dentro de um determinado número de desvios padrão ao redor da média. A partir da média X e o desvio padrão SX de uma amostra ou variável X, a Regra Prática permite estabelecer a proporção de valores distribuídos no intervalo X k SX± × , considerando a forma da distribuição de frequências da variável X. Regra Prática A variável X tem n dados com média X e desvio padrão SX. X SX± ×1 . Em uma distribuição simétrica com forma de sino, a porcentagem de da- dos contidos no intervalo de um desvio padrão ao redor da média é 68%. Para uma distribuição assimétrica com acentuada inclinação para um lado, essa porcentagem se aproxima de 90%. X SX± ×2 . Em uma distribuição simétrica com forma de sino, a porcentagem de da- dos contidos no intervalo de dois desvios padrão ao redor da média é 95%. Para uma distribuição assimétrica com acentuada inclinação para um lado, a porcentagem se aproxima de 100%. X SX± ×3 . Para todas as distribuições, a porcentagem de dados contidos no intervalo de três desvios padrão ao redor da média será próxima de 100%. A Regra Prática atende à maioria das distribuições; entretanto, há casos em que será necessário cons- truir o histograma para conhecer a forma da distribuição da amostra. A partir das conclusões obtidas da aplicação da Regra Prática, será possível determinar a forma do histograma, da distribuição de fre- quências dos dados como mostra o Exemplo 4.5. CAPÍTULO 4 / MEDIDAS DE DISPERSÃO 115 EXEMPLO 4.5 Determine a porcentagem dos dados daamostra do Exemplo 4.1 incluídos no intervalo de um, dois e três des- vios padrão ao redor da média. Solução. Na planilha Exemplo 4.5, incluída na pasta Capítulo 4, foram determinadas as quantidades de dados incluídos nos intervalos de um, dois e três desvios padrão ao redor da média, como mostra a figura se- guinte. � Na célula H5, foi calculada a quantidade de dados, na célula H6, a média e, na célula H7, o desvio padrão da amostra utilizando as funções estatísticas correspondentes. � No intervalo H10:J11, foram calculados os valores dos limites inferiores e superiores dos intervalos de um, dois e três desvios padrão ao redor da média, acompanhando a expressão X k SX± × cujas fórmulas do pri- meiro intervalo são as seguintes: � Com a fórmula =H6-H7 registrada na célula H10, foi calculado o limite inferior do intervalo de um desvio padrão. � Com a fórmula =H6+H7 registrada na célula H11, foi calculado o limite superior do intervalo de um des- vio padrão. Para os demais limites, procede-se da mesma forma, considerando o número de desvios pa- drão adequados. Com os limites estabelecidos, nas colunas do intervalo C4:E14, são selecionados os dados contidos em cada intervalo utilizando as seguintes fórmulas: � Um desvio padrão ao redor da média, coluna C. Na célula C4 foi registrada a fórmula =SE(E(B4>=$H$10;B4<=$H$11);1;0), que depois foi copiada até a célula C14. � Dois desvios padrão ao redor da média, coluna D. Na célula D4 foi registrada a fórmula =SE(E(B4>=$I$10;C4<=$I$11);1;0), que depois foi copiada até a célula D14. � Três desvios padrão ao redor da média, coluna E. Na célula E4 foi registrada a fórmula =SE(E(B4>=$J$10;D4<=$J$11);1;0), que depois foi copiada até a célula E14. Para terminar, no intervalo H12:J12 são contados os dados contidos no intervalo de um, dois e três desvios padrão ao redor da média, e no intervalo H13:J13 são calculadas as respectivas porcentagens, obtendo os se- guintes resultados X SX± ×1 =73%, X SX± ×2 =91% e X SX± ×3 =100%. Portanto, 73%, 91% e 100% dos da- dos ou observações se distribuem, respectivamente, no intervalo de um, dois e três desvios padrão ao redor da média. Medida relativa de dispersão O desvio padrão tem duas características importantes:6 6 A variância também tem essas duas características. ESTATÍSTICA USANDO EXCEL / LAPPONI116 � Considera que os desvios se distribuem de forma homogênea ao redor da média. � É uma medida absoluta. A comparação da dispersão de duas ou mais distribuições pelo simples confronto de seus desvios pa- drão nem sempre é suficiente, pois as amostras ou populações podem ter unidades diferentes ou, tendo a mesma unidade, seus valores de média podem estar bastante afastados. O coeficiente de variação CV é o resultado de dividir o desvio padrão da variável pela sua média: CVpop X X = σ μ CV S Xamo X= A medida relativa de dispersão coeficiente de variação CV permite a comparação de distribuições, pois seu resultado é o desvio padrão por unidade de média. Em alguns casos, o resultado do CV é apre- sentado multiplicado por 100, em porcentagem. Comparando duas variáveis, a variável que tiver me- nor CV tem menor dispersão ou variabilidade. EXEMPLO 4.6 A tabela a seguir registra os retornos mensais dos investimentos A e B durante os últimos seis meses. Interessa conhecer qual dos dois investimentos apresentou maior dispersão. Solução. Na planilha Exemplo 4.6, incluída na pasta Capítulo 4, foi resolvido o exemplo, começando pelo cálculo das médias e dos desvios padrão dos retornos dos dois investimentos e terminando pelo cálculo do co- eficiente de variação de cada investimento. Como o CV do investimento A é maior do que o CV do investimento B, a variabilidade7 do investimento A foi maior do que a do investimento B. Análise da forma da distribuição de uma amostra Como nem todas as amostras ou variáveis têm moda ou um único valor de moda, a mediana e a média são as medidas mais usuais de tendência central. Em uma distribuição simétrica de frequências, a mé- dia e a mediana têm o mesmo valor. Se os valores da média e da mediana forem diferentes, a distribui- ção será assimétrica e quanto mais os valores da média e da mediana se afastarem, maior será a inclina- CAPÍTULO 4 / MEDIDAS DE DISPERSÃO 117 7 Em finanças, a variabilidade é o risco do investimento; o investimento A apresentou mais risco do que o investimento B. ção da distribuição na direção de uma das caudas. Por exemplo, se um ou mais dados da amostra forem valores maiores do que a maioria dos demais dados, então a média será maior do que a mediana e a dis- tribuição de frequências terá inclinação direita ou positiva, conforme mostra a Figura 4.1. Da mesma forma, é possível analisar para o lado esquerdo. A inclinação de uma distribuição é medida pelo coefi- ciente de inclinação da distribuição. Apesar de duas amostras ou variáveis apresentarem a mesma dispersão e inclinação, essas caracte- rísticas não serão suficientes para supor que as duas distribuições tenham a mesma forma, atributo de- nominado curtose. A curtose é medida pelo coeficiente de curtose que compara a distribuição de fre- quências da amostra com a distribuição normal. EXEMPLO 4.7 A tabela a seguir registra uma amostra ordenada de 28 retornos de diversos investimentos no mesmo período. Calcule e analise a forma da distribuição dessa amostra. –2,1% 10,1% 10,6% 16,3% 16,3% 20,4% 21,0% 23,6% 24,7% 24,8% 26,2% 26,6% 27,0% 27,8% 28,6% 30,2% 30,3% 30,7% 32,0% 32,5% 32,6% 34,3% 35,5% 36,7% 52,9% 59,5% 76,2% 114,7% Solução. Na planilha Exemplo 4.7, incluída na pasta Capítulo 4, foi analisada a forma da distribuição da amostra anterior registrada no intervalo B4:C17, como mostra a figura seguinte. Analisemos os resultados re- gistrados nessa planilha. � O histograma foi construído utilizando a ferramenta de análise Histograma, depois de ajustar a formata- ção do gráfico, os títulos e as escalas. O histograma mostra que a distribuição apresenta inclinação para a direita. � No intervalo F14:F15, foram calculadas a média e a mediana, respectivamente iguais a 32,1% e 28,2%. Como a média é maior do que a mediana, a distribuição tem inclinação para a direita. � O coeficiente de inclinação igual a 2,24 foi calculado com a função estatística DISTORÇÃO do Excel, regis- trando a fórmula =DISTORÇÃO(B4:C17) na célula F16. O resultado positivo mostra que a distribuição tem inclinação para a direita. Se o resultado fosse negativo, a inclinação seria negativa, e se fosse igual a zero, a distribuição seria simétrica. � DISTORÇÃO (núm1; núm2; ... ; núm30) A função estatística DISTORÇÃO (núm1; núm2; ... ; núm30) retorna o coeficiente de inclinação dos valo- res numéricos núm1; núm2; ... ; núm30. Cada um desses núm pode ser um intervalo de células de uma planilha contendo valores numéricos ou assemelhados. Nesse exemplo, a amostra do intervalo B4:C17 foi registrado no primeiro argumento núm1. Mais informações sobre essa função e outras formas de utili- zá-la estão disponíveis no Apêndice 1deste capítulo. ESTATÍSTICA USANDO EXCEL / LAPPONI118 Simétrica Inclinação direita Inclinação esquerda FIGURA 4.1 Distribuições de frequências, simétrica e inclinada. � O coeficiente de curtose igual a 6,94 foi calculado com a função estatística CURT do Excel registrando a fór- mula =CURT(B4:C17) na célula F17. O resultado positivo mostra que a distribuição de frequências será con- centrada ao redor da média, distribuição com pico. Se o resultado fosse negativo, a distribuição seria acha- tada, plana, e se fosse igual a zero, a distribuição de frequências seria a própria distribuição normal. � CURT (núm1; núm2; ... ; núm30) A função estatística CURT (núm1; núm2; ... ; núm30) retorna o coeficiente de curtose dos valores numéricos núm1; núm2; ... ; núm30. Cada um desses núm pode ser um intervalo de células de uma planilha conten- do valores numéricos ou assemelhados. Nesse exemplo, a amostra do intervalo B4:C17 foi registrada no primeiro argumento núm1. Mais informações sobre essa função e outras formasde utilizá-la estão dispo- níveis no Apêndice 1 deste capítulo. Modelo análise numérica A determinação isolada de medidas estatísticas numéricas leva à obtenção de respostas parciais. O conjunto dessas medidas melhora a compreensão e a visualização das medidas numéricas em um gráfico comple- menta a análise da amostra. Realizar esse processo de medição de forma manual é muito trabalhoso; entre- tanto, utilizando a planilha Excel, consegue-se diminuir um pouco esse trabalho. O conjunto desses resul- tados é apresentado no Modelo Análise Numérica construído pelo autor na pasta Modelo Análise Numérica que está disponível na página do livro, no site da Editora. A Figura 4.2 mostra esse modelo para uma amos- tra de tamanho n=77, incluindo o gráfico que destaca as medidas numéricas mais importantes. O Modelo Análise Numérica calcula as medidas mais importantes e constrói um gráfico com os dados da amostra, os intervalos de um, dois e três desvios padrão ao redor da média, a identificação de uma li- nha (no eixo de abscissas) com as cinco medidas estatísticas que ajudam a descrever a forma da distri- buição de frequências, e a identificação de linhas verticais da média e do primeiro, segundo e terceiro quartis. Para operar o modelo: � Recomenda-se zerar os dados da amostra diretamente na planilha. � Informar a série de valores numéricos a partir da célula B4. Não há limite de tamanho da amostra, apenas os limites impostos pela planilha Excel e a memória do microcomputador utilizada. � Depois de informar a amostra, pressione o botão Calcular. O modelo fornecerá os resultados do in- tervalo F4:F24 e construirá ou atualizará o gráfico. � No intervalo E9:F11, é possível obter respostas específicas para um dado da amostra quanto à sua posição no intervalo E9:F9, ao seu percentil no intervalo E10:F10 e ao dado referente a um determi- nado percentil no intervalo E11:F11. � Preste atenção ao aviso de recálculo que o modelo apresenta na célula mesclada H2. CAPÍTULO 4 / MEDIDAS DE DISPERSÃO 119 Ainda, no intervalo D26:F29, não mostrado na Figura 4.2, o modelo apresenta a contagem e a pro- porção de dados dentro de um, dois e três desvios padrão ao redor da média. Ferramenta de análise Estatística Descritiva A partir de uma amostra quantitativa discreta registrada em uma planilha Excel, a ferramenta de análi- se Estatística descritiva retornará uma tabela com um grupo de resultados estatísticos. Para utilizar a ferramenta de análise Estatística descritiva,8 a amostra que será analisada deve estar registrada em uma planilha como a Ferram. Estatística Descritiva, incluída na pasta Capítulo 4, com a amostra do Exem- plo 4.1, onde: � No intervalo B3:B14 foram registrados os valores numéricos da amostra, incluindo o nome Amostra na célula B3. Os valores da amostra devem ser registrados em uma coluna identificados com um úni- co intervalo. Essa ferramenta de análise pode gerar tabelas para mais de uma amostra simultanea- mente com a condição de terem o mesmo tamanho e serem registradas em intervalos contíguos. � Depois de selecionar Análise de dados dentro do menu Ferramentas, o Excel apresentará a caixa de diálogo Análise de dados com todas as ferramentas de análise disponíveis, como mostrado na Figu- ra 1.7 do Capítulo 1 deste livro. � Escolhendo a ferramenta Estatística descritiva e depois pressionando o botão OK, você receberá a cai- xa de diálogo Estatística descritiva mostrada na Figura 4.3 depois de selecionadas algumas opções. � Pressionando o botão Ajuda dessa caixa de diálogo, o Excel apresentará a página Sobre a caixa de diálogo Estatística descritiva pertencente à Ajuda do Excel. As informações que devem ser registradas no quadro Entrada da caixa de diálogo da ferramenta Estatística descritiva são, conforme apresentado na Figura 4.3: � Intervalo de entrada: Informe o intervalo de células da planilha, no qual os dados estão registrados, nes- se caso, o intervalo B3:B14 que inclui a célula onde foi registrado o título Amostra, ou rótulo no Excel. ESTATÍSTICA USANDO EXCEL / LAPPONI120 FIGURA 4.2 Modelo Análise Numérica. 8 Em inglês, a ferramenta ESTATÍSTICA DESCRITIVA é DESCRIPTIVE STATISTICS. � Agrupado por: Selecionamos Colunas, pois a amostra foi registrada em uma coluna. Em geral, o Excel selecionará automaticamente depois de ter informado intervalo da amostra. � Rótulos na primeira linha. Tendo escolhido Colunas no item anterior, necessariamente seleciona- remos Rótulos na primeira linha, pois na primeira célula da série foi incluído o nome Amostra. Na primeira parte do quadro Opções de saída, deve ser obrigatoriamente informado um endereço a partir do qual a ferramenta Estatística descritiva registrará os resultados. Há três alternativas nas quais não é necessário informar esse endereço, identificadas por três botões de opção que aceitam a escolha de uma única alternativa: � Intervalo de saída: Os resultados serão apresentados na mesma planilha a partir da célula informa- da, nesse caso D3. Depois de clicar com o botão esquerdo do mouse dentro da caixa correspondente, o endereço pode ser registrado digitando D3, ou clicando com o botão esquerdo do mouse na célula D3; nesse caso, será registrado o endereço com os dois cifrões, $D$3. Esse endereço é o da célula su- perior esquerda da tabela de respostas que a ferramenta construirá. Também, o Excel automatica- mente definirá o tamanho da área dos resultados e exibirá uma mensagem se a tabela de saída estiver prestes a substituir dados existentes. � Nova planilha: Os resultados serão apresentados a partir da célula A1 de uma nova planilha da mes- ma pasta. � Se não for informado nenhum endereço, a ferramenta inserirá uma nova planilha com o nome Plan seguido de um número sequencial; por exemplo, escolhendo essa alternativa na pasta Capí- tulo 4, a ferramenta inserirá a planilha Plan1. � Há a alternativa de informar o nome da planilha na caixa dessa alternativa; por exemplo, re- gistrando o nome Teste, a ferramenta inserirá na mesma pasta uma nova planilha com o nome Teste. � Nova pasta de trabalho. Os resultados serão apresentados em uma nova pasta e a partir da célula A1 da planilha Plan1. Em continuação, no quadro Opções de saída, há quatro alternativas não excludentes de resultados possíveis. Nelas é possível selecionar qualquer combinação marcando nas quatro caixas de seleção, com a condição de selecionar pelo menos uma delas. CAPÍTULO 4 / MEDIDAS DE DISPERSÃO 121 FIGURA 4.3 Caixa de diálogo da ferramenta Estatística descritiva. � Resumo estatístico: Marcando este item, a ferramenta de análise apresentará o resumo estatístico completo, conforme apresentada na Figura 4.4. � Nível de confiabilidade p/a média: A resposta dessa seleção será compreendida ao estudar Estima- ção no Capítulo 11 deste livro. Neste caso, registramos 95, que representa 95% de intervalo de confiança. � Enésimo maior: escolhendo este item e informando o valor 1, a ferramenta fornecerá o maior valor da Amostra ordenada de forma crescente. Se for informado o valor 2, então a ferramenta apresentará o penúltimo valor da amostra, e assim sucessivamente. Enésimo maior retorna o mesmo resultado da função estatística MAIOR, apresentada no Capítulo 3. � Enésimo menor: Escolhendo este item e informando o valor 1, a ferramenta fornecerá o menor valor da Amostra ordenada de forma crescente. Se for informado o valor 2, então a ferramenta apresentará o segundo elemento da série, e assim sucessivamente. Enésimo menor retorna o resultado da função estatística MENOR, apresentada no Capítulo 3. Depois de realizar as escolhas e pressionar o botão OK, a ferramenta registra os resultados a partir da célula D3, Figura 4.4. Análise dos resultados No intervalo G5:G20, foram registrados os mesmos resultados do intervalo E5:E20 da ferramenta de análise, porém calculados com fórmulas e funções estatísticas, algumas delas já conhecidas. Nem todos os resultados registrados na tabela da Figura 4.4 foram apresentados até o momento no livro; por exemplo, Erro padrão e Nívelde confiança (95%), mas que a seguir é feita uma introdução. � Erro padrão. O Erro padrão é o erro amostral Se estudado na Distribuição Amostral, no Capítulo 10 deste livro. O valor de Se é calculado com a expressão, também registrado na célula G6 da planilha Ferram. Estatística Descritiva: S S n e X= = = 9 988175 11 3 0011548 , , ESTATÍSTICA USANDO EXCEL / LAPPONI122 FIGURA 4.4 Resumo estatístico da ferramenta Estatística Descritiva. � Níveldeconfiança(95%).O NíveldeconfiançaéestudadonoCapítulo11, sendo95%opercentualdeacer- to da estimativa da média da população. O resultado 6,710148 da célula E20 é o erro de estimação com dis- tribuição t, t Se( , ) , , ,1 0 95 2 2 228139 3 011548 6 710148− × = × = . Esse resultado foi calculado na célula G20comafunçãoestatística INVTea fórmula=INVT(0,05;10)*G7,queseráapresentadanoCapítulo11. EXEMPLO 4.8 Analise as distribuições de frequências das amostras A e B registradas na tabela seguinte utilizando a ferramen- ta de análise Estatística descritiva. A 100 120 120 120 120 120 120 140 140 140 140 160 160 180 B 88,6 108,5 108,6 128,5 128,6 128,5 128,6 148,6 148,5 148,6 148,6 148,6 148,6 168,6 Solução. As amostras A e B e os resultados da ferramenta de análise foram registrados na planilha Exemplo 4.8, incluída na pasta Capítulo 4, como mostra a figura seguinte depois de ajustar as larguras das colunas e a formatação dos resultados. Analisando os resultados das medidas estatísticas, verificamos que as amostras A e B têm o mesmo valor de média igual a 134,29, medianas diferentes, respectivamente, 130 e 138,55, e desvio padrão praticamente iguais, respectivamente, 21,38 e 21,39. Comparando somente as médias e os desvios padrão, aparentemente, parece que as amostras têm a mesma forma de distribuição. Entretanto, a diferença de medianas mostra que não é assim. � Como a média da amostra A é maior do que a mediana, pode-se deduzir que a distribuição de frequências da amostra A tem inclinação positiva. Essa inclinação também é confirmada pelo resultado Assimetria igual a 0,67 que, por ser positivo, indica a inclinação positiva da distribuição. No caso da amostra B, ocorre o contrário: ela tem inclinação para a esquerda, como confirmado também pelo resultado Assimetria igual a –0,66 que, por ser negativo, indica a inclinação negativa da distribuição. Para facilitar a confirmação da análise anterior, com a ferramenta de análise Histograma, foram construídos os histogramas a partir da linha 20 da planilha Exemplo 4.8. Analisando os histograma, verifica-se que as dis- tribuições são diferentes, pois enquanto a distribuição de frequências da amostra A tem inclinação para a direi- ta, a da amostra B é para a esquerda. CAPÍTULO 4 / MEDIDAS DE DISPERSÃO 123 Amostra A 0 2 4 6 8 100 127 153 Mais F re q u ên ci a Amostra B F re q u ên ci a 0 2 4 6 8 89 115 142 Mais EXEMPLO 4.9 Continuando com o Exemplo 4.8. Analise as distribuições das amostras A e B considerando as seguintes cinco medidas de posição, mínimo, primeiro quartil, mediana, terceiro quartil e máximo. Solução. As amostras A e B e os resultados da ferramenta de análise foram registrados na planilha Exemplo 4.9, incluída na pasta Capítulo 4, como mostra a próxima figura. No intervalo F6:G10, estão registrados os resultados: Mínimo, Q1, Mediana, Q3 e Máximo de cada amostra. Note que essas cinco medidas estão registra- das em ordem crescente dos resultados. Analisando esses resultados, obtemos: � As duas amostras têm o mesmo intervalo igual a 80=180–100=168,8–88,6. � A diferença entre o terceiro quartil e o primeiro quartil das duas amostras é o mesmo valor e igual a 20. Esse resultado mostra que 50% dos dados em cada amostra se distribuem entre os dois quartis. � A mediana de cada amostra está situada no centro de Q1 e Q3. � A diferença entre o Q1 e o Mínimo da amostra A é 20, enquanto a da amostra B é 39,9. � Da mesma maneira, a diferença entre o Máximo e o Q3 da amostra A é 40, e a da amostra B é 20. Intervalo entre Q1 e Q3 Os resultados do Exemplo 4.9 ajudarão a compreender o intervalo entre o primeiro quartil e o terceiro quartil, denominado IEQ,9 e as vantagens do diagrama Boxplot que será apresentado em sequência. O primeiro quartil, a mediana e o terceiro quartil avaliam a forma da parte central e a variabilidade da dis- tribuição de frequências da amostra. O IEQ é o resultado da diferença entre o terceiro quartil Q3 e o pri- meiro quartil Q1: IEQ Q Q= −3 1 As características importantes do IEQ são: � É uma medida simples, fácil de ser calculada e automatizada. � Mede a distribuição da metade dos dados da amostra situados ao redor da mediana. � É uma medida resistente, pois não é afetado pelos dados extremos da amostra ou variável. � É parecido com o intervalo; entretanto, essas três medidas Q1, mediana e Q3 dão mais informações. ESTATÍSTICA USANDO EXCEL / LAPPONI124 9 Em inglês, IEQ é IQR – InterQuartile Range. � Contudo, essa medida não é suficiente para avaliar a variabilidade de uma amostra ou variável, pois envolve apenas os valores centrais, deixando de considerar os valores extremos que também são im- portantes, os restantes 50% dos dados. Boxplot Embora os três resultados Q1, mediana e Q3 mostrem a forma da distribuição de 50% dos valores ao re- dor da mediana de uma amostra ou variável, o conjunto formado por esses cinco resultados:10 mínimo, Q1, mediana, Q3 e máximo permitirão obter muitas informações sobre a forma da distribuição de fre- quências. O boxplot11 é a forma gráfica para mostrar o conjunto dos cinco resultados estatísticos e obter infor- mações diretas sobre a forma da distribuição de frequências da amostra ou variável. O boxplot da Figura 4.5, planilha à esquerda, mostra que a inclinação da amostra A é positiva ou para a direita, confirmando o resultado obtido no Exemplo 4.9. O boxplot da Figura 4.5, planilha à direita, mostra que a inclinação da amostra B é negativa ou para a esquerda, confirmando também o resultado obtido no Exemplo 4.9. No gráfico do boxplot, foi incluída uma linha (no eixo de abscissas) com as cinco medidas estatísticas que ajudam a descrever a forma da distribuição de frequências, como mostrado no Modelo Análise Numérica. Observe que cada amostra tem um boxplot diferente que registra: � Uma medida de tendência central, a mediana. � Duas medidas de variabilidade ou dispersão, o intervalo e o IEQ. � O tipo de inclinação por comparação da mediana com relação aos valores extremos. � Os possíveis dados suspeitos. FIGURA 4.5 Boxplot das amostras A e B, Exemplo 4.9. CAPÍTULO 4 / MEDIDAS DE DISPERSÃO 125 10 Em inglês, conhecido como Five-number Summary. 11 Preferimos manter o nome boxplot em inglês. Dado suspeito É denominado dado suspeito12 o dado de uma amostra extremamente diferente da maioria dos dados da amostra. Como qualquer amostra pode conter dados suspeitos, é importante estar preparado para de- tectá-lo e analisar sua causa. � Se o dado suspeito tiver sua origem em um erro de registro; por exemplo, o valor medido 135 foi re- gistrado como 2.135. Nesse caso, o erro pode ser corrigido e a característica suspeita pode ser elimi- nada do dado amostrado. � O que fazer se o dado suspeito foi corretamente amostrado e registrado? Se a população está sendo amostrada através de uma pesquisa de indivíduos de uma determinada população, um dado suspei- to poderá ser originado por um individuo que não pertence à população definida. O dado suspeito também pode ser evidência de um acontecimento extraordinário ou uma variabilidade não esperada da variável. Em qualquer caso, os dados suspeitos sem causa aparente associada à população devem ser retirados da amostra, registrando esse evento. O valor X de uma variável é considerado possível suspeito se estiver no intervalo Q IEQ X Q IEQ1 13 15− × < < − ×, ou no intervalo Q IEQ X Q IEQ3 315 3+ × < < + ×, . O valor X de uma variável é considerado suspeito se X Q IEQ< − ×1 3 ou X Q IEQ> + ×3 3 . Uma estratégia para tratar dados suspeitos e outras irregularidades é utilizarmétodos numéricos re- sistentes que pouco são afetados pelos dados suspeitos. Uma das aplicações do IEQ é a detecção de va- lores suspeitos de uma variável. Embora o IEQ ajude a retirar um dado da amostra por considerá-lo sus- peito, essa decisão deve ser acompanhada de um criterioso julgamento. EXEMPLO 4.10 Calcule o IEQ das amostras A e B do Exemplo 4.9 e verifique a existência de dados suspeitos. Solução. A figura a seguir mostra a resolução deste exemplo na planilha Exemplo 4.10, incluída na pasta Capítulo 4. A primeira parte dos resultados é igual ado Exemplo 4.9, adicionando o intervalo F11:G11 para o cálculo do IEQ de cada amostra. Depois, no intervalo E13:I15, foram calculados os limites dos dados suspeitos indicados nesta tabela. ESTATÍSTICA USANDO EXCEL / LAPPONI126 12 Em inglês, dados suspeitos são outliers. � Amostra A. � Na cauda inferior da distribuição, são suspeitos os valores menores do que 60, e os valores entre 60 e 90 são possíveis suspeitos. Como o valor mínimo é 100, essa amostra não tem valores suspeitos nessa região. � Na cauda superior da distribuição, são suspeitos os valores maiores do que 200, e os valores entre 170 e 200 são possíveis suspeitos. O único valor possível de suspeita é o valor máximo 180. � Amostra B. � Na cauda inferior da distribuição, são suspeitos os valores menores do que 68,2. Os valores entre 68,2 e 98,4 são possíveis suspeitos como o valor mínimo é 88,6. � Na cauda superior da distribuição, são suspeitos os valores maiores do que 208,9, e os valores entre 178,8 e 208,9 são possíveis suspeitos. Nenhum valor deve ser considerado suspeito. Os intervalos de detecção de valores suspeitos foram adicionados ao boxplot da planilha Boxplot, como mostram as planilhas da Figura 4.5 referentes às amostras A e B. Verifique que: � Nos extremos da distribuição, são representados os segmentos dos valores potencialmente suspei- tos, linhas de cor vermelha. � A amostra A não tem valores suspeitos na cauda inferior; entretanto, pode ter valores suspeitos na cauda superior da distribuição. � A amostra B tem valores suspeitos na cauda inferior; entretanto, pode não ter valores suspeitos na cauda superior da distribuição. Boxplot com Excel O boxplot de uma amostra também pode ser construído utilizando os recursos gráficos do Excel. Na planilha Boxplot com Excel, incluída na pasta Capítulo 4, foram repetidos os dados e os resultados da planilha Exemplo 4.9, fazendo uma cópia dessa planilha. Depois, as posições dos resultados dos cinco números, mínimo, Q1, mediana, Q3 e máximo foram mudadas para a nova sequência dos cinco resulta- dos, Q1, mínimo, mediana, máximo e Q3. Construção de um Boxplot Depois de ter mudado as posições dos cinco resultados na planilha Boxplot com Excel proceda assim:13 � Selecione o intervalo E5:F10 da planilha Boxplot com Excel. � Clique no ícone assistente de gráfico e, na página Tipos padrão de gráficos, selecione o tipo de gráfico Linha e o subtipo de gráfico Linhas com marcadores exibidos a cada valor de dado. � Depois, clique no botão Avançar. Na guia Intervalo de dados você deverá selecionar Linhas apesar de os dados estarem registrados em colunas, como mostra a Figura 4.6, à esquerda. Depois clique no botão Concluir. Agora temos um gráfico como o mostrado na Figura 4.6, à esquerda. Para construir a forma do box- plot proceda desta forma: � Clique duas vezes seguidas com o botão esquerdo do mouse em cima de um dos pontos do gráfico construído. Aparecerá a caixa de diálogo Formatar sequência de dados. � Na caixa de diálogo Formatar sequência de dados, selecione a guia Opções. Nessa página, marque as caixas Linhas de máximo/mínimo e Barras superiores/inferiores como mostrado na Figura 4.6, à direita. CAPÍTULO 4 / MEDIDAS DE DISPERSÃO 127 13 Adptado de Hunt N. – Boxplots in Excel em http://www.mis.coventry.ac.uk/~nhunt/boxplot.htm. � Para terminar, ajuste a formatação do gráfico da forma que achar mais conveniente, mudando a po- sição da legenda, a cor do fundo do gráfico, a identificação dos cinco pontos etc. FIGURA 4.6 Construção de um boxplot com Excel. Construção de dois ou mais Boxplot O procedimento é parecido com o de um boxplot anterior e pode ser utilizado para mais de dois boxplot: � Selecione o intervalo E5:G10 da planilha Boxplot com Excel. � Clique no ícone assistente de gráfico e, na página Tipos padrão de gráficos, selecione o tipo de gráfico Linha e o subtipo de gráfico Linhas com marcadores exibidos a cada valor de dado. � Depois clique no botão Avançar. Na guia Intervalo de dados, deverá selecionar Linhas, apesar de os dados estarem registrados em colunas, como mostrado na Figura 4.7, à esquerda. Depois clique no botão Concluir. Agora temos um gráfico como o mostrado na Figura 4.7, à esquerda. Para construir a forma de dois boxplot, siga este procedimento: � Clique duas vezes seguidas com o botão esquerdo do mouse na primeira linha do gráfico construído. Será exibida a caixa de diálogo Formatar sequência de dados. � Na caixa de diálogo Formatar sequência de dados, selecione a guia Padrões e, no quadro Linha, marque Nenhuma e depois pressione OK. Verifique se, com essa instrução, a linha que ligava os dois pontos foi removida. � Repita o procedimento anterior com as quatro linhas restantes. � Na caixa de diálogo Formatar sequência de dados, selecione a guia Opções. Nessa página, marque as caixas Linhas de máximo/mínimo e Barras superiores/inferiores como mostra a Figura 4.7, à di- reita. � Para terminar, ajuste a formatação do gráfico da forma que achar mais conveniente, mudando a po- sição da legenda, a cor do fundo do gráfico, a identificação dos cinco pontos etc. ESTATÍSTICA USANDO EXCEL / LAPPONI128 FIGURA 4.7 Construção de dois boxplot com Excel. Problemas Problema 1 Calcule a variância e o desvio padrão da amostra registrada na tabela seguinte: 10 15 14 23 21 18 11 12 14 15 23 12 15 R: S2=19,09 e S=4,37 Problema 2 Calcule a variância e o desvio do Problema 1, considerando, como população. R: σ2=17,62 e σ=4,20 Problema 3 Repita o Problema 2, calculando a variância e o desvio padrão da população a partir da variância e do desvio padrão da amostra e utilizando as fórmulas. Problema 4 A tabela a seguir registra uma amostra do número de gerentes operacionais que respondem diretamen- te a um diretor em empresas do ramo químico. Calcule a média e o desvio padrão do número de geren- tes por empresa: 7 7 9 8 7 13 10 14 8 9 8 6 9 9 10 11 7 8 9 6 8 11 12 10 R: X=9 e S=2,09 CAPÍTULO 4 / MEDIDAS DE DISPERSÃO 129 Problema 5 Calcule a variância e o desvio padrão da amostra registrada na tabela: 10 15 14 23 21 18 11 12 14 15 23 12 18 16 15 R: S2=16,74 e S=4,09 Problema 6 A tabela seguinte registra as notas finais de um grupo de alunos da disciplina Estatística. Calcule a va- riância e o desvio padrão da amostra. 89,5 74,7 99,4 84,9 96,5 82,1 77,7 92,7 59,1 74,7 91,0 100 77,6 98,5 2,2 60,8 83,1 20,1 84,2 70,1 90,8 97,5 78,2 31,7 98,1 99,0 94,3 73,4 85,7 94,1 61,0 77,8 R: X=78,14 e S=23,15 Problema 7 Continuando com Problema 6. Calcule a mediana da amostra e analise a inclinação da distribuição. R: Md =83,65. A distribuição tem inclinação para a esquerda, pois X <Md, como mostra o coeficiente de inclinação igual a 1,87. Problema 8 Continuando com o Problema 6, determine a porcentagem das notas finais do grupo de alunos que es- tão incluídos em um, dois e três desvios padrão. R: X S± ×1 =91%; X S± ×2 =91% e X S± ×3 =97%. Problema 9 Repita o Problema 8, excluindo as observações 2,2; 20,1; e 31,7. R: X S± ×1 =66%; X S± ×2 =97% e X S± ×3 =100%. Problema 10 Calcule a variância e o desvio padrão dos retornos da tabela seguinte. Aplicação Retorno mensal % Ouro –1,74% Curto prazo 0,52% Dólar paralelo 0,87% CDB para <$5.000 1,15% Caderneta de poupança 1,16% FRF 30 dias 1,30% FRF 60 dias 1,49% CDB para >$100.000 1,58% Bolsa RJ 2,12% Bolsa SP 2,99% R: S2=0,00015 e S=1,22% ESTATÍSTICA USANDO EXCEL / LAPPONI130 Problema 11 Continuando com o Problema 10, determine aporcentagem dos retornos incluídos em um, dois e três desvios padrão. R: X S± ×1 =80%; X S± ×2 =90% e X S± ×3 =100%. Problema 12 Calcule o coeficiente de variação dos retornos do Problema 10. R: CV=1,07 Problema 13 Os retornos anuais das ações X e Y durante os últimos cinco anos estão registrados na tabela seguinte. Qual dos dois retornos tem maior dispersão? X Y 12% 12% 15% 16% 12% 15% 11% 9% 14% 13% R: A dispersão do retorno da ação Y é maior do que a dispersão da ação X. Problema 14 Continuando com o Problema 13. Calcule os coeficientes de variação de X e Y. Qual é a ação com maior risco? R: CVX=0,13 e CVY=0,21 Problema 15 As taxas de juros cobradas nos empréstimos para compra de eletrodomésticos em oito das maiores lo- jas da cidade estão registradas na tabela seguinte. Calcule a média, a variância e o desvio padrão das ta- xas de juros. 6,00% 4,80% 5,30% 4,75% 4,10% 5,40% 3,90% 5,20% R: X=4,93% S2=0,0000482 e S=0,69% Problema 16 A tabela seguinte registra uma amostra do tempo que os caixas do banco gastam para realizar as transa- ções dos clientes. Calcule a média, a variância e o desvio padrão da amostra. 2,5 8,0 4,5 7,5 2,0 11,0 4,0 5,0 8,0 6,5 3,5 R: X=5,68 minutos, S2=7,61 e S=2,76 minutos Problema 17 Para conhecer o número de horas por semana que os principais executivos das maiores empresas do país trabalham, a empresa de consultoria realizou uma pesquisa com doze executivos escolhidos alea- CAPÍTULO 4 / MEDIDAS DE DISPERSÃO 131 toriamente dentre as 500 maiores empresas. Calcule a média, a variância e o desvio padrão da amostra registrada na tabela a seguir. 60 66 64 62 58 62 62 60 62 60 64 66 R: X=62,17 hs/sem. S2=6,15 e S=2,48 hs/sem. Problema 18 Ao comparar os retornos de duas ações, a ação que apresentar maior coeficiente de variação terá maior risco. A tabela seguinte registra os retornos da Ação A e da Ação B durante cinco anos. Determine a ação com maior risco. 9,00% 12,00% 10,00% 10,50% 12,00% 9,50% 10,50% 11,00% 9,50% 12,50% R: A Ação A teve maior coeficiente de variação e, portanto, maior risco. Problema 19 Calcule a variância e o desvio padrão da amostra das notas finais da Turma C da disciplina Estatística registradas no Problema 6. R: Var=535,90 e S=23,15 Problema 20 Determine os cinco números: mínimo, Q1, mediana, Q3 e máximo da amostra do Problema 19. R: Min=2,20; Q1=74,38; Med=83,65; Q3=94,15; Max=100 Problema 21 Construa o boxplot do Problema 19. Problema 22 Com os resultados do Problema 21, analise a distribuição de frequências dessa amostra. Problema 23 Repita o Problema 22 utilizando o Modelo Análise Numérica. Problema 24 Verifique a existência de dados suspeitos na amostra do Problema 19. Problema 25 Construa o boxplot da amostra do Problema 10, analise a distribuição e verifique a existência de dados suspeitos. ESTATÍSTICA USANDO EXCEL / LAPPONI132 Problema 26 A rede de restaurantes AQUIeAGORA, especializada em almoços pelo sistema refeição por quilo, tem 30 lojas distribuídas em diversos bairros de São Paulo, todas com o mesmo padrão e capacidade de atendi- mento. A tabela seguinte apresenta o número de refeições servidas pelas 30 lojas em um dia típico. 290 243 295 275 216 253 266 232 256 224 252 298 316 247 234 278 270 280 226 233 298 278 266 278 252 269 239 325 240 295 Construa o boxplot, analise a distribuição e verifique a existência de dados suspeitos. Problema 27 Repita o Problema 26 utilizando as vendas das 50 primeiras empresas por vendas em 2002, cujos dados estão registrados na planilha Problemas deste capítulo. CAPÍTULO 4 / MEDIDAS DE DISPERSÃO 133 Apêndice 1 Funções de medida de dispersão do Excel O cálculo das medidas de dispersão utilizando o Excel pode ser realizado utilizando expressões mate- máticas e procedimentos combinados com os recursos da planilha e funções estatísticas. Na planilha Funções de Dispersão, incluída na pasta Capítulo 4, está registrada a utilização de cada função utili- zando a amostra do Exemplo 4.1, como se pode ver na Figura 4.8. Uma característica comum das fun- ções a seguir são os 30 argumentos (núm1; núm2; ... ; núm30) utilizados para registrar os valores de in- tervalos. Na apresentação da primeira função DESV.MÉDIO, será mostrado como utilizar esses argu- mentos, procedimentos que se repetem com as demais funções com o mesmo tipo de argumentos. As sintaxes dessas funções estatísticas são apresentadas a seguir. DESV.MÉDIO(núm1; núm2; ... ; núm30) A função estatística DESV.MÉDIO14 retorna o desvio absoluto médio dos valores numéricos núm1; núm2; ... ; núm30. Cada um desses núm pode ser um intervalo de células de uma planilha contendo va- lores numéricos ou assemelhados.15 Por exemplo, a função DESV.MÉDIO aplicada aos valores do Exemplo 4.1 retorna o resultado 8,38. Para obter esse resultado, a função DESV.MÉDIO pode ser utili- zada das seguintes maneiras: � Registrando os valores da amostra em um intervalo de células da planilha. � Se os valores da variável estiverem registrados em um único intervalo, ou intervalos contíguos, apenas será necessário informar um único intervalo no argumento num1. Por exemplo, na célula E6 foi registrada a fórmula =DESV.MÉDIO(B4:B14), conforme apresenta a Figura 4.8. � Se os valores da variável estiverem registrados em intervalos não adjacentes, será necessário informar o endereço de cada intervalo no lugar de cada núm de núm1; núm2; ... ; núm30, até um máximo de 30; por exemplo, na célula E7 foi registrada a seguinte fórmula =DESV.MÉDIO(B4:B7;B8:B12;B13:B14). � Registrando os valores da amostra como matriz na própria fórmula da função, evitando registrar os valores da amostra em um intervalo de células da planilha. � Na célula F6, os valores foram registrados em uma única matriz: =DESV.MÉDIO({31;38;19;27;24;42;32;18;43;15;39}) � Na célula F7, os valores foram registrados em três matrizes: =DESV.MÉDIO({31;38;19};{27;24;42;32;18;43};{15;39}) correspondentes aos três primei- ros argumentos da função DESV.MÉDIO núm1; núm2; núm3. DESVQ(núm1; núm2; ... ; núm30) A função estatística DESVQ16 retorna a soma dos quadrados dos desvios dos valores numéricos núm1; núm2; ... ; núm30 com relação à média. Cada um desses núm pode ser um intervalo de células de uma ESTATÍSTICA USANDO EXCEL / LAPPONI134 14 Em inglês, a função DESV.MÉDIO é AVEDEV. 15 Assemelhados são os intervalos definidos por nomes, valores lógicos, representações em forma de texto de números, por exem- plo, com a função de texto VALOR("10")=10. 16 Em inglês, a função DESVQ é DEVSQ. planilha contendo valores numéricos ou assemelhados. A função DESVQ pode ser registrada de diver- sas formas equivalentes às descritas na função DESV.MÉDIO, mencionada anteriormente, conforme mostrado na Figura 4.8. VARP(núm1; núm2; ... ; núm30) A função estatística VARP17 retorna a variância da população dos valores numéricos núm1; núm2; ... ; núm30. Cada um desses núm pode ser um intervalo de células de uma planilha contendo valores numé- ricos ou assemelhados. A função VARP pode ser registrada de diversas formas equivalentes às descritas na função DESV.MÉDIO citada anteriormente. VAR(núm1; núm2; ... ; núm30) A função estatística VAR18 retorna a variância da amostra dos valores numéricos núm1; núm2; ... ; núm30. Cada um desses núm pode ser um intervalo de células de uma planilha que contém valores nu- méricos ou assemelhados. A função VAR pode ser registrada de diversas formas equivalentes às descri- tas na função DESV.MÉDIO definida anteriormente. DESVPADP(núm1; núm2; ... ; núm30) A função estatística DESVPADP19 retorna o desvio padrão da população dos valores numéricos núm1; núm2; ... ; núm30. Cada um desses núm pode ser um intervalo de células de uma planilha que contém valores numéricos ou assemelhados. A função DESVPADP pode ser registrada de diversas formas equi- valentes às descritas na função DESV.MÉDIO mencionada anteriormente. DESVPAD(núm1; núm2; ... ; núm30) A função estatística DESVPAD20 retorna o desvio padrão da amostra dos valores numéricos núm1; núm2; ... ; núm30. Cadaum desses núm pode ser um intervalo de células de uma planilha que contém valores numéricos ou assemelhados. A função DESVPADP pode ser registrada de diversas formas equi- valentes às descritas na função DESV.MÉDIO detalhada anteriormente. VARPA(núm1; núm2; ... ; núm30) A função estatística VARPA21 é equivalente à função anterior VARP. A diferença está relacionada com os valores registrados nos argumentos núm1; núm2; ... ; núm30 que, nesta função, além de números, po- dem ser valores lógicos e de texto, como VERDADEIRO e FALSO. VARA(núm1; núm2; ... ; núm30) A função estatística VARPA22 é equivalente à função anterior VAR. A diferença está relacionada com os valores registrados nos argumentos núm1; núm2; ... ; núm30 que, nesta função, além de números, po- dem ser valores lógicos e de texto, como VERDADEIRO e FALSO. CAPÍTULO 4 / MEDIDAS DE DISPERSÃO 135 17 Em inglês, a função VARP é VARP. 18 Em inglês, a função VAR é VAR. 19 Em inglês, a função DESVPADP é STDEVP. 20 Em inglês, a função DESVPAD é STDEV. 21 Em inglês, a função VARPA é VARPA. 22 Em inglês, a função VARA é VARA. DESVPADPA(núm1; núm2; ... ; núm30) A função estatística DESVPADPA23 é equivalente à função anterior DESVPADP. A diferença está rela- cionada com os valores registrados nos argumentos núm1; núm2; ... ; núm30 que, nesta função, além de números, podem ser valores lógicos e de texto, como VERDADEIRO e FALSO. DESVPADA(núm1; núm2; ... ; núm30) A função estatística DESVPADA24 é equivalente à função anterior DESVPAD. A diferença está relacio- nada com os valores registrados nos argumentos núm1; núm2; ... ; núm30 que, nesta função, além de nú- meros, podem ser valores lógicos e de texto, como VERDADEIRO e FALSO. DISTORÇÃO(núm1; núm2; ... ; núm30) A função estatística DISTORÇÃO25 retorna o coeficiente de inclinação dos valores numéricos núm1; núm2; ... ; núm30. Cada um desses núm pode ser um intervalo de células de uma planilha que contém valores numéricos ou assemelhados. A fórmula utilizada pela função DISTORÇÃO para calcular o coe- ficiente de inclinação é: Coeficiente de Inclinação = n n n X X S i Xi n ( ) ( )− × − −⎛ ⎝ ⎜ ⎞ ⎠ ⎟ = ∑ 1 2 3 1 ESTATÍSTICA USANDO EXCEL / LAPPONI136 FIGURA 4.8 Aplicando as funções de medidas de dispersão no Exemplo 4.1. 23 Em inglês, a função DESVPADPA é STDEVPA. 24 Em inglês, a função DESVPADA é STDEVA. 25 Em inglês, a função DISTORÇÃO é SKEW. O coeficiente de inclinação é o resultado da comparação da distribuição de frequências dos valores informados com a distribuição normal, apresentada no Capítulo 8, e seu resultado deve ser interpreta- do como segue. Se o coeficiente de inclinação for igual a zero, então a distribuição de frequências é si- métrica, se for negativo, a distribuição de frequências terá inclinação para a esquerda ou negativa, e se for positivo, a distribuição de frequências terá inclinação para a direita ou positiva. A função DISTORÇÃO pode ser registrada de diversas formas equivalentes às descritas na função DESV.MÉDIO, definida anteriormente. CURT(núm1; núm2; ... ; núm30) A função estatística CURT26 retorna o coeficiente de curtose dos valores numéricos núm1; núm2; ... ; núm30. Cada um desses núm pode ser um intervalo de células de uma planilha que contém valores nu- méricos ou assemelhados. A fórmula utilizada pela função CURT para calcular o coeficiente de curtose é a seguinte: Coeficiente de Curtose = n n n n n X X S i Xi n( ) ( )( )( ) + − − − −⎛ ⎝ ⎜ ⎞ ⎠ ⎟ ⎧ ⎨ ⎪ ⎩⎪ ⎫ ⎬ ⎪ ⎭⎪ − = ∑1 1 2 3 4 1 3 1 2 3 2( ) ( )( ) n n n − − − O coeficiente de curtose é o resultado da comparação da distribuição de frequências dos valores in- formados com a distribuição normal apresentada no Capítulo 8, e seu resultado deve ser interpretado como segue. Se o coeficiente de curtose for igual a zero, então a distribuição de frequências será a pró- pria distribuição normal; se for negativo, a distribuição será achatada, plana; e se for positivo, a distri- buição de frequências será concentrada ao redor da média, distribuição com pico. A função CURT pode ser registrada de diversas formas equivalentes às descritas na função DESV.MÉDIO mencionada anteriormente. Apêndice 2 Outra forma de calcular a variância O cálculo da variância da variável X pode ser realizado utilizando apenas os valores da variável, sem ne- cessidade de calcular a média e os desvios da variável. Se na fórmula da soma dos quadrados dos des- vios desenvolvemos o quadrado do binômio indicado, obtemos a seguinte igualdade: ( ) ( )X X Xi X i N i N i X X− = − + == ∑∑ μ μ μ2 11 2 22 Continuando com o desenvolvimento algébrico, obtemos: ( )X X Xi X i i N i N X i i N X i N − = − + == = = ∑∑ ∑ ∑μ μ μ2 2 11 1 2 1 2 CAPÍTULO 4 / MEDIDAS DE DISPERSÃO 137 26 Em inglês, a função CURT é KURT. No segundo membro dessa expressão reconhecemos que X Ni X i N = = ∑ μ 1 e μ μX i N XN2 1 2 = ∑ = . Dessa manei- ra, o segundo membro pode ser reescrito da seguinte forma: X N X Ni X X X i N i i N X 2 2 1 2 1 22− + = − = = ∑ ∑μ μ μ μ . Voltando à primeira fórmula, formamos a igualdade que nos interessa: ( )X X Ni X i i N i N X− = − == ∑∑ μ μ2 2 11 2 Ainda, pela definição de média da população μ X i i N X N 2 1 2 2 = ⎛ ⎝⎜ ⎞ ⎠⎟= ∑ . Substituindo essa relação na expres- são da soma dos quadrados dos desvios, teremos: ( )X X N X N i X i i N i N i i N − = − = ⎛ ⎝⎜ ⎞ ⎠⎟ == =∑∑ ∑ μ 2 2 11 1 2 2 Agora, o cálculo da soma dos quadrados dos desvios depende somente dos dados da amostra e dos quadrados desses dados. Dessa maneira, as expressões das variâncias são: � Da população: σ X i i i N i N N X X N 2 2 1 2 1 1 = − ⎛ ⎝⎜ ⎞ ⎠⎟ ⎧ ⎨ ⎪ ⎪ ⎩ ⎪ ⎪ ⎫ ⎬ ⎪ ⎪ ⎭ ⎪ ⎪ = = ∑ ∑ � Da amostra: S n X X nX i i i n i n 2 2 1 2 1 1 1 = − − ⎛ ⎝⎜ ⎞ ⎠⎟ ⎧ ⎨ ⎪ ⎪ ⎩ ⎪ ⎪ ⎫ ⎬ ⎪ ⎪ ⎭ ⎪ ⎪ = = ∑ ∑ Para calcular a variância, será necessário gerar a série dos quadrados dos valores da variável, não sendo necessário calcular a média nem os desvios. Na realidade, esse procedimento de cálculo perde sua força quando comparado com a utilização das funções estatísticas do Excel, como mostra a plani- lha Apêndice 2, incluída na pasta Capítulo 4. Essa expressão da variância será utilizada no Apêndice 1 do Capítulo 9. ESTATÍSTICA USANDO EXCEL / LAPPONI138 Apêndice 3 Funções para banco de dados do Excel As funções estatísticas apresentadas até este momento foram utilizadas para obter alguma medida esta- tística de uma amostra ou variável, atendendo a algumas especificações dessas funções: � Os dados foram registrados em um intervalo de células da planilha e a fórmula com a função em ou- tra célula fora daquele intervalo. � Os dados da amostra foram registrados como matriz na própria fórmula da função em uma única cé- lula da planilha. Há situações em que os dados ou variáveis para análise fazem parte de uma tabela contendo outras variáveis. Por exemplo, os resultados mensais significativos de uma empresa durante um ano estão re- gistrados na planilha Funções Banco de Dados, incluída na pasta Capítulo 4, conforme apresenta a Fi- gura 4.9. Os resultados estão registrados em uma tabela com as colunas identificadas com os nomes Mês, Vendas, Custos, Lucro Bruto e Lucro Líquido. A tabela com os resultados da empresa é denominada banco de dados, e cada uma de suas colunas é denominada campo; em termos técnicos, cada linha da ta- bela é uma unidade elementar de informação que contém quatro variáveis. Para essas situações, o Excel dispõe de funções denominadas genericamente BDfunções e equivalentes a algumas das funções apresentadas neste capítulo. EXEMPLO 4.11 Calcule a média, o desvio padrão e o valor máximo das Vendas da empresa durante o primeiro mês dos quatro trimestres do ano 2004, e cujos resultados estão registrados na tabela da Figura 4.9. Solução. Os resultados foram obtidos de diversas formas, a partir da célula H1 da planilha Funções Banco de Dados, incluída na pasta Capítulo 4, como mostra a figura seguinte. A média das vendasda empresa nos primeiros meses dos quatro trimestres do ano 2004 é igual a $6.215,50, resultado obtido: CAPÍTULO 4 / MEDIDAS DE DISPERSÃO 139 FIGURA 4.9 Resultados mensais da empresa. � Calculando com a função estatística MÉDIA, registrando na célula K4 a fórmula =MÉDIA(C4;C7;C10;C13). � Calculando com a função estatística SUBTOTAL, registrando na célula K5 a fórmula =SUBTOTAL (1;C4;C7;C10;C13). Com a função SUBTOTAL, é possível obter 11 resultados diferentes informando um número de 1 a 11 no primeiro argumento da função, como será apresentado mais adiante neste apêndice. � Calculando com a função estatística para banco de dados BDMÉDIA, registrando na célula K6 a fórmula =BDMÉDIA(B3:F15;C3;I3:I7). A função BDMÉDIA é uma das doze funções para listas ou banco de dados dis- poníveis no Excel e denominadas genericamente BDfunções, pois todas elas utilizam a mesma sintaxe, BDFunção(banco_dados; campo; critérios). � No argumento banco_dados, deve ser informado o intervalo do banco de dados incluindo a primeira li- nha com os títulos, neste exemplo B3:F15. � No argumento campo, deve ser informado o nome da coluna do banco de dados onde será aplicada a função. Neste exemplo, pode ser informado o texto “Vendas”, entre aspas duplas, ou o endereço da cé- lula C3. � No argumento critérios, deve ser registrada a especificação da escolha dos dados. Neste exemplo, no intervalo I3:I7 foi construída a tabela de meses, ou linhas, que identificam os valores correspondentes da coluna Vendas o argumento campus da função. Como alternativa, pode-se utilizar a fórmula =BDMÉDIA(B3:F15; ;”Vendas”;I3:I7) para obter o mesmo resultado Ou, como um número que represen- te a posição da coluna dentro da lista, começando com 1 para a primeira coluna, 2 para a segunda coluna e assim sucessivamente, até esgotar as colunas do banco de dados. A partir das linhas 8 e 13 da planilha Funções Banco de Dados, foram calculados, respectivamente, o desvio padrão e o valor máximo das Vendas da empresa durante o primeiro mês dos quatro trimestres do ano 2004, utilizando as três funções apresentadas e adequadas para esses cálculos. Incluindo outros critérios Com as funções para banco de dados operamos a distância sem necessidade de definir intervalos den- tro do banco de dados. A tabela de critérios pode incluir condições lógicas nos campos do banco de da- dos. Sem esgotar este assunto, a seguir mostraremos outra forma de incluir critérios. ESTATÍSTICA USANDO EXCEL / LAPPONI140 EXEMPLO 4.12 Calcule a média das vendas da empresa durante o primeiro mês dos quatro trimestres do ano 2004, conside- rando somente os meses com lucro líquido maior ou igual a $1.600. Solução. Para calcular a média das vendas dos primeiros meses dos quatro trimestres do ano 2004, consideran- do apenas as vendas dos meses com Lucro Líquido igual ou maior do que $1.600, no intervalo O3:P7, foi cons- truída a tabela com os campos Mês e Lucro Líquido, sendo que, neste último cálculo, foram registradas as restri- ções de seleção de cada mês, a fórmula >=1600. A média das vendas da empresa durante o primeiro mês dos quatro trimestres do ano 2004, considerando somente os meses com lucro líquido maior ou igual a $1.600 é igual a $6.289,67, resultado obtido com =BDMÉDIA(B3:F15;C3;O3:P7), fórmula registrada na célula R4. Resumo das funções de banco de dados do Excel O Excel dispõe de doze funções orientadas para banco de dados, denominadas genericamente BDfun- ções, pois cada uma dessas funções tem os mesmos três argumentos: banco de dados, campo e critérios. Sua sintaxe geral é: BDfunção(banco_dados; campo; critérios) � O argumento banco_dados é o intervalo de células que delimita a tabela com as informações, que pode ser uma lista ou um banco de dados. Um banco de dados é uma lista de dados na qual cada linha é um registro formado por um ou mais campos identificados por um nome na primeira linha de cada coluna. O argumento banco_dados pode ser informado como um intervalo de células ou como um nome representando o intervalo. � O argumento campo define o nome da coluna do banco de dados que será utilizada para realizar um cálculo ou uma seleção, podendo ser informado: � Como texto, por exemplo, “Vendas” ou “Lucro Líquido”. � Como endereço da célula onde está registrado nome do campo. � Como um número que represente a posição da coluna dentro da lista, começando com 1 para a primeira coluna, 2 para a segunda coluna e assim sucessivamente, até esgotar as colunas do banco de dados. � O argumento critérios é o intervalo de células que especifica a forma de seleção. Pode ser informado qualquer intervalo, sempre que ele incluir pelo menos um título de coluna e ao menos uma célula abaixo desse título que especifique alguma condição para seleção nessa coluna. A seguir, são apresentadas as sintaxes das doze funções para bancos de dados disponíveis no Excel. As primeiras onze funções foram registradas com o mesmo argumento (B3:F15;C3;I3:I7) no intervalo K23:L34 da planilha Funções Banco de Dados, incluída na pasta Capítulo 4, cujos resultados são mos- trados na Figura 4.10. CAPÍTULO 4 / MEDIDAS DE DISPERSÃO 141 BDMÉDIA(banco_dados; campo; critérios) A função BDMÉDIA27 retorna a média dos valores da coluna campo do banco_dados que coincide com os critérios especificados. BDCONTAR(banco_dados; campo; critérios) A função BDCONTAR28 retorna a quantidade de células contendo números da coluna campo do ban- co_dados que coincide com os critérios especificados. BDCONTARA(banco_dados; campo; critérios) A função BDCONTARA29 retorna a quantidade de células não vazias da coluna campo do banco_dados que coincide com os critérios especificados BDMÁX(banco_dados; campo; critérios) A função BDMÁX30 retorna o valor máximo da coluna campo do banco_dados que coincide com os cri- térios especificados. BDMÍN(banco_dados; campo; critérios) A função BDMÍN31 retorna o valor mínimo da coluna campo do banco_dados que coincide com os crité- rios especificados. BDMULTIPL(banco_dados; campo; critérios) A função BDMULTIPL32 retorna o resultado da multiplicação dos valores da coluna campo do ban- co_dados que coincide com os critérios especificados. BDEST(banco_dados; campo; critérios) A função BDEST33 retorna o desvio padrão da amostra dos valores da coluna campo do banco_dados que coincide com os critérios especificados. BDDESVPA(banco_dados; campo; critérios) A função BDDESVPA34 retorna o desvio padrão da população dos valores da coluna campo do ban- co_dados que coincide com os critérios especificados. BDSOMA(banco_dados; campo; critérios) A função BDSOMA35 retorna a soma dos valores da coluna campo do banco_dados que coincide com os critérios especificados. ESTATÍSTICA USANDO EXCEL / LAPPONI142 27 Em inglês, a função BDMÉDIA é DAVERAGE. 28 Em inglês, a função BDCONTAR é DCOUNT. 29 Em inglês, a função BDCONTARA é DCOUNTA. 30 Em inglês, a função BDMÁX é DMAX. 31 Em inglês, a função BDMÍN é DMIN. 32 Em inglês, a função BDMULTIPL é DPRODUCT. 33 Em inglês, a função BDEST é DSTDEV. 34 Em inglês, a função BDDESVP é DSTDEVP. 35 Em inglês, a função BDSOMA é DSUM. BDVAREST(banco_dados; campo; critérios) A função BDVAREST36 retorna a variância da amostra dos valores da coluna campo do banco_dados que coincide com os critérios especificados. BDVARP(banco_dados; campo; critérios) A função BDVARP37 retorna a variância da população dos valores da coluna campo do banco_dados que coincide com os critérios especificados. BDEXTRAIR(banco_dados; campo; critérios) A função BDEXTRAIR38 extrai do banco_dados um único registro da coluna campo que coincide com os critérios especificados. A seguir, apresentamos como se deve utilizar essa função: � A fórmula =BDEXTRAIR(B3:F15;C3;I23:I27) registrada na célula L36 retorna como resultado o va- lor de erro #NUM!, conforme mostrado na Figura 4.10. Isso ocorre porque a função BDEXTRAIR não consegue identificar um valor único no intervalo I23:I27, no qual há quatro datas possíveis. � A fórmula =BDEXTRAIR(B3:F15;C3;I23:I24) registrada na célula L37 retornao resultado $6.423, pois no intervalo I23:I24 há apenas uma única data Jan/2004. Outras funções do Excel O Excel dispõe também das funções matemáticas SUBTOTAL, CONT.SE e SOMASE que realizam ope- rações equivalentes às apresentadas para banco de dados. SUBTOTAL(número_função; ref1; ref2; ...; ref29) A função SUBTOTAL39 retorna o resultado das primeiras onze funções do grupo de BDfunções. O ar- gumento número_função é um número de 1 a 11 que identifica a função que deverá ser utilizada no cál- culo de subtotais do banco de dados, de uma lista ou grupo de valores, como mostra a Figura 4.11. Os argumentos ref1; ref2; ...; ref29 são intervalos de células de uma planilha, ou referências, sobre os quais será calculado o subtotal. CAPÍTULO 4 / MEDIDAS DE DISPERSÃO 143 FIGURA 4.10 Aplicação das BDfunções. 36 Em inglês, a função BDVAREST é DVAR. 37 Em inglês, a função BDVARP é DVARP. 38 Em inglês, BDEXTRAIR é DGET. 39 Em inglês, SUBTOTAL é SUBTOTAL. 1 MÉDIA 2 CONT.NÚM 3 CONT.VALORES 4 MÁXIMO 5 MÍNIMO 6 MULT 7 DESVPAD 8 DESVPADP 9 SOMA 10 VAR 11 VARP FIGURA 4.11 Significado do argumento número_ função. A Figura 4.12 mostra os onze resultados possíveis da função SUBTOTAL, registrados a partir da célula J39 da planilha Funções Banco de Dados, incluída na pasta Capítulo 4. Por exemplo, para calcular a média das vendas da empresa do Exemplo 4.11 referentes aos primeiros meses dos quatro trimestres do ano 2004, na célula L42 foi registrada a fórmula =SUBTOTAL(1;C4;C7;C10;C13), cujo resultado é $6.215,50. O leitor atento deve ter percebido que a função SUBTOTAL pode ser utilizada como substituta de al- gumas das funções básicas apresentadas nos Capítulos 3 e 4 do livro. Como ajuda, a partir da célula H10 da planilha Funções de Dispersão, incluída na pasta Capítulo 4, foram registradas fórmulas utili- zando a função SUBTOTAL ao lado da função equivalente original. Uma vantagem da utilização da função SUBTOTAL é que com um único nome de função poderíamos agrupar onze funções, com a des- vantagem de ter de lembrar a tabela de equivalência da Figura 4.11, que também não é muito amigável. CONT.SE(intervalo; critérios) A função CONT.SE40 retorna o número de células não vazias da série de dados definida no argumento intervalo e que atendem a critérios definidos em forma de texto. Por exemplo, gostaríamos de conhecer, na tabela de resultados da Figura 4.9, em quantos meses do ano 2004 o lucro líquido da empresa foi igual ou maior do que $1.500. O resultado foi obtido com a função CONT.SE, registrando a fórmula ESTATÍSTICA USANDO EXCEL / LAPPONI144 FIGURA 4.12 Resultados com a função SUBTOTAL. 40 Em inglês, CONT.SE é COUNTIF. =CONT.SE(F4:F15;">=1500") na célula K57 da planilha Funções Banco de Dados. Portanto, em oito meses do ano 2004, a empresa registrou lucro líquido igual ou maior do que $1.500. SOMASE(intervalo; critérios; intervalo_soma) A função SOMASE41 retorna a soma de valores das células que atendem a um determinado critério. � No argumento intervalo é registrado o intervalo de células utilizado para aplicar o critério de seleção. � No argumento critérios é registrado um número, expressão ou texto, que define como as células se- rão selecionadas. � No argumento intervalo_soma é registrado o intervalo das células que poderão ser somadas, sendo somadas somente as células correspondentes ao argumento intervalo que atendam ao argumento critérios. Se intervalo_soma for omitido, serão somadas as células do argumento intervalo. Por exemplo, gostaríamos de conhecer, da empresa cujos resultados estão registrados na tabela de resultados da Figura 4.9, o total das vendas com lucro líquido igual ou maior do que $2.000 durante o ano 2004. O resultado foi obtido com a fórmula =SOMASE(F4:F15;">=2000";C4:C15) registrada na célula K62 da planilha Funções Banco de Dados. Portanto, o total das vendas com lucro líquido igual ou maior do que $2.000 durante o ano 2004 foi $12.809. CAPÍTULO 4 / MEDIDAS DE DISPERSÃO 145 41 Em inglês, SOMASE é SUMIF. Capítulo 5 PROBABILIDADE Os quatro primeiros capítulos apresentaram os temas amostragem, descrição gráfica de amostras e medidas numéricas de posição, de tendência central e de dispersão ou variabilidade. Esses con- hecimentos permitem analisar séries de dados e obter algumas conclusões sobre como esses dados se distribuem em todo seu intervalo de variação ou ao redor de sua média. O tema deste capítulo ajudará a descrever a informação amostrada, facilitará a apresentação desses resultados e outorgará uma ferra- menta útil para realizar inferências sobre a população de onde foi extraída a amostra. Pela própria experiência de vida, sabemos que o resultado do lançamento de uma moeda pode ser cara ou coroa, descartando a moeda falsa com duas caras, ou duas coroas, ou aquela que possa ficar de pé apoiada na sua borda. Também, periodicamente recebemos informações como a seguinte: na pes- quisa de intenção de voto para o segundo turno da eleição para governador, 43% dos eleitores da amos- tra preferem o candidato A, 37% dos eleitores preferem o candidato B e os demais 20% dos eleitores não sabem. Qual a característica comum do lançamento de uma moeda e da pesquisa de intenção de voto? O resultado não pode ser previsto com antecedência! Por quê? Porque o resultado variará toda vez que lançarmos uma moeda ou extrairmos outra amostra para a pesquisa de intenção de voto. Entretanto, se o lançamento da moeda for repetido um número muito grande de vezes, percebere- mos uma tendência dos resultados. O gráfico da Figura 5.1, um dos muitos gráficos possíveis, repre- senta a proporção de caras em uma simulação de 1.500 lançamentos de uma moeda. O resultado dessa simulação em particular mostra que a proporção de caras tende a 50%, lembrando que esse gráfico foi especialmente escolhido para essa apresentação, pois, tecnicamente, a simulação de 1.500 lançamen- tos é um número pequeno de tentativas. 40% 42% 44% 46% 48% 50% 52% 54% 56% 0 200 400 600 800 1.000 1.200 1.400 FIGURA 5.1 Proporção de caras no lançamento de uma moeda 1.500 vezes. Da mesma maneira, se a pesquisa de intenção de voto fosse repetida para um número muito grande de amostras diferentes, também perceberemos uma tendência dos resultados do candidato A e do can- didato B. Nos exemplos apresentados, destacam-se dois pontos: � O lançamento da moeda e a pesquisa de intenção de voto são experimentos aleatórios. Embora os resultados de um experimento aleatório sejam incertos, a longo prazo os resultados têm uma dis- tribuição de frequências definida. � Depois de repetir um experimento aleatório um número muito grande de vezes, a proporção de ocorrência de um dos resultados é denominada probabilidade.1 A determinação da probabilidade de um dos resultados possíveis de um experimento repetindo-o um número muito grande de vezes não é um procedimento geral, além de ser trabalhoso e dispendioso. O primeiro passo será apresentar o resumo dos conceitos que ajudarão a estabelecer regras gerais. Experimentos e eventos Todo processo desenvolvido para realizar observações e obter dados com um determinado objetivo é denominado experimento. O conjunto formado por todos os resultados possíveis de um experimento é denominado espaço amostral do experimento. Um experimento é aleatório quando pode resultar em um dos resultados do espaço amostral sem que se seja possível predizer com certeza qual resultado será observado. Se apesar de conhecer todos os resultados de um experimento não for possível antecipar seu resultado, esse experimento é denominado experimento aleatório. Espaço amostral é o conjunto de todos os possíveis e diferentes resultados de um experimento aleatório. A análise de um experimento aleatório começa pela identificação de todos os resultados possíveis. Por exemplo, no experimento do lançamento de duas moedas seu espaço amostral é formado pelos quatro resultados possíveis CaCa, CaCo, CoCa e CoCo, ou o conjunto S dos resultados possíveis S={CaCa, CaCo, CoCa, CoCo}. Cada resultadodesse espaço amostral S é denominado ponto amostral. Eventos O diagrama de Venn é uma forma gráfica de representar o espaço amostral S. A Figura 5.2 mostra o dia- grama de Venn do espaço amostral S do lançamento de duas moedas, o conjunto S={CaCa, CaCo, CoCa, CoCo} ESTATÍSTICA USANDO EXCEL / LAPPONI148 1 Do dicionário Houaiss. Probabilidade: 1. perspectiva favorável de que algo venha a ocorrer; possibilidade, chance. 2. grau de segu- rança com que se pode esperar a realização de um evento, determinado pela frequência relativa dos eventos do mesmo tipo numa sé- rie de tentativas. Ca Ca Ca Co Co Ca Co Co SFIGURA 5.2 Diagrama de Venn do lançamento de duas moedas. Do lançamento de duas moedas, sempre será obtido um único resultado denominado evento elemen- tar do espaço amostral S. Os quatro elementos do espaço amostral S são eventos elementares, pois ne- nhum deles pode ser particionado ou dividido. Evento elementar é um resultado único do espaço amostral. Evento é um subconjunto formado por um ou mais resultados do espaço amostral. Um subconjunto do espaço amostral S é denominado evento. Por exemplo, o evento dos resultados que têm exatamente apenas uma cara é descrito pelo subconjunto do espaço amostral A={CaCo, CoCa}, como mostra o diagrama de Venn da Figura 5.3. Tenha em mente que um evento pode ser particionado, dividido, em seus eventos elementares. Operações com eventos A primeira operação e o complemento de um evento. Por exemplo, o complemento do evento A é o sub- conjunto B formado pelos elementos do espaço amostral não incluídos no evento A. Dessa maneira, o complemento do evento A={CaCo, CoCa} é o evento B=~A={CaCa, CoCo}, como mostra o diagrama de Venn da Figura 5.4. Outras duas operações importantes são a união e a interseção. Dois ou mais eventos do mesmo espa- ço amostral podem ser agrupados em operações de união e interseção, como mostra a Figura 5.5. Nos eventos A e B pertencentes ao mesmo espaço amostral S: � A operação interseção dos eventos A e B gera um novo evento formado pelos elementos comuns aos dois conjuntos. Essa operação é representada com A∩B, onde o símbolo ∩ representa a operação in- terseção. � A operação união dos eventos A e B gera um novo evento formado pelos elementos comuns e não comuns dos dois conjuntos. Essa operação é representada com A∪B, onde o símbolo ∪ representa a operação união. CAPÍTULO 5 / PROBABILIDADE 149 Ca Ca Ca Co Co Ca Co Co S A FIGURA 5.3 Diagrama de Venn do evento A. Ca Ca Ca Co Co Ca Co Co S~A FIGURA 5.4 Diagrama de Venn do complemento de A. A B A B S S Interseção AÇ B União AÈ B FIGURA 5.5 Operações com eventos. Algumas conclusões das operações com eventos: � A união de um evento A e seu complemento ~A é o próprio espaço amostral S, ou com símbolos A ∪~A = S. � A interseção de um evento A e seu complemento ~A é o conjunto vazio ∅, ou com símbolos A ∩~A = ∅. Eventos mutuamente excludentes e coletivamente exaustivos Os resultados possíveis do lançamento de uma moeda são apenas dois, os eventos elementares Cara-Ca e Coroa-Co. Pela própria característica do experimento, se o resultado de um lançamento for cara, esse resultado não poderá ser coroa ao mesmo tempo, pois são eventos mutuamente excludentes. A união de eventos elementares forma o espaço amostral, pois são eventos coletivamente exaustivos. Portanto, veri- fica-se que os eventos A e B pertencentes ao mesmo espaço amostral S: � São mutuamente excludentes se sua interseção for vazia: A∩B=∅, pois os dois eventos não têm ne- nhum elemento em comum. � São coletivamente exaustivos se a união dos eventos formarem o espaço amostral: A∪B=S, onde cada evento pode ter elementos repetidos no outro evento. EXEMPLO 5.1 Analise os resultados do lançamento de uma moeda. Solução. Como o espaço amostral do lançamento de uma moeda tem apenas dois eventos, os eventos ele- mentares Ca e Co são eventos mutuamente excludentes, eventos complementares e eventos coletivamente exaustivos. EXEMPLO 5.2 A nota final do curso de estatística pode ser: conceito A, conceito B ou conceito C. Analise os resultados dessas notas. Solução. O espaço amostral da nota final de estatística é formado por três eventos elementares: conceito A, conceito B e conceito C. Os três conceitos são eventos mutuamente excludentes e coletivamente exaustivos, pois quando agrupados formam o espaço amostral de todos os conceitos. Não são eventos complementares, pois o complemento do conceito A é a união do conceito B e do conceito C. Probabilidade Depois de apresentar os conceitos de experimento e eventos, o objetivo é dirigido para a avaliação do sucesso de ocorrer um determinado evento do espaço amostral de um experimento aleatório. Por exemplo, no lançamento de uma moeda, um número muito grande de vezes, o sucesso de ocorrer o evento Cara é medido pela probabilidade P(Cara), um valor dentro do intervalo (0, 1), incluindo am- bos os limites. A probabilidade de sucesso P(A) do evento A é um número entre zero e um. Tendo presente que a probabilidade P(A) está associada à proporção de sucessos do evento A: Se P(A)=0, o evento A nunca ocorrerá, pois é um evento impossível. Se P(A)=1, o evento A sempre ocorrerá, pois é um evento certo. ESTATÍSTICA USANDO EXCEL / LAPPONI150 O valor da probabilidade P(A) de um evento A no intervalo (0, 1) deve ser interpretado como mostra a tabela seguinte, considerando que o experimento aleatório é repetido um número grande de vezes. P(A) Significado de P(A) 1 Sempre ocorre 0,90 Ocorre 90% das vezes e não ocorre em 10% das vezes 0,50 Ocorre 50% das vezes e não ocorre em 50% das vezes 0,15 Ocorre 15% das vezes e não ocorre em 85% das vezes 0 Nunca ocorre Essa tabela mostra que: � A soma das probabilidades de todos os possíveis resultados de um experimento aleatório é sempre igual a um. � A probabilidade de um evento ocorrer é igual ao complemento desse mesmo evento não ocorrer. Se P(A) é a probabilidade de ocorrer o evento A, então a probabilidade desse evento não ocorrer será o complemento (1–P(A)). � Por exemplo, se depois de repetir um número muito grande de vezes um experimento aleatório com espaço amostral {C, D}, o evento C ocorreu em 68% das vezes, o que significa que o evento C não ocorreu em 32% das vezes, que é a probabilidade de ocorrer o evento D. � Esse resultado mostra que a probabilidade do evento C ocorrer é igual à probabilidade comple- mentar de ocorrer o evento D, isto é, (1–P(D))=1–0,68=0,32 ou 32%. Conhecido o significado de probabilidade de um evento, o próximo passo é mostrar como determi- nar a probabilidade de um evento. Tradicionalmente há três formas de determinar a probabilidade de um evento, o procedimento teórico (probabilidade clássica ou a priori), o procedimento de frequência relativa (probabilidade a posteriori) e o procedimento de probabilidade subjetiva. Probabilidade teórica de eventos A probabilidade teórica de um evento é obtida utilizando procedimento de contagem. Por exemplo, qual a probabilidade de obter cara no lançamento de uma moeda? Nesse caso, o espaço amostral tem apenas dois eventos elementares mutuamente excludentes, cara e coroa. Considerando que os eventos cara e coroa são igualmente prováveis e não há nenhuma condição que estabeleça que um dos dois re- sultados tenha alguma preferência nem que um seja mutuamente dependente do outro, a probabilida- de teórica de obter cara é obtida como resultado de dividir o número de eventos que atendem à condi- ção cara pelo número total de eventos possíveis: P(caras) = Número de eventos favoráveis Número de eventos possíveis Então, a probabilidade de obter cara será 0,5 ou 50%, resultado obtido de: P(caras) = 1 2 0 50= , ou 50% Esse resultado mostra que a probabilidade de obter coroa é também 0,5, resultado obtido como o complemento (1–P(cara))=1–0,50=0,50 ou 50%. CAPÍTULO 5 / PROBABILIDADE 151 Qual a probabilidade teórica de obter o número dois no lançamento de um dado? O espaço amostral do lançamento de um dado tem seis eventos elementares mutuamenteexcludentes {1, 2, 3, 4, 5, 6}. Como os seis resultados são igualmente prováveis, a probabilidade teórica de obter qualquer um dos eventos elementares é 1/6. Resumindo: � Quando os eventos de um experimento são igualmente prováveis, a probabilidade de qualquer evento pode ser obtida como um cálculo teórico de contagem. Em geral, se o número de eventos ele- mentares for m, a probabilidade de qualquer evento elementar será 1/m. � A probabilidade teórica de um evento é o limite de sua frequência relativa, assunto a ser tratado a se- guir. Pela lei dos grandes números, ao aumentar o número de experimentos, a frequência relativa de cada evento se aproximará de seu valor teórico. Frequência relativa Citando Peter Bernstein, “... Apenas em raros casos a vida imita os jogos de azar, em que podemos determinar as probabilidades de um resultado antes que um evento chegue a ocorrer – a priori, nas palavras de Jacob Ber- noulli. Na maioria dos casos, temos de estimar as probabilidades com base no que aconteceu após o fato – a posteriori. A própria noção de a posteriori implica a experimentação e graus de crenças mutáveis. ...”2 A probabilidade P(A) de ocorrer o evento A de um experimento aleatório pode ser obtida como a porcen- tagem de ocorrência do evento A, depois de repetir o experimento um número muito grande de vezes. Por exemplo, repetindo um número muito grande de vezes o lançamento de uma moeda, a frequência relativa do evento cara será obtida como resultado de dividir o número de caras observadas pelo número de repeti- ções do experimento. Nesse caso, a frequência relativa do evento cara é a própria probabilidade P(Cara). P(caras) = Número de caras observadas Número de repetições do experimento Experimentalmente, pode-se observar que à medida que o número de repetições do experimento au- menta, a frequência relativa de um evento tende a chegar a um determinado valor que definimos como probabilidade desse evento, como é possível observar experimentalmente utilizando o modelo da plani- lha Simulação deste capítulo, mudando o número de lançamentos de uma moeda. A probabilidade teóri- ca de um evento seria o limite de sua frequência relativa e, pela lei dos grandes números, ao aumentar o número de experimentos, a frequência relativa de cada evento se aproximará de seu valor teórico. Nem sempre os eventos de um experimento são igualmente prováveis; por exemplo, o preço de uma ação daqui a um ano, comparado com o preço de hoje, poderá subir ou baixar, incluindo neste último evento o evento permanecer constante. Na construção do espaço amostral de eventos não igualmente prováveis, devem ser atendidas as seguintes condições. � Os eventos do espaço amostral devem ser mutuamente excludentes e coletivamente exaustivos. O espaço amostral do preço da ação daqui a um ano contém dois eventos mutuamente excludentes com probabilidades diferentes. � A soma das probabilidades dos eventos deve ser igual a um; por exemplo, se a probabilidade do evento subir for 70%, a probabilidade do evento baixar deverá ser 30%. Simulador lançamento de uma moeda Na planilha Simulação, incluída na pasta Capítulo 5, foi construído o modelo que simula o lançamen- to de uma moeda. Para facilitar a compreensão dos resultados, o modelo permite escolher um das três ESTATÍSTICA USANDO EXCEL / LAPPONI152 2 Desafio aos Deuses – A Fascinante História do Risco, Editora Campus, 1997. quantidades de lançamentos programados, 1.500, 3.000 e 10.000 vezes, como mostra a Figura 5.6. Na simulação do lançamento da moeda, foram utilizados a ferramenta de análise Geração de número alea- tório e o tipo de distribuição discreta que gera os números aleatórios 0 e 1 com probabilidade de 50% para cada um. Esses valores representam, respectivamente, os eventos coroa e cara. Todo o procedi- mento de simulação, da amostragem à construção do gráfico, passando pelas tabelas de acumulação do número de caras, foi mecanizado utilizando macros do VBA3 Excel. Os resultados importantes são dois: o número acumulado de lançamentos da moeda e a porcenta- gem de caras acumuladas ou a frequência relativa do evento cara representado pelo número 1. O mode- lo deve ser utilizado da seguinte forma: � Na caixa de grupo Número de lançamentos da moeda, selecione o número de lançamentos deseja- dos clicando no botão de opção correspondente. � Pressione o botão Nova Simulação para ativar a macro que realizará a simulação completa do lança- mento de uma moeda a quantidade de vezes selecionada. Análise dos resultados da simulação A probabilidade teórica de obter cara no lançamento de uma moeda é 0,50 ou 50%. Entretanto, esse re- sultado não significa que depois de lançar uma moeda, por exemplo, cem, mil, dez mil ou mais vezes seguidas ocorrerão exatamente 50% de caras e 50% coroas. Os gráficos registrados nas Figuras 5.1, 5.6 e 5.7 mostram a frequência relativa do evento cara para simulações com 1.500, 5.000 e 10.000 lança- mentos de uma moeda. � O gráfico das frequências relativas de caras da Figura 5.1 começa ao redor de 54%, segue com oscila- ções abaixo de 50% e termina com um valor um pouco abaixo de 50% depois de completar 1.500 lançamentos. � O da Figura 5.6 começa ao redor de 64% e continua diminuindo com pequenas oscilações até con- cluir ao redor de 52% depois de completar 1.500 lançamentos. � O primeiro gráfico da Figura 5.7, para 5.000 lançamentos, começa com 44%, permanece oscilan- do a maior parte da simulação abaixo de 50% e termina com um valor ao redor de 51%. O segundo CAPÍTULO 5 / PROBABILIDADE 153 3 VBA – Visual Basic for Applications. FIGURA 5.6 Simulação de 1.500 lançamentos de uma moeda. gráfico, de 10.000 lançamentos, começa com 60% e permanece acima de 50% nos primeiros 5.500 lançamentos aproximadamente, depois permanece abaixo de 50% até concluir com um valor ao redor de 49%. Sugerimos que você realize várias simulações seguidas para cada quantidade de lançamentos pro- gramados e tente se sensibilizar com os resultados, primeiro em cada grupo de lançamentos, 1.500, 5.000 e 10.000, e depois tentando comparar os resultados entre esses grupos. Tente perceber que a pro- babilidade teórica de um evento seria o limite de sua frequência relativa e, pela lei dos grandes núme- ros, ao aumentar o número de experimentos a frequência relativa de cada evento se aproximará do seu valor teórico. Contudo, os exemplos obtidos com o modelo de simulação mostram que 1.500 ou 10.000 lançamentos podem apresentar resultados parecidos, o que nos faz pensar que a quantidade de lançamentos não tem tamanho ou há algum conceito que está fugindo ao nosso raciocínio. Voltemos para Peter Bernstein “... Suponha que você atire uma moeda repetidamente. A lei dos grandes números não diz que a média de suas jogadas se aproximará de 50% à medida que você aumentar o número de jogadas; a matemática elementar diz isto, poupando-lhe a tediosa tarefa de atirar a moeda repetidamente. Pelo contrá- rio, a lei enuncia que aumentar o número de jogadas aumentará igualmente a probabilidade de que a razão entre as caras e o total de jogadas se desviará de 50% abaixo de uma quantidade especificada, por menor que seja. ... Não se está em busca da média real de 50%, mas da probabilidade de que o erro entre a média obser- vada e a média real seja inferior a, digamos, 2% – em outras palavras, de que o aumento do número de joga- das aumenta a probabilidade de que a média observada não se desvie em mais de 2% da média real. ... Isso não significa que não haverá erro após um número infinito de jogadas .... Tudo que a lei nos informa é que a média de um grande número de jogadas diferirá por menos de que certa quantidade especificada da média real mais provavelmente do que a média de um pequeno número de jogadas. Além disso, sempre haverá uma possibilidade de que o resultado observado difira da média real por uma quantidade maior do que o limite es- pecificado. ...” Esse conceito está presente na Estimação da média da população a partir de uma amostra representativa, tema tratado no Capítulo