Prévia do material em texto
UNIVERSIDADE ESTADUAL DE MARINGÁ CENTRO DE CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA ESTATÍSTICA USANDO O EXCEL 1 ESTATÍSTICA USANDO O EXCEL 1 INTRODUÇÃO A Estatística vai além de índices de audiência de programas de TV, taxas de desemprego, prévias eleitorais e outras. É uma ciência que tem importante papel no pensamento critico no ensino, no trabalho, na pesquisa ou mesmo no dia a dia. Fazer estatística é algo mais que manipular dados, pois cada conjunto é acompanhado por informações sucintas que permitem entender o que eles dizem. Estatística é a ciência dos dados. Envolve a coleta, a classificação, o resumo, a organização, a descrição, a analise e a interpretação de dados, visando a tomada de decisões (Vieira, 1998,) Na obtenção dos dados, deve-se atentar para a coleta. Ela deve ser realizada por meio de um instrumento capaz de fornecer as informações para atender os objetivos do trabalho. Atualmente, a utilização de planilhas eletrônicas, tem um papel importante no desenvolvimento da estatística. Um software integrado de planilhas e gráficos é o EXCEL que é utilizado como uma poderosa ferramenta para a realização de tarefas em todas as áreas, além de ser uma ferramenta acessível em quase todos ambientes. O objetivo deste curso é utilizar o Excel como ferramenta para análise de dados e construção de tabelas e gráficos. Neste curso, inicialmente são apresentadas instruções básicas e próprias do software. Posteriormente, são fornecidas instruções que auxiliam o professor do ensino fundamental e médio a usufruir dos recursos do software Excel, aperfeiçoando gradativamente suas habilidades e desenvolvendo suas competências, num processo dinâmico e construtivo. A proposta de trabalho com o auxílio do microcomputador é que o professor busque alternativas para aplicar junto aos alunos do ensino fundamental e médio, novas metodologias de ensino. 2 2 NOÇÕES BÁSICAS PARA O USO DO EXCEL 2.1 ACESSANDO O EXCEL: i) Para acessar o a partir do gerenciador de programas, clique duas vezes no ícone rotulado (ou selecione-o com o cursor e pressione Enter). ii) Também pode ser acessado clicando: Iniciar EXCEL Fig. 1 2.2 ELEMENTOS DA PLANILHA Uma planilha eletrônica de cálculo é formada basicamente por: barra de título, barra de menus, barra de ferramenta, barra de fórmula e barra de status. Toda planilha é dividida em linhas (identificadas por números) e colunas (identificadas por letras maiúsculas). A intersecção de uma linha com uma coluna é chamada de Célula. No exemplo, o endereço da célula ativa é A1 (coluna A intersecção com linha 1). Fig. 2 Célula Planilha ativa Barra de Menus Barra de Ferramentas Identificação das linhas - números Barra de fórmulas Identificação das colunas - letras 3 2.3 CRIAR ARQUIVO Para criar um arquivo, antes mesmo de digitar os dados, pode-se nomeá-lo e salva- lo, para posteriormente iniciar o trabalho de sua construção. i) Com o cursor, clique em Arquivo; a tela apresenta o quadro abaixo. Fig. 3 Clique em Salvar como. ii) A tela será como segue: Fig. 4 Selecione a unidade onde deseja gravar o arquivo. Ex.: na pasta Documents 4 Nome do arquivo: digite um nome para o arquivo de dados. Tipo: é mais conveniente usar Pasta de trabalho do Microsoft Excel. Clique em Salvar. As gravações seguintes podem ser feitas clicando no ícone . 2.4 INSERÇÃO DE DADOS i) Na célula A1 (coluna A interseção com linha 1) digite “Sexo”. Na célula B1 (coluna B intersecção com linha 1) digite “Idade”. Na célula C1 (coluna C intersecção com linha 1) digite “Altura”... ii) Em cada linha digite o sexo, a idade e as demais especificaçõeso assunto de cada aluno. Fig. 5 2.5 ABRIR UM ARQUIVO EXISTENTE Usa-se a barra de menus clicando em Arquivo Abrir, conforme Fig. 6. Fig. 6 A tela a ser preenchida será: 5 Fig. 7 À esquerda: escolhe-se a unidade. Primeiro surgirão as pastas contendo os arquivos, então, clicando duas vezes na referida pasta, surgirão os títulos dos arquivos existentes na unidade (Nome). Para abrí-lo, basta clicar duas vezes sobre o nome do arquivo desejado ou marque o arquivo e clique em abrir. Nome do arquivo: aparece o arquivo selecionado. Arquivos do tipo: confira se seu arquivo é do tipo adequado. 2.6 NOMEAR UMA PLANILHA ATIVA Pode-se trabalhar com várias planilhas simultaneamente num mesmo arquivo. É conveniente que o banco de dados, com o qual o trabalho esteja sendo realizado, permaneça em uma planilha própria, enquanto que os resultados, tabelas e gráficos ficam melhor em outras planilhas. As planilhas (ativas ou não) estão indicadas na parte inferior da tela pelos nomes PLAN1, PLAN2, PLAN3, conforme mostra a Fig. 8. Para renomear qualquer uma destas planilhas, dê dois cliques rápidos sobre o seu atual nome (ex.: PLAN1). Sobre a seleção, digite o novo nome que deseja dar à planilha, por exemplo, Dados. Caso necessite de uma quantidade maior de planilhas que o número apresentado na tela (3 planilhas), na barra da planilha existente, clique com o mouse do lado esquerdo. Fig. 8 Clique com o lado direito do mouse 6 i. Com o lado direito do mouse, Selecione: Inserir (Fig.9) Planilha (Fig.10) Fig. 9 Fig. 10 Obs: No caso de ser necessário a exclusão de uma planilha, use o procedimento exposto pela Fig.9, clique em: Editar (Excluirá a planilha). 2.7 DEFINIR TAMANHOS IGUAIS PARA DUAS OU MAIS LINHAS (OU COLUNAS): 2.7.1 SUBSEQÜENTES: Para selecionar uma linha (ou coluna) por inteiro, basta clicar no número (ou letra) que as identificam. Por exemplo, para selecionar a linha 6: Fig. 11 7 i) Suponha que seja necessário converter as linhas 6, 7 e 8 em alturas de tamanhos maiores e iguais (ou menores e iguais). ii) Ao selecionar a linha 6, arraste o mouse até a linha 8. iii) Com o cursor posicionado exatamente sobre a linha inferior da linha 8, pressione o mouse e arraste o cursor deixando a linha na largura desejada. Ao soltar o mouse, todas as linhas terão a mesma largura. O mesmo procedimento deve ser repetido para a adequação da largura das colunas. Fig. 12 2.7.2 ALTERNADAS Para selecionar linhas (ou colunas) alternadas, por exemplo, as colunas B, D e G, selecione a primeira coluna (B) e pressione a tecla Ctrl. Mantendo a tecla Ctrl pressionada, selecione a coluna D e G. Pressione então o cursor à direita da célula G e então o arraste com o auxílio do mouse até o tamanho desejado. O mesmo procedimento deve ser repetido para a adequação da altura de linhas alternadas. Fig. 13 2.8 SELEÇÃO DE CÉLULAS (ADJACENTES E NÃO-ADJACENTES) Para selecionar grupos de células distintas, o recurso utilizado é semelhante ao anterior. Por exemplo: selecione o grupo de células A2:B4 e D6:E9 (células adjacentes). i) Selecione a Célula A2 clicando sobre ela; ii) Arraste o cursor até a célula B4 (seleção de células adjacentes); iii) Para estender a seleção a outro grupo de células (D6:E9) que não seja adjacente ao primeiro grupo (A2:B4), pressione a tecla Ctrl e clique na célula D6; iv) Arraste o cursor até a célula E9 (ou seja, repita a seleção que for de seu interesse). 8 Fig. 14 2.8.1 UTILIZANDO O MOUSE: i) Selecione a quantidade de linhas oucolunas que se deseja incluir (ou excluir) e clique com o lado direito do mouse; ii) Clique em Inserir ou Excluir; Fig. 15 Obs: A linha será incluída acima da linha selecionada e a coluna à esquerda da coluna selecionada. 2.9 COPIAR E COLAR CONTEÚDOS DE UMA CÉLULA 2.9.1 CÓPIA SIMPLES DE UMA CÉLULA: Clique sobre a célula que se deseja copiar, pressione a tecla Ctrl e depois a tecla C (para copiar). Também pode-se copiar o conteúdo de uma célula, selecionando-a e com o auxílio do cursor clicar no ícone . 9 2.9.2 COLAGEM SIMPLES DE UMA CÉLULA: Após proceder a cópia desejada, escolha uma célula vazia onde deve ser colado o conteúdo copiado. Clique a tecla Ctrl e simultaneamente pressione a tecla V (para colar), ou ainda apenas, na célula de destino, clicar no ícone . 2.10 ORDENAÇÃO DE NÚMEROS E PALAVRAS Suponha que seja necessário classificar dados em ordem alfabética ou ordem numérica (crescente ou decrescente). i) Selecione as células que contenham os dados a serem classificados; Fig. 16 Na barra de menus, clique em Dados selecione um dos ícones: para ordem crescente, ou para ordem decrescente. Qualquer que seja a escolha, é necessário expandir a seleção para se preservar os dados das linhas por completo. Fig. 17 Este procedimento pode ser realizado para ordenar em relação a qualquer coluna, conservando a expansão (ou não). 10 3 DEFINIÇÕES População: É o conjunto de elementos sobre o qual desejamos obter informações. A população pode ser FINITA ou INFINITA. O número de elementos da população é representado por N. Censo: É o processo utilizado para levantar as características observáveis, abordando todos os elementos de uma população. Amostra: É um subconjunto retirado de uma população, obtido através de técnicas de amostragem. O número de elementos da amostra é representado por n. Exemplos: a) O censo no Brasil é feito a cada dez anos. Qual é a população de interesse? Todos os domicílios do Brasil. b) Em uma pesquisa de opinião para saber o resultado das eleições para prefeito de Maringá. Qual a população de interesse? Qual seria a amostra? A população são todos os eleitores de Maringá. A amostra seria um subconjunto (ex., de 1200 eleitores) da população. Variável: É o que está sendo analisado, uma característica da população ou da amostra. As variáveis classificam-se em: - Qualitativas: Quando seus valores forem expressos por categorias ou atributos (não numéricas). Podem ser: - Nominais. Ex.: sexo, cor de olhos,... - Ordinais. Ex.: Ensino: fundamental, médio, superior. - Quantitativas: Seus valores são mensuráveis e suas intensidades podem ser expressas por unidades físicas. Podem ser: - Contínuas. Quando assumem infinitos (não-enumerável) valores num intervalo. Ex.: peso, altura, ... - Discretas: Assumem valores pontuais, geralmente de números inteiros finitos ou infinitos enumeráveis. Ex: número de filhos de um casal, número de grãos de uma safra,... OBS.: Em geral, as medições correspondem às variáveis contínuas e as contagens ou enumerações, às variáveis discretas. 11 3.1 AMOSTRAGEM Muitas vezes, na prática, não é possível observar toda a população. Então o pesquisador utiliza-se de uma amostra para ter uma estimativa da população. Entretanto, antes de selecionar uma amostra, é preciso conhecer as técnicas de amostragem. As técnicas de amostragem não são objeto de estudo neste curso. Amostragem: É o processo de se extrair ou obter amostras. Exemplos: a) Tirar conclusões sobre a altura, peso, idade de 600 estudantes da escola, observando apenas 80 estudantes. Tamanho da população (N) = 600 e o tamanho da amostra (n) = 80. b) Investigar a porcentagem de peças defeituosas fabricadas em uma indústria, durante 6 dias, examinando 20 peças por dia. População = todas as peças fabricadas durante 6 dias e a Amostra = o subconjunto de 6x20=120 peças, selecionadas aleatoriamente para estudo. Comparação entre amostragem e censo: Amostragem é mais vantajosa: Censo é mais vantajoso: - População infinita - Tempo limitado - Teste destrutivo - Custo muito alto - População pequena - Tamanho da amostra grande em relação a população - Exigência de precisão completa 3.2 TAMANHO DA AMOSTRA Geralmente as populações são grandes demais para serem estudadas na sua totalidade, neste caso, o mais comum é estudar amostras retiradas dessa população. As amostras devem ser representativas da população para que os resultados possam ser generalizados. Para definir o tamanho de uma amostra o pesquisador deve conhecer o tamanho da população a ser estudada e então definir o erro máximo da estimativa e a confiabilidade desejada. Apresentamos abaixo as fórmulas mais utilizadas para o cálculo do tamanho da amostra: 12 ]z1)(Ne[4 Nz n 22 2 (populações finitas) 2 e z 4 1 n (populações infinitas) Exemplo: Deseja-se calcular o tamanho de uma amostra para uma população de tamanho finito, N=404, com erro máximo estipulado em e=0,05 (5%) e uma confiança de 95%. Obs.: O tamanho da amostra deve ser sempre arredondado para cima. 4 TABELAS PARA VARIÁVEIS QUALITATIVAS Para as variáveis qualitativas tem-se um grande número de possibilidades na representação gráfica e cabe ao pesquisador escolher a que melhor represente os dados analisados, cuidando para que as normas básicas (ABNT, IBGE, ... ) de apresentação sejam respeitadas. 4.1 CONSTRUÇÃO DE TABELAS 4.1.1 TABELA SIMPLES A construção de tabelas para variáveis Qualitativas ou Quantitativas discretas pode ser feita de acordo com os seguintes procedimentos: i) Selecione uma planilha onde a tabela será montada; ii) Na barra de menus selecione: Inserir Tabela DinâmicaTabela Dinâmica; Fig. 18 confiança = 95% z = 1,96 erro = 5% e = 0,05 N = 404 tamanho amostra n = 197,165 = 198 13 iii) Criar Tabela Dinâmica: Fig. 19 iv) No quadro Selecionar uma tabela ou intervalo, selecione os dados (podem estar em outra planilha), inclusive com os títulos de cada coluna (ou linha) que se encontram na planilha (no exemplo, os dados estão na planilha Dados e a tabela está sendo construída na planilha Tabelas). O quadro para definir as variáveis será conforme Fig.20. Fig. 20 v) Para a construção de uma tabela simples a variável que se deseja tabular deve ser arrastada para o campo “Rótulos de linha” e para o “Valores”. É importante lembrar que no campo Valores a variável desejada deve vir acompanhada da função Contagem; caso isso não aconteça será necessário clicar na seta do campo, selecionar Configurações do campo de Valor e dentre as opções, escolher a função Contagem, conforme a Fig. 21. 14 Fig. 21 vi) Automaticamente a tabela estará concluída.. Fig. 22 vii) Note que pela seta dos rótulos de linhas, os níveis podem ser retirados ou não. Por exemplo, para retirar a observação (vazio), basta clicar em vazio. Fig. 23 Por meio da Fig. 22, observa-se que o resultado será uma tabela cuja formatação não se apresenta segundo as normas exigidas. Para que haja mais flexibilidade no trabalho com uma tabela, deve-se copiá-la e fazer uma Colagem Especial, colando-a, numa célula qualquer, como Valores (Fig.25). 15 Fig. 24 Fig. 25 A próxima etapa será construir o percentual referente a cada cor ou raça identificada entre os alunos. Basta aplicara fórmula para a primeira linha e posteriormente colá-la nas demais linhas. O percentual da frequência absoluta também é conhecido como frequência elativa e calculado da seguinte forma: . Para dividir o número de alunos da cor/raça amarela (Fi= 33) pelo total de alunos entrevistados (n= 430) e multiplicar o resultado por 100, proceda da seguinte maneira: viii) Clique na coluna seguinte á contagem e na mesma linha. ix) Digite o sinal de = x) Clique na célula da frequência absoluta (33), digite o sinal de divisão (/) e clique sobre a célula da total da amostra (430). Multiplique (*) por 100. Note que quando for arrastar para colar, o valor da célula total devera permanecer fixa; isto é conseguido inserindo $ antes do endereço da coluna (letra) e da linha (número). Isto é facilmente obtido apertando a tecla F4 imediatamente ao clicar no valor 430. O símbolo ($) é fixador de linhas e colunas. Aperte a tecla Enter. A fórmula descrita deverá ter a forma da Fig. 26. 16 Fig. 26 Agora selecione esta célula e arraste-a até à última linha da tabela. Fig. 27 Nota: Observe que a variável Cor ou raça na tabela no Excel foi ordenada as em ordem alfabética. Para ordená-la de acordo com a necessidade, ainda no Excel, siga os seguintes procedimentos: a) Na coluna à esquerda da especificação da variável, digite a ordem desejada; selecione a coluna (Fig. 28). Fig. 28 17 b) Acione o comando Classificar em ordem crescente (lembrando que deve sempre observar que deve obedecer sempre, Expandir a seleção. A partir desta nova tabela, a mesma pode ser copiada, colada e formatada no Word, de acordo com as normas estabelecidas. (Tópico 4.2) 4.1.2 TABELAS DE DUPLA ENTRADA (OU TABELAS COMPARATIVAS) i) Para a construção de uma tabela de dupla entrada, seguem-se exatamente os mesmos passos da tabela simples (até Fig. 27). Acrescentando que a variável que corresponde às linhas deve ser arrastada para o campo Rótulos de Linha, enquanto que a variável que corresponde às colunas deve ser arrastada para o campo Rótulos de Coluna. A variável que foi colocada no campo Rótulos de linha também deve ser especificada para o campo Valores. Na Fig. 29 está representado o preenchimento para as variáveis Cor/Raça (linha) e Sexo (coluna). Fig. 29 Lembre-se de ordenar adequadamente a variável cor. 4.2 FORMATAÇÃO DA TABELAS: A formatação de uma tabela deve seguir as normas vigentes. Para facilitar a edição, ela pode ser copiada da planilha do Excel e colada no documento do Word. A Tabela 01 corresponde a uma tabela simples formatada. 18 Tabela 1: Cor ou raça de uma amostra dos alunos da Universidade Estadual de Maringá. Maringá, 02/2016. (Tabela simples) Cor ou Raça Nº de Alunos Percentual Amarela 33 7.7 Branca 329 76.5 Parda 54 12.6 Preta 9 2.1 Outra 5 1.2 Total 430 100.0 Fonte: Relatório do projeto de pesquisa 570/2013. Após colarmos a tabela no WORD, é preciso adequá-la ao tamanho da página. i) Selecione a tabela recentemente colada; ii) Apenas com o objetivo de facilitar procedimentos, Na Página Inicial, na barra parágrafo, seleciona-se o ícone relacionado às bordas, selecionam-se Todas as bordas, conforme Fig. 30. Fig. 30 iii) Clique com o lado direito do mouse Auto Ajuste Ajustar-se automaticamente à Janela (conforme Fig. 29). 19 Fig. 31 iv) Confira se todas as colunas estão identificadas corretamente (cabeçalho das variáveis); v) Insira as bordas superiores e inferiores conforme Tabela 01. Para formatar uma tabela comparativa, os procedimentos iniciais são os mesmos (de i a v). No Word, a tabela estará com a seguinte forma: Fig. 32 vi) Selecione as duas colunas superiores centrais (as colunas que corresponde os níveis da variável sexo, na linha correspondente), como na Fig. 32; vii) Quando tais colunas forem selecionadas, sugirá na parte superior da barra de ferramentas, os ícones das Ferramentas de Tabela: Fig. 33 viii) Clique em Mesclar Células e alinhamento centralizado ; ix) Selecione todas as células centrais (Fig. 35), Masculino e Feminino, Layout Distribuir Colunas (Fig. 35); 20 Fig. 34 Nesta etapa outras correções devem ser procedidas. Lembrando que se houver interesse em que as categorias sejam ordenadas por outra lógica, isto devera ser procedido ainda com a tabela no arquivo do Excel. x) Também as linhas da especificação da variável devem ser mescladas, como no ítem viii, deste tópico. xi) Ainda em Layout, a especificação da variável deverá ter seu alinhamento centralizado. Cor ou Raça Sexo Feminino Masculino Total Amarela 20 13 33 Branca 185 144 329 Parda 21 33 54 Preta 3 6 9 Outra 3 2 5 Total 232 198 430 xii) Selecione a tabela, clique o mouse do lado direito. Acione Bordas e Sombreamento; 21 Fig. 35 xiii) Insira as bordas conforme procedimentos da tabela simples. Nesta etapa são apresentadas as bordas conforme exigência do periódico; Tabela 2: Cor ou Raça dos alunos da Universidade Estadual de Maringá amostrado segundo o sexo dos mesmos. Maringá, 02/2016. (Tabela comparativa) Cor ou Raça Sexo Feminino Masculino Total Branca 185 144 329 Parda 21 33 54 Amarela 20 13 33 Preta 3 6 9 Outra 3 2 5 Total 232 198 430 A formatação de uma tabela deve seguir as normas vigentes. Destaca-se que quando a variável for quantitativa ordinal, a sequência dos níveis da categoria deve ser respeitado; portanto, ainda na planilha do Excel ela deve ser ordenada (procedimento já detalhado, pag. 16, Fig. 28). Tabela 3: Intensidade que o estressor falta de disciplina/hábito de estudo interfere no rendimento acadêmico do aluno da Universidade Estadual de Maringá. Maringá, 02/2016. Intensidade Nº de alunos Percentual Pouquíssimo 116 27.0 Pouco 113 26.3 Indiferente 71 16.5 Muito 87 20.2 Muitíssimo 43 10.0 Total 430 100.0 22 5 GRÁFICOS PARA VARIÁVEIS QUALITATIVAS 5.1 GRÁFICO DE BARRAS É um gráfico formado por retângulos horizontais de larguras iguais, onde cada um deles representa a intensidade de uma modalidade ou atributo. Pode-se dizer que é um gráfico para resumir um conjunto de dados categóricos. É recomendável que cada coluna conserve uma distância entre si de aproximadamente 2/3 da largura da base de cada barra, evidenciando deste modo, a não continuidade na sequência dos dados. O objetivo deste gráfico é de comparar grandezas e é recomendável para variáveis cujas categorias tenham designações extensas. Fig. 36 5.2 GRÁFICO DE COLUNAS É o gráfico mais utilizado para representar variáveis qualitativas. Mostram comparações entre itens individuais em um período específico, ou somente comparações entre itens. Difere do gráfico de barras por serem seus retângulos dispostos verticalmente ao eixo das abscissas, sendo mais indicado quando as designações das categorias são breves (exemplo apresentado nesta apostila). Como no gráfico de barras, neste tipo de gráfico deve ser preservada a distância entre cada retângulo de, aproximadamente, 2/3 da largura da base de cada coluna. O número de colunas ou barras do gráfico não deve ser superior a 12 (doze) – como no caso das tabelas.. Ao se descrever simultaneamente duas ou mais categorias para uma variável, é conveniente fazer uso dos gráficos de barras ou colunas justapostas (ou sobrepostas), chamados de gráficos comparativos.Este tipo de gráfico só deve ser utilizado quando apresentar até três elementos para uma série de no máximo quatro valores. Fig. 37 23 5.3 GRÁFICO DE SETORES É um tipo de gráfico circular, comumente chamado de gráfico de pizza que corresponde a um diagrama circular onde os valores de cada categoria estatística representadas são proporcionais às respectivas medidas dos ângulos. Este gráfico pode ser expresso por frequências absolutas ou relativas (percentagens). É utilizado basicamente para representar dados qualitativos nominais. No gráfico de setores a variável em estudo é projetada num círculo, de raio arbitrário, dividido em setores com áreas proporcionais às frequências das suas categorias. São indicados quando se deseja comparar cada valor da série com o total. Recomenda-se seu uso para o caso em que o número de categorias não é grande e que não obedecem a alguma ordem específica. O procedimento para o cálculo do ângulo correspondente a cada categoria é feito por meio de simples proporções: 360º que corresponde a um círculo completo está para o total da amostra, assim como xº está para o total de indivíduos que pertencem à categoria desejada. i 360º xº n F Fig. 38 5.4 GRÁFICO DE LINHAS Sua aplicação é mais indicada para representações de séries temporais, ou seja, exibem dados contínuos ao longo do tempo, sendo por tal razão, conhecidos também como gráficos de séries cronológicas. São utilizados para mostrar tendências em dados a intervalos iguais. Sua construção é feita colocando-se no eixo vertical (y) a mensuração da variável em estudo e na abscissa (x), as unidades da variável numa ordem crescente. É Importante ressaltar que ele não enfatiza a quantidade de mudanças ao longo do período, mas sim o fluxo de tempo e a taxa de mudança. Este tipo de gráfico permite representar séries longas, o que auxilia detectar suas flutuações tanto quanto analisar tendências. Como podem ser representadas várias séries em um mesmo gráfico, é bastante empregado para destacar diferenças e associações entre elas. 24 Fig. 39 5.4.1 CONSTRUÇÃO DO GRÁFICO PARA UMA ÚNICA VARIÁVEL, NO EXCEL Para o caso da Tabela 01 dada como exemplo, selecione os dados de interesse (corpo da tabela). O gráfico pode ser executado considerando as frequências absolutas ou relativas (percentuais). i) Primeiramente selecione as colunas que serão representadas. ii) Na Barra de Menus, clique em Inserir Gráficos (talvez em sua tela já possa ir direto para o tipo de gráfico, item iii) Fig. 40 iii) Como as especificações das variáveis são pouco extensas, o gráfico de colunas. Ao clicar nesta opção, vários tipos de gráficos podem ser escolhidos: dimensões 2 ou 3. Fig. 41 25 iv) Escolhendo Coluna 2D, tem-se a Fig.42, mas que necessita ser formatada: Fig. 42 v) A legenda deve ser deletada, pois não há necessidade da mesma para identificar a variável pois ela é única; da mesma forma, as linhas que aparecem no gráfico. Fig. 43 Faz-se necessário identificar os eixos e aproximar as colunas (2/3 da base dos retângulos). vi) Basta selecionar as colunas do gráfico clicando em uma das colunas; observe que todas deverão ficar selecionadas. Com o lado direito do mouse, clique em Formatar Série de Dados. Fig. 44 0 100 200 300 400 Nº de Alunos Nº de Alunos 0 50 100 150 200 250 300 350 Amarela Branca Parda Preta Outra 26 vii) Surgirá uma tela como a apresentada na Fig.45. Na opção Largura do Espaçamento, reduzir para 65% a 70%. Fig. 45 viii) Para nomear o eixo das frequências (eixo vertical principal), selecione Layout Títulos dos EixosTítulo do Eixo Vertical PrincipalTítulo Girado. Digite uma das opções: Percentual, Frequência ou a especificação da medida. Fig. 46 ix) Para mudar a cor, clique sobre uma das colunas, selecione Formatar Série de DadosPreenchimento. Escolha o tipo, a cor e finalize. 27 Fig. 47 O gráfico resultante será o apresentado na Fig.48. Fig. 48 5.5 CONSTRUÇÃO DE GRÁFICOS COMPARATIVOS (DUAS VARIÁVEIS) Para estudarmos o caso de gráficos comparativos, considere Tabela 02, a qual apresenta a cor ou raça do aluno considerando o sexo do mesmo. i) Selecione as células que contenham a opção de interesse (A2 ate C7), ou seja, as colunas das categorias da variável com suas respectivas frequências absolutas, conforme Fig. 49 (corpo da tabela); 0 10 20 30 40 50 60 70 80 90 Branca Parda Amarela Preta Outra P er ce n tu al 28 Fig. 49 ii) Como no tópico anterior, na barra de ferramentas, selecione Inserir e escolha o gráfico adequado. Fig. 50 iii) O gráfico obrigatoriamente deverá apresentar legenda para especificar as variáveis. Fig. 51 Para formatar o gráfico, os procedimentos são semelhantes aos apresentados para gráficos simples. iv) Para retirar as linhas de grade, basta selecioná-las (clicando em uma delas) e deletá- las. O procedimento para mudanças das cores segue o mesmo procedimento já citados anteriormente (5.4.1, viii e ix). 0 20 40 60 80 100 120 140 160 180 200 Branca Parda Amarela Preta Outra Feminino Masculino 29 O gráfico deverá ter a seguinte aparência: Fig. 52 6 VARIÁVEIS QUANTITATIVAS A quantidade do volume de dados dificulta ou até mesmo torna impraticável tirar conclusões a respeito do comportamento das variáveis e, em particular, de variáveis quantitativas sem uma análise mais aprofundada. O ponto de partida para sua interpretação é colocar os dados brutos de cada uma das variáveis quantitativas em uma ordem crescente ou decrescente, denominado rol. A visualização de algum padrão ou comportamento continua sendo de difícil observação ou até mesmo cansativa, mas torna-se rápido identificar maiores e menores valores ou concentrações de valores no caso de variáveis quantitativas. Estes números (menor e maior valor observado) servem de ponto de partida para a construção de tabelas para estas variáveis. Vale destacar que para as variáveis qualitativas, pode-se também construir um rol em ordem temporal ou alfabética, por exemplo. É a diferença entre o menor e maior valor observado da variável X, denominada amplitude total (AT = xmax – xmin), que definirá a construção de uma distribuição de freqüência pontual ou em classes. O ideal é que uma distribuição de frequência resuma os dados em um número de linhas que varie de 5 a 10. Nota-se que para cada tipo de variável trabalhada, tem-se um procedimento adequado para a construção de sua distribuição de freqüências. A seguir é apresentado cada um dos casos. A construção de uma distribuição de frequência pontual é equivalente à construção de uma tabela simples, onde se listam os diferentes valores observados da variável, com suas frequências absolutas, denotadas por Fi, onde o índice i corresponde ao número de 0 20 40 60 80 100 120 140 160 180 200 Branca Parda Amarela Preta Outra Fr e q u ê n ci a Feminino Masculino 30 linhas da tabela. A distribuição de frequência para dados quantitativos pode apresentar as seguintes colunas complementares, constando as frequências: A freqüência relativa, denotada por fi, e já definida anteriormente como: i i F f n onde n é o tamanho da amostra, devendo ser substituída por N se os dados forem populacionais. A soma das freqüências relativas de todas as categorias é igual a 1; afreqüência relativa em percentual, denotada por fi%, e definida como: i i F f % 100 n , representando o percentual de observações que pertencem àquela categoria. A soma das freqüências deve, agora, ser igual a 100%; a freqüência absoluta acumulada, denotada por ia F . Estas freqüências são obtidas somando-se a freqüência absoluta do valor considerado, às freqüências absolutas anteriores a este mesmo valor. a freqüência acumulada relativa, denotada por ia f % e definida como: i i a a F f % 100 n Exemplo: Construção da distribuição de frequência para variável que identifica o número de pessoas, incluindo o próprio indivíduo, que vivem da renda mensal do grupo familiar do entrevistado. 6.1 DISTRIBUIÇÃO DE FREQÜÊNCIA PONTUAL – SEM PERDA DE INFORMAÇÃO i) Selecionar os dados da variável Int.Disc./HabEst, e seguir todos os passos para o uso da Tabela Dinâmica, apresentados para variáveis qualitativas; Fig. 53 Não se esquecer de copiar a Tabela Dinâmica e colá-la como Valores, para poder 31 proceder a adequações necessárias à sua formatação. Todos os passos estabelecidos para a construção das tabelas simples devem ser observados para esta situação. A tabela, para estar completa precisa apresentar as frequências acumuladas. ii) Frequência absoluta acumulada: Na coluna seguinte à do percentual (ou frequência relativa) digite “=”, clique na célula que contém F1. (Fig.54) Fig. 54 iii) Na linha abaixo, no exemplo, célula D3, digite “=”, clique na célula acima (D2), digite o sinal “+” e clique na célula correspondente à F2 (B3). Isto significa que estamos aplicando uma fórmula para somar 24 com 54. Fig. 55 iv) Arraste esta fórmula até a célula que corresponda à linha anterior à que contém o total das frequências absolutas (D9). v) Para determinar a frequência relativa acumulada, pode-se aplicar o mesmo processo da frequência absoluta acumulada ou então calcular o percentual da frequência absoluta acumulada sobre o tamanho da amostra. Para a primeira possibilidade, digite na primeira linha da coluna adjacente “=C2” e posteriormente, na célula imediatamente inferior, “=E2+C3”. Pelo segundo método, calcula-se o percentual das fi usando diretamente os valores especificados. Fig. 56 32 vi) Arraste esta fórmula ate a célula que corresponda à linha anterior à que contém o total das frequências absolutas (E9). O resultado será: Dependentes da Renda Familiar Frequência absoluta Frequência relativa Frequência absoluta acumulada Frequência relativa acumulada 1 24 5.6 24 5.6 2 54 12.6 78 18.1 3 110 25.6 188 43.7 4 161 37.4 349 81.2 5 62 14.4 411 95.6 6 15 3.5 426 99.1 7 4 0.9 430 100.0 Total 430 100.0 - - 6.1.1 GRÁFICOS PARA VARIÁVEIS QUANTITATIVAS DISCRETAS – GRÁFICO DE BASTÕES 6.1.2 GRÁFICO DE BASTÕES: Este gráfico é formado por segmentos de retas perpendiculares ao eixo horizontal (eixo da variável), cujo comprimento corresponde à frequência absoluta ou relativa de cada elemento da distribuição. Suas coordenadas não podem ser unidas porque a leitura do gráfico deve tornar claro que não há continuidade entre os valores individuais assumidos pela variável em estudo. Porém, por limitações do Excel, é comum substituí-lo por um gráfico de colunas que é o que melhor se aproxima de um gráfico de bastões. i- Na tabela construída, selecione apenas os dados da coluna que contenham a Fi ii- Selecione InserirGráficosColunas (esta etapa é exatamente como na Fig.41, pag. 24) iii- Clique com o lado direito do mouse sobre uma das colunas, ative Formatar Séries de Dados, e na largura do espaçamento, arraste para o valor máximo Fig. 57 33 Note que para este exemplo, a sequencia da variável está completa. Caso tal não ocorresse, seriam necessárias readequações. Exemplo: Suponha que a sequencia do número de dependentes fosse 3, 4, 5, 7, 9, 10 e 11. vii) Para a construção do gráfico, deviríamos completar a sequência, inserindo os valores 6 e 8 na ordem, atribuindo frequência zero aos mesmos. Fig. 58 Observe na Fig. 58, que o nome das variáveis no eixo x estão incorretas. O próximo passo é atribuir o nome correto das variáveis. viii) Selecione com o lado direito do mouse um dos valores do eixo horizontal. Clique em Selecionar dados Fig. 59 ix) No quadro de Rótulos do Eixo Horizontal (Categorias), vá para Editar Fig. 60 34 x) Selecione os dados da tabela que contenham os nomes das variáveis, Ok; Fig. 61 Os próximos passos correspondem apenas à formatação adequada. Fig. 62 6.2 DISTRIBUIÇÃO DE FREQUÊNCIA EM CLASSES – COM PERDA DE INFORMAÇÃO “A distribuição de frequências em classes é apropriada para apresentar dados quantitativos contínuos ou discretos com um número elevado de possíveis valores” (Medronho, 2003, p231). É necessário dividir os dados em intervalos ou faixas de valores que são denominadas classes. Uma classe é uma linha da distribuição de frequências. O menor valor da classe é denominado limite inferior (li) e o maior valor da classe é denominado limite superior (Li). O intervalo ou classe pode ser representado das seguintes maneiras: a) li |____ Li, onde o limite inferior da classe é incluído na contagem da freqüência absoluta mas o superior não; b) li ____| Li, onde o limite superior da classe é incluído na contagem mas o inferior não; c) li |____| Li, onde tanto o limite inferior quanto o superior são incluídos na contagem; d) li ____ Li, onde os limites não fazem parte da contagem. 0 20 40 60 80 100 120 140 160 180 3 4 5 6 7 8 9 10 11 Fr eq u ên ci a Nº de dependentes 35 Pode-se escolher qualquer uma destas opções sendo o importante tornar claro no texto ou na tabela qual está sendo usada. “Se houver muitos intervalos, o resumo não constituirá grande melhoria com relação aos dados brutos. Se houver muito poucos, um grande volume de informação se perderá. Embora não seja necessário, os intervalos são frequentemente construídos de modo que todos tenham larguras iguais, o que facilita as comparações entre as classes”. (Pagano, 2004, p.11). Milone (2004, p.36) apresenta os seguintes critérios para a determinação do número de intervalos, denotado por k: 1. Raiz quadrada: √ 2. Log (Sturges): 3. ln (Milone): para as quais n é o número de elementos da amostra, AT é a amplitude total dos dados e d é o número de decimais de seus elementos. Deve-se lembrar que sendo k o número de classes, o resultado obtido por cada um dos critérios deve ser o número inteiro mais próximo ao obtido. Milone (2004) acrescenta ainda que, adotando o princípio de que os agrupamentos devem ter no mínimo cinco e no máximo 20 classes, o critério da raiz é valido para 25≤ n ≤400, o do log para 16 n 572.237 e o do ln para 20 n 36.315. Por outro lado, o pesquisador pode definir o número de classes baseando-se em sua experiência. Determinado o número de classes da distribuição de frequências, o próximo passo é determinar a amplitude de cada classe, h, que por uma questão de bom senso deveria ser um número com a mesma precisão dos dados. A amplitude de classe, h, é definida por: AT h k e assim todas as classes terão a mesma amplitude, o que permitirá a construção de gráficos e cálculo de medidas descritivas. No caso de uma distribuição de frequência contínua, ou em classes, uma outra coluna pode ser acrescentada à tabela. É a coluna dos pontos médios, denotada por x i e definida comoa média dos limites da classe: i i i l L x , i 1,..., k 2 . Estes valores são utilizados na construção de gráfico e na obtenção de medidas descritivas com o auxílio de calculadoras. Tomemos como exemplo, a tabulação da variável peso. Para este tipo de variável é mais simples mesclarmos. 36 6.2.1 CONSTRUÇÃO DE TABELA COM PERDA DE INFORMAÇÕES (POR CLASSES) Para agilizar o trabalho de resumir e apresentar os dados, primeiramente é necessário assegurar que na barra de ferramentas, esteja disponibilizada a aba “Análise de dados”. Caso ela não esteja disponível na barra de Menus Dados, basta inseri-la: i) Clique em ArquivoOpçõesSuplementos. Na tela que surgir, no quadro Gerenciar, deverá ser selecionado Suplementos do Excel Ir... Fig. 63 ii) Na próxima tela, Suplementos, marque Ferramentas de Análise. Fig. 64 Assim estamos em condições de facilmente construir os limites superiores das classes e seu respectivo gráfico. Para tal, antes podemos identificar as medidas descritiva (serão detalhadas posteriormente). iii) Selecione a coluna que contém a variável que se deseja analisar, como por exemplo, a coluna da variável peso (coluna D). iv) Na barra de Menus, selecione DadosAnálise de DadosEstatística descritiva 37 Fig. 65 v) Em Intervalo de entrada, selecione os dados os quais deseja distribuir; Agrupado por: Colunas; Rótulo na primeira linha, marque se os dados estiverem identificados pelo seu rótulo; Intervalo de saída: clique a célula que deseja inserir os resultados; acione Resumo estatísticoOk Quadro 1: Medidas descritivas para a variável peso. Peso Média 68.03535 Erro padrão 0.746089 Mediana 65 Modo 80 Desvio padrão 15.47123 Variância da amostra 239.3589 Curtose 1.262555 Assimetria 0.901023 Intervalo 103 Mínimo 39 Máximo 142 Soma 29255.2 Contagem 430 Para determinar o número de classes da distribuição, k, como n= 430, MAIOR QUE 100, usaremos a fórmula: (pag. 36, item 3). vi) Em uma coluna, digite k (numero de classes) e abaixo, h (amplitude da classe) (Fig. 66); vii) Na coluna que seguinte e m esma linha, digite a fórmula “=-1+2*ln(430)”. O valor deve ser aproximado para um número inteiro. 38 viii) Para determinar a amplitude da classe, h, dividimos o intervalo (valor máximo – valor mínimo) pelo número de classes; h= 9 Fig. 66 ix) Iniciar uma nova tabela, começando pelos limites superiores das classes. Copie na célula abaixo do Limite superior, o conteúdo do valor Mínimo das medidas “=B11”. Fig. 67 x) No limite superior, digite a fórmula “=G2+9-0.00001”. A subtração de 0.00001 deve-se ao fato de nos assegurarmos que o limite superior não esteja contido no intervalo. Note que a última célula apresenta um valor 147, ou seja, 5 unidades maior que o valor máximo da variável, 142. Para equilibrar essa diferença, pode ser digitado, por exemplo, 37 no primeiro limite inferior; imediatamente os valores serão corrigidos. xi) Para os demais limites inferiores, abaixo da célula que contém o primeiro limite, digite a formula “=E2+9”; note-se que não se faz subtração neste limite. Arraste a fórmula até a última linha. Limite inferior Limite superior 37 |--- 46 46 |--- 55 55 |--- 64 64 |--- 73 73 |--- 82 82 |--- 91 91 |--- 100 100 |--- 109 109 |--- 118 118 |--- 127 127 |--- 136 136 |--- 145 39 xii) A frequência absoluta pode ser determinada por dois processos: 1ª) Selecionar a coluna à direita do limite superior – Fig. 68. Fig. 68 xiii) Pelo comando Inserir função EstatísticaFrequênciaOk Fig. 69 xiv) No quadro da Frequência, em Matriz_dados deve-se selecionar todos os dados da variável peso (não pode ser incluído o rótulo). Os dados podem estar na mesma planilha ou em outra planiçlha. Em Matriz_bin, seleciona-se os dados dos limites superiores das classes, conforme quadro que segue. Fig. 70 xv) Simultaneamente, pressione as teclas Ctrl + Shift+Enter. 40 Limite inferior Limite superior Frequência absoluta 37 |--- 46 14 46 55 86 55 64 101 64 73 83 73 82 79 82 91 35 91 100 24 100 109 1 109 118 5 118 127 1 127 136 0 136 145 1 Total 430 A frequência relativa e as respectivas frequências acumuladas seguem exatamente os mesmos passos que a distribuição para variáveis com perda de informações. Tabela 4: Distribuição do peso dos alunos da Universidade Estadual de Maringá. Maringá, 02/2016. Pesos Frequencia absoluta Frequencia relativa Frequência absoluta acumulada Frequência relativa acumulada 37 |--- 46 14 3.3 14 3.3 46 |--- 55 86 20.0 100 23.3 55 |--- 64 101 23.5 201 46.7 64 |--- 73 83 19.3 284 66.0 73 |--- 82 79 18.4 363 84.4 82 |--- 91 35 8.1 398 92.6 91 |--- 100 24 5.6 422 98.1 100 |--- 109 1 0.2 423 98.4 109 |--- 118 5 1.2 428 99.5 118 |--- 127 1 0.2 429 99.8 127 |--- 136 0 0.0 429 99.8 136 |--- 145 1 0.2 430 100.0 Total 430 100.0 - - 6.2.2 CONSTRUÇÃO DE GRÁFICOS PARA UMA VARIÁVEL QUANTITATIVA DISCRETA 6.2.3 HISTOGRAMA É um gráfico de colunas justapostas que representa uma distribuição de frequência para dados contínuos ou uma variável discreta quando esta apresentar muitos valores distintos. Ele mostraa variação sobre uma faixa específica. O histograma foi desenvolvido 41 por Guerry em 1833 para descrever sua análise de dados sobre crime. Desde então, os histogramas tem sido aplicados para descrever os dados nas mais diversas áreas Para sua construção, no eixo horizontal são dispostos os limites das classes segundo as quais os dados foram agrupados enquanto que o eixo vertical corresponde às frequências absolutas ou relativas das mesmas. Quando os dados são distribuídos em classes de mesma amplitude, todas as colunas apresentam bases iguais com alturas variando em função das suas frequências absolutas ou relativas. Neste caso, tem-se que a área de cada retângulo depende apenas da sua altura. Um histograma pode representar uma distribuição com classes de tamanho diferentes, ou seja, dados agrupados em classes de dimensões diferentes e neste caso, a área de cada coluna já não é mais proporcional à sua altura. O enfoque deste texto é trabalhar com classes de mesmo tamanho. Um Histograma, no Excel, pode ser feito diretamente por meio da ferramenta Análise de dados. i) Selecione DadosAnálise de dadosHistograma Fig. 71 ii) O preenchimento desta etapa é bastante semelhante à utilizada para obter as medidas. A No quadro do Intervalo de saída deve ser clicado a célula onde desejamos que os resultados devem ser apresentados. No exemplo, A18. Assinalar Resultado do gráfico Ok. Fig. 72 Automaticamente tem-se o histograma (não formatado) e as frequências absolutas que já havia sido calculada pela função Frequência. 42 Fig. 73 A partir desta fase, repete-se os procedimentos para formatar o histograma de acordo com as normas vigentes. Fig. 74 7 MEDIDAS DESCRITIVAS 7.1.1 MÉDIA ARITMÉTICA A média aritmética ̅ é a soma de todos os valores observados da variável dividida pelo número total de observações. Sob perspectiva geométrica, a média de uma distribuição é o centro de gravidade, e representa o ponto de equilíbrio de um conjunto de dados. É a medida de tendência central mais utilizada para representar a massa de dados. Seja (x1, ..., xn) um conjunto de dados. A média é dada por:N i i 1 x N ou n i i 1 x X n 14 86 101 83 79 35 24 1 5 1 0 1 0 46 55 64 73 82 91 100 109 118 127 136 145 Mais Fr e q ü ên ci a Peso (kg) 43 para dados populacionais ou amostrais, respectivamente. Caso os dados estejam apresentados segundo uma distribuição de freqüência, tem-se: k i i i 1 x F N ou k i i i 1 x F X n . Observe que no caso de dados agrupados a média é obtida a partir de uma ponderação, onde os pesos são as freqüências absolutas de cada classe e xi é o ponto médio da classe i. Citam-se a seguir, algumas propriedades da média aritmética: 1. a média é um valor calculado facilmente e depende de todas as observações; 2. é única em um conjunto de dados e nem sempre tem existência real, ou seja, nem sempre é igual a um determinado valor observado; 3. a média é afetada por valores extremos observados; 4. por depender de todos os valores observados, qualquer modificação nos dados fará com que a média fique alterada. Isto quer dizer que somando-se, subtraindo-se, multiplicando-se ou dividindo-se uma constante a cada valor observado, a média ficará acrescida, diminuída, multiplicada ou dividida desse valor. 5. a soma da diferença de cada valor observado em relação à média é zero, ou seja, a soma dos desvios é zero. i(x x) 0 A propriedade 5,é de extrema importância para a definição de variância, uma medida de dispersão a ser definida posteriormente. Destaca-se, ainda, que a propriedade 3, quando se observam no conjunto dados discrepantes, faz da média uma medida não apropriada para representar os dados. Neste caso, não existe uma regra prática para a escolha de uma outra medida. O ideal é, a partir da experiência do pesquisador, decidir pela moda ou mediana. Para ilustrar, considere o número de filhos, por família, para um grupo de 8 famílias: 0, 1, 1, 2, 2, 2, 3, 4. Neste caso, a média é x 1,875 filhos por família. Entretanto, incluindo ao grupo uma nova família com 10 filhos, a média passa a se x 2,788 , o que eleva em 48,16% o número médio de filhos por família. Assim, ao observar a média, pode-se pensar que a maior parte das famílias deste grupo tem três filhos quando, na verdade, apenas uma tem três filhos. 44 7.1.2 MODA A moda (Mo) é o valor que apresenta a maior frequência da variável entre os valores observados. Para o caso de valores individuais, a moda pode ser determinada imediatamente observando-se o rol ou a frequência absoluta dos dados. Por outro lado, em se tratando de uma distribuição de frequência de valores agrupados em classes, primeiramente é necessário identificar a classe modal, aquela que apresenta a maior frequência, e a seguir a moda é calculada aplicando-se a fórmula: i i 1 o i i i 1 i i 1 h(F F ) M l (F F ) (F F ) onde i é a ordem da classe modal; li é o limite inferior da classe modal; h é a amplitude da classe modal; Fi é a frequência absoluta da classe modal; i 1F é a frequência absoluta da classe anterior à classe modal; i 1F é a frequência absoluta da classe posterior à classe modal. É relevante salientar que um conjunto de dados pode apresentar todos seus elementos com a mesma frequência absoluta, e neste caso não existirá um valor modal, o que significa que a distribuição será classificada como amodal. Pode ocorrer, também, casos em que a sequência de observações apresente vários elementos com frequência iguais, implicando numa distribuição plurimodal. O uso da moda é mais indicado quando se deseja obter, rapidamente, uma medida de tendência central. Um outro aspecto que favorece a utilização da moda é que seu valor não é afetado pelos valores extremos do conjunto de dados analisado. Graficamente, utilizando-se um conjunto de dados hipotéticos, identifica-se a classe modal como aquela que apresenta o retângulo de maior altura (frequência). A intersecção das retas que unem os pontos AD e os pontos BC, determina o ponto P que, projetado perpendicularmente no eixo da variável, corresponderá ao valor da moda Mo. (Fig. 75) 45 Fig. 75 7.1.3 MEDIANA A mediana (Md) é o valor que ocupa a posição central da série de observações de uma variável, em rol, dividindo o conjunto em duas partes iguais, ou seja, a quantidade de valores inferiores à mediana é igual à quantidade de valores superiores a mesma. Exemplo: Retomando o exemplo do número de filhos por famílias, verifica-se que: Para o caso de oito famílias, n=8, a mediana é determinada como a seguir: X x1 x2 x3 x4 x5 x6 x7 x8 Valor observado 0 1 1 2 2 2 3 4 4 observações Md=2 4 observações Quando se acrescenta ao grupo uma outra família com 10 filhos o tamanho da amostra passa a ser n=9. Neste caso, a mediana é: X x1 x2 x3 x4 x5 x6 x7 x8 x9 Valor observado 0 1 1 1 2 2 3 4 10 4 observações Md=2 4 observações Observe que nos dois casos, por coincidência, a mediana manteve-se a mesma, Md=2, significando que 50% das famílias possuem menos de 2 filhos ou 50% possuem mais de 2 filhos. Mostra-se assim, que a mediana não é influenciada por valores extremos. 0 2 4 6 8 10 12 N º d e al un os 18 22 30 3426 38 AnosB D CA 4 5x +x 2 Mo 46 7.2 MEDIDAS DE DISPERSÃO De acordo com Toledo (1985), fenômenos que envolvem análises estatísticas caracterizam-se por suas semelhanças e variabilidades. As medidas de dispersão auxiliam as medidas de tendência central a descrever o conjunto de dados adequadamente. Indicam se os dados estão, ou não, próximos uns dos outros. Desta forma, não há sentido calcular a média de um conjunto onde não há variação dos seus elementos. Existe ausência de dispersão e a medida de dispersão é igual a zero. Por outro lado, aumentando-se a dispersão, o valor da medida aumenta e se a variação for muito grande, a média não será uma medida de tendência central representativa. Faz-se necessário, portanto, ao menos uma medida de tendência central e uma medida de dispersão para descrever um conjunto de dados. As quatro medidas de dispersão que serão definidas a seguir são: amplitude total, amplitude interquartílica, desvio padrão e variância. Com exceção à primeira, todas têm como ponto de referência a média. 7.2.1 AMPLITUDE TOTAL A amplitude total de um conjunto de dados é a diferença entre o maior e o menor valor observado. A medida de dispersão não levar em consideração os valores intermediários perdendo a informação de como os dados estão distribuídos e/ou concentrados. max minAt x x 7.2.2 VARIÂNCIA E DESVIO PADRÃO Enquanto não há nada conceitualmente errado em se considerar o desvio médio, segundo Pagano (2004), esta medida não tem certas propriedades importantes e não é muito utilizada. O mais comum é considerar o quadrado dos desvios em relação à média e então calcular a média. Obtém-se, assim a variância que é definida por: N )x( N 1i 2 i 2 ou 1n )xx( S n 1i 2 i 2 , se os dados são populacionais ou amostrais, respectivamente. Caso os dados estejam apresentados segundo uma distribuição de frequência, tem-se: 47 N F)x( k 1i i 2 i 2 ou 1n F)xx( s k 1i i 2 i 2 . Entretanto, ao calcular a variância observa-se que o resultado será dado em unidades quadráticas, oque dificulta a sua interpretação. O problema é resolvido extraindo- se a raiz quadrada da variância, definindo-se, assim, o desvio padrão: N )x( N 1i 2 i ou 1n )xx( S n 1i 2 i , se os dados são populacionais ou amostrais e, se estiverem em distribuição de frequências: N F)x( k 1i i 2 i ou 1n F)xx( S k 1i i 2 i . É importante destacar que se duas populações apresentam a mesma média, mas os desvios padrão não são iguais, isto não significa que as populações têm o mesmo comportamento.