Baixe o app para aproveitar ainda mais
Prévia do material em texto
CONTEÚDO UNIDADES DE 1 A 11 Página 1 de 51 Classificação da Informação: Interna Classificação da Informação: Interna UNIDADE 1 – VISÃO GLOBAL DO PROCESSO ESTATÍSTICO A estatística A estatística é uma disciplina que faz parte do conhecimento científico a qual conta com um conjunto de processos que têm por objetivo a observação, a classificação formal e a análise dos fenômenos coletivos ou de massa, possibilitando fazer inferências válidas a partir de dados observados. A disciplina de estatística, apesar de possuir grande parte de seu embasamento no cálculo e na matemática está longe de ser uma disciplina exclusiva das ciências exatas, pois sua aplicação abrange praticamente todas as áreas do conhecimento. Praticamente todos os profissionais das diferentes áreas utilizam a estatística no seu dia-a-dia seja de forma direta ou indireta, pois os dados estatísticos fazem parte do nosso cotidiano, porém nem sempre percebemos esta utilização quando falamos em 50% ou 100% de algo acontecer. É isso mesmo, estamos falando em probabilidades !!! Muitos alunos, os quais fogem da matemática e do cálculo, questionam de forma indiscriminada esta disciplina, isso fica bem claro na afirmação de Agra (2003), “Ao iniciar um curso de Estatística, alunos das áreas de humanas ou saúde, invariavelmente fugindo da Matemática, perguntam ‘como e onde vou utilizar Estatística em minha vida profissional ?’”. — Por incrível que pareça, muitas vezes esta pergunta também é feita por alunos da área de exatas, principalmente da computação, os quais não conseguem fazer uma associação direta entre a Estatística e a Computação ! Para nos familiarizarmos com a aplicação desta disciplina, segue alguns exemplos práticos: Exemplo na área de biológicas Quando um profissional da área de Saúde afirma que a chance de um feto apresentar problemas de má formação ou aborto em decorrência de um quadro “mola hidatiforme” está entre 1% e 2%, ele está embasado em dados estatísticos extraídos de pesquisas sérias e fundamentais, não no senso comum ou no “achomentro”. Neste caso, o profissional está utilizando os dados estatísticos para prever a chance de um evento acontecer. Exemplo na área de humanas Quando um profissional de Publicidade e Propaganda afirma que o público alvo para o produto creme de barbear “Barba Rala”, na Região Metropolitana de Campinas, pode CONTEÚDO UNIDADES DE 1 A 11 Página 2 de 51 Classificação da Informação: Interna Classificação da Informação: Interna abranger aproximadamente 20.000 pessoas, ele está utilizando, dados extraídos de pesquisas realizadas nesta região, podendo levar em consideração o senso do Instituto Brasileiro de Geografia e Estatística - IBGE, como por exemplo. Exemplo na área de exatas É muito comum, na área da Computação a extração de relatórios a partir de sistemas informatizados, os quais podem medir o tempo de reposta de consultas informatizadas, gerar gráficos e tabelas estatísticas. Este módulo de relatório está presente em praticamente todos os sistemas informatizados. Quando um profissional da computação extrai um relatório estatístico em seu sistema sobre o tempo de reposta da consulta simples e da consulta combinada, afirma do que a consulta simples tem o tempo de resposta de aproximadamente 0,5 s e a consulta combinada apresenta o tempo de resposta de 1,0 s, ele está tomando como base dados e cálculos estatísticos gerados pelo próprio sistema. A estatística descritiva A estatística descritiva é utilizada na etapa inicial de uma de um estudo estatístico, pois é com esta ferramenta que planejamos as ações referentes à coleta de dados, organização, apresentação e análise inicial dos dados. Segundo Agra (2003), “afirma- se, que a Estatística pode ser dividida em duas partes: a Estatística Descritiva – que trata da organização, apresentação e análise preliminar dos dados e a Inferência Estatística que cuida da análise mais elaborada e interpretação dos dados obtidos pela parte descritiva”. Como as fases citadas anteriormente não envolvem cálculos complexos, esta ferramenta inicial não exige muitos de cálculos e/ou fórmulas, mas isso, não implica que os deixaremos de usar. Segundo Agra (2003), “De um modo mais abrangente pode-se dizer que a Estatística Descritiva tem por finalidade, o planejamento de um trabalho de pesquisa, assim como apresentar formas para o levantamento de dados, destacar técnicas de apresentação dos dados por meio de tabelas e gráficos e oferecer as medidas estatísticas próprias para análise numéricas”. CONTEÚDO UNIDADES DE 1 A 11 Página 3 de 51 Classificação da Informação: Interna Classificação da Informação: Interna UNIDADE 2 – PESQUISA CIENTÍFICA E ESTATÍSTICA O alicerce sobre o qual repousa toda pesquisa científica é o método científico. Trabalhar cientificamente é seguir de modo cuidadoso e disciplinado este método. Seguindo esta metodologia, os pesquisadores observam, medem, controlam variáveis, buscam relações entre elas e tiram conclusões sobre o fenômeno estudado. Em outras palavras, a metodologia científica é um processo investigativo. Como qualquer procedimento investigativo, a pesquisa científica é essencialmente uma prática associada à coleta de informações, as quais variam conforme a natureza da pesquisa. Em muitos casos, esta coleta de informações é feita por meio da aplicação de questionários ou testes, mensurações de diversas naturezas e experimentações. Dependendo das características da pesquisa realizada, as informações geradas e a variabilidade com que se expressam precisam ser analisadas por técnicas específicas, e é neste contexto que se insere a estatística, como uma poderosa ferramenta de processamento de dados que, quando bem aplicada, transmite segurança e confiabilidade às conclusões que se extraem da análise. Sem a aplicação de métodos estatísticos adequados, não há validade científica. A despeito desta grande importância representada pela estatística no âmbito da pesquisa científica, muitos pesquisadores subestimam seu papel, seja por desconhecimento, por falta de afinidade ou qualquer outro motivo. Muitas vezes transferem a responsabilidade do tratamento estatístico de seus dados a terceiros, o que limita as possibilidades de análise. 1) A natureza da pesquisa científica O método científico, como qualquer outro método, apresenta um conjunto de passos que devem ser trilhados pelos pesquisadores. Essencialmente, as etapas a serem cumpridas no contexto desta metodologia são os seguintes: • Identificação do problema ou questão cuja resposta está por ser determinada. • Caracterização do problema da maneira mais ampla possível. • Determinação de quais informações são necessárias na busca da solução para o problema proposto e da melhor forma de obtê-las. • Organização e processamento das informações obtidas. • Interpretação dos resultados. A estatística permeia cada uma destas etapas, seja na análise crítica das abordagens anteriores, na definição de que tipo de dados serão coletados, assim como na organização, processamento e análise dos resultados. CONTEÚDO UNIDADES DE 1 A 11 Página 4 de 51 Classificação da Informação: Interna Classificação da Informação: Interna Quando se considera a diversidade de pesquisas científicas efetuadas, é possível classificá-las, segundo alguns autores, em três tipos gerais. • Pesquisa descritiva: busca apenas efetuar descrições. É típica de levantamentos em geral. • Pesquisa associativa: vai além das descrições. Procura observar como as coisas se relacionam, numa tentativa de compreender os fenômenos sob a óptica do binômio causa/efeito. • Intervenções: procuram ir além da pura observação, e partem para o campo da experimentação para dimensionar as conseqüências de determinadasações. 2) A natureza da estatística A estatística, assim como a pesquisa científica, se subdivide em tipos: • Estatística descritiva: reúne técnicas específicas para sumarizar os dados de maneira adequada, sem descaracterizar as informações obtidas durante a pesquisa. A elaboração de tabelas de freqüência, a representação gráfica dos resultados processados e o cálculo de índices específicos (média, mediana, desvio padrão, etc.) são alguns exemplos de procedimentos adotados por este ramo descritivo da estatística. • Estatística inferencial ou indutiva: busca realizar inferências sobre uma totalidade (população) baseando-se na análise de subgrupos (amostras). Em outras palavras, verifica as possibilidades de se efetuar generalizações a partir da análise de pequenas porções do todo. O estudo de probabilidades, o estabelecimento de intervalos de confiança e os testes de hipótese são exemplos de técnicas utilizadas na estatística inferencial. 3) Formas de trabalhos científicos O meio acadêmico é onde a pesquisa científica mais prospera em termos numéricos, uma vez que se nutre do espírito investigativo dos docentes e dos alunos de graduação e pós- graduação. Porém, a universidade não é o único espaço onde se pratica pesquisa científica: há que se destacar também as contribuições dos institutos de pesquisa e de grupos autônomos (clínicas, laboratórios, etc.). No âmbito acadêmico, existem diversas formas de trabalho científico. Uma delas é a monografia, que é aquele trabalho que reduz sua abordagem a um único assunto. O Trabalho de Conclusão de Curso (TCC), desenvolvido ao final dos cursos de graduação, assim como a dissertação de Mestrado e a tese de Doutorado, que correspondem à pós-graduação strictu sensu são formas particulares de monografia e, por isso, devem se pautar pela aplicação rigorosa do método científico. CONTEÚDO UNIDADES DE 1 A 11 Página 5 de 51 Classificação da Informação: Interna Classificação da Informação: Interna A pós-graduação strictu sensu, especificamente, foi instituída com o propósito de proporcionar o desenvolvimento de pesquisas rigorosas nas diversas áreas de conhecimento. Com isso, são criadas condições para a qualificação de docentes de nível universitário, bem como a preparação de pesquisadores com elevado nível de capacitação. A dissertação de Mestrado ainda é um trabalho ainda vinculado a uma fase de iniciação à ciência, em que o aluno/pesquisador se submete a um exercício diretamente orientado que, por vezes, se resume a um levantamento experimental de dados, fundamentados em procedimentos estatísticos, mas sem uma reflexão interpretativa mais aprofundada. A tese de Doutorado, por sua vez, é considerada o tipo mais representativo do trabalho científico monográfico. Há uma exigência de que a tese de doutorado forneça uma contribuição original a respeito do tema em foco. Além disso, espera-se da tese de Doutorado um maior amadurecimento científico baseado na apresentação de hipóteses bem fundamentadas na evidência dos fatos e na coerência do raciocínio lógico, que venha efetivamente a representar um progresso para a área científica em que se contextualiza. 4) Publicação do trabalho científico A divulgação da pesquisa científica é um dos pontos-chave de todo o processo. A divulgação apresenta maior alcance se devidamente publicada em periódicos científicos da área. É por intermédio dessas comunicações especializadas que os diversos setores da ciência se desenvolvem. Os periódicos científicos publicam os trabalhos a eles submetidos após criteriosa análise da metodologia científica empregada. Para tanto, contam com a colaboração de um grupo de consultores especializados nas áreas de conhecimento por eles divulgados. O formato final da publicação é denominado artigo científico. Dos aspectos avaliados em um trabalho científico, destacam-se a confiabilidade dos resultados apresentados e a coerência das conclusões. Estes aspectos dependem diretamente da aplicação adequada de técnicas estatísticas, dentre outros aspectos. CONTEÚDO UNIDADES DE 1 A 11 Página 6 de 51 Classificação da Informação: Interna Classificação da Informação: Interna UNIDADE 3 – POPULAÇÃO E AMOSTRA É comum você ouvir, nos noticiários veiculados pela mídia, muitos comentários sobre a “população mundial”, a “população brasileira” ou a “população do Estado”. É possível que quem esteja comentando ou ouvindo esta notícia não imagine a existência de algum outro tipo de população que não seja formada de seres humanos. Neste contexto, o termo “população” é usado no sentido de “agrupamento de pessoas”. Entretanto, no contexto da estatística, o termo “população” tem um significado mais abrangente: Por exemplo, se o objeto de estudo é a velocidade dos veículos que passam mensalmente em um certo trecho de rodovia, a população estatística, neste caso, é o conjunto das velocidades de todos os veículos que atravessam aquele trecho no período considerado. Logo, em estatística, há populações de veículos, livros, roupas, plantas, animais, etc. Nem sempre é possível estabelecer a dimensão real de uma população estatística. Por exemplo, se quisermos saber qual é a idade média dos psicólogos brasileiros quando ingressam no mercado de trabalho, essa seria uma informação bastante difícil de obter, uma vez que iria requerer uma pesquisa que envolvesse todos os profissionais em todas as cidades do país. Por outro lado, uma população pode ser mais restrita em função de algumas especificações. Por exemplo, se a intenção é saber a idade média de psicólogos registrados no Conselho Regional de Psicologia de um estado (CRP), esta será uma informação obtida de um grupo menos abrangente que o dos psicólogos brasileiros. É importante ressaltar que os limites de um grupo populacional são determinados pelo enfoque do estudo. Sendo assim, uma grande população, definida por um critério mais abrangente, pode abrigar várias populações menores, definidas por critérios mais específicos. Nos casos mencionados anteriormente, temos duas populações: dos psicólogos brasileiros (critério escolhido = país) e dos psicólogos registrados no CRP (critério escolhido = registro no CRP). Apesar de a segunda população se constituir em um subgrupo da primeira, ambas são diferentes, pelo fato de que os critérios adotados para definição de cada uma delas são diferentes. CONTEÚDO UNIDADES DE 1 A 11 Página 7 de 51 Classificação da Informação: Interna Classificação da Informação: Interna Em estudos que pretendem caracterizar as populações sob o ponto de vista estatístico, na prática é mais fácil coletar informações de uma parcela dos elementos do que da população inteira. Por exemplo, se o total de psicólogos brasileiros fosse de cinqüenta mil indivíduos, seria difícil obter a idade de cada um deles com o objetivo de calcular a idade média. Neste caso, o procedimento recomendável é coletar informações de um número razoável de indivíduos que se enquadram no perfil estabelecido, talvez quinhentos, ou mesmo mil. Este grupo menor de indivíduos que representa uma população é denominado amostra. A obtenção de amostras efetivamente representativas de uma população é uma etapa de importância crucial em estatística. Dependendo das características amostrais, as informações obtidas podem não ser condizentes com a realidade da população. Por esse motivo, a constituição de uma amostra deve seguir uma metodologia que permita obter informações com um maior grau de confiabilidade possível. As informações obtidas a partir de contagens, medidas ou respostas provenientes de uma amostra ou uma população recebema denominação de dados. A obtenção ou coleta de dados pode ser feita por algum dos seguintes métodos: • Censo – Obtenção de dados de todos os elementos populacionais. • Amostragem – Obtenção de dados de apenas uma parcela populacional. Amostra casual simples A amostra casual simples consiste na retirada de elementos totalmente ao acaso, neste tipo de amostragem a chance de ser selecionado é a mesma para todos os elementos de uma população. Exemplo: A seleção de uma amostra de 8 alunos de uma sala de 80 alunos é realizada através de sorteio por fichas contendo o RA de cada aluno. A chance de um alunos ser sorteado na primeira seleção é de 10%. Amostra sistemática A mostra sistemática acontece quando existe algum procedimento (sistema ou regra) preestabelecido para a retirada dos elementos da amostra. CONTEÚDO UNIDADES DE 1 A 11 Página 8 de 51 Classificação da Informação: Interna Classificação da Informação: Interna Exemplo: A seleção de uma amostra de 8 alunos de uma sala de 80 alunos é realizada por ordem crescente de RA. Amostra estratificada A amostra estratificada acontece quando é envolvido na amostragem elemento proveniente de estratos da população, ou seja, em uma mesma população existem fatores significantes entre os elementos e é desejável que cada um destes fatores seja representada na amostragem. Exemplo: A seleção de uma amostra de 8 alunos de uma sala de 80 alunos deve conter uma quantidade proporcional por sexo e por faixa etária, neste caso o fator sexo e faixa etária estarão representados na amostragem. Amostra de conveniência A amostra de conveniência é realizada por elementos selecionados de forma conveniente, ou seja, da forma mais fácil para o pesquisador, o qual não respeitou nenhum critério de amostragem. Exemplo: A seleção de uma amostra de 8 alunos de uma sala de 80 alunos é feita com os 8 alunos que estão ao seu redor. • Simulação – Obtenção de dados emitidos por um modelo matemático ou físico que reproduz as condições reais de um fenômeno. • Experimentação – Obtenção de respostas dos indivíduos pertencentes a uma amostra ou população a um determinado tipo de tratamento. Em estatística, é comum o emprego do termo levantamento para se referir à investigação feita sobre as características populacionais ou amostrais humanas. Em geral, os levantamentos são feitos por meio da aplicação de questionários específicos. As informações extraídas de um determinado grupo são classificadas em variáveis. São exemplos de variáveis: peso, estatura, idade, sexo, estado civil, QI, etc. CONTEÚDO UNIDADES DE 1 A 11 Página 9 de 51 Classificação da Informação: Interna Classificação da Informação: Interna UNIDADE 4 – VARIÁVEIS QUALITATIVAS E QUANTITATIVAS Como já comentado anteriormente, o termo “variável” corresponde à classificação de um certo conjunto de dados coletados de uma população ou amostra. Podemos citar como exemplo de variável: peso, estatura, QI, salário, idade, estado civil, sexo, grau de instrução, notas de uma prova, classe social, opção política em uma eleição, respostas comportamentais das pessoas diante de uma situação específica, etc. Quando se realiza uma pesquisa, cada indivíduo investigado é caracterizado pela informação (dado) que dele se extraiu para o propósito desejado. Assim, ao elaborar um questionário a ser preenchido pelos pesquisados ou que servirá como guia para a entrevista verbal dos mesmos, cada elemento contribuirá com um dado para cada variável avaliada. Estas informações coletadas são dispostas de modo organizado em tabelas, o que facilita a visualização dos dados relativos a cada indivíduo pesquisado, assim como a distribuição geral de dados por variável. Como exemplo, considere um levantamento feito em uma empresa sobre os aspectos socioeconômicos dos empregados. Após coletar os dados, os pesquisadores elaboraram a seguinte tabela: Perceba que, na tabela, cada empregado da empresa pesquisado foi identificado, de maneira arbitrária, por um número. O mesmo poderia ter sido feito através de letras do alfabeto, embora, neste caso, o total de elementos que poderiam ser identificados seria mais restrito. CONTEÚDO UNIDADES DE 1 A 11 Página 10 de 51 Classificação da Informação: Interna Classificação da Informação: Interna Ainda na tabela, é importante ressaltar que as variáveis estado civil, grau de instrução e região de procedência se referem a qualidades dos indivíduos pesquisados. Por esse motivo, são definidas como variáveis qualitativas. Algumas dessas variáveis permitiriam a elaboração de uma abrangência maior de informações. Por exemplo, o grau de instrução, que na tabela está caracterizado apenas por “fundamental”, “médio” e “superior”, poderia ser melhor detalhado: “fundamental completo”, “fundamental incompleto”, “médio completo”, “médio incompleto”, “superior completo” e “superior incompleto”. A escolha por esse detalhamento depende dos objetivos da pesquisa a ser realizada. As variáveis número de filhos, salário (representado, na tabela, pelo número de vezes que é superior ao salário mínimo) e idade (anos e meses) fornecem claramente uma idéia de quantidade, ou seja, os números que correspondem aos dados de cada indivíduo pesquisado podem ser empregados em operações matemáticas. Assim, estas são variáveis quantitativas. Ao contrário das variáveis qualitativas, as quantitativas não permitem definições arbitrárias, uma vez que quantidades são resultantes de medidas ou contagens, cujos dados são números determinados. CONTEÚDO UNIDADES DE 1 A 11 Página 11 de 51 Classificação da Informação: Interna Classificação da Informação: Interna UNIDADE 5 – DISTRIBUIÇÃO DE FREQÜÊNCIAS PARA VARIÁVEIS QUALITATIVAS Quando é feita uma amostragem, o conjunto de dados coletados deve ser organizado de modo a facilitar a identificação de padrões que permitam efetuar uma melhor caracterização do objeto de estudo. Um dos primeiros procedimentos a ser adotado é a organização de uma tabela de freqüências. Em estatística, o termo “freqüência” está vinculado à idéia de quantidade de cada tipo de dado pertencente a uma variável que se pretende estudar na amostra ou população, seja esta variável qualitativa ou quantitativa. Essa quantidade é determinada primariamente por meio da contagem dos dados. Há diferentes tipos de freqüência que se pode obter em um estudo estatístico, porém as mais usuais são a freqüência absoluta e a freqüência relativa. A freqüência absoluta, representada pela letra f, corresponde aos números brutos, inteiros, de cada tipo de dado da amostra. Por outro lado, a freqüência relativa é uma forma de se referir à quantidade de cada tipo de dado em relação ao total de dados coletados. A freqüência relativa é calculada pela fórmula simples: onde, FR = Freqüência relativa f = freqüência absoluta n = total de dados coletados (ou tamanho do conjunto de dados) O resultado da freqüência relativa é obtido em uma escala decimal que varia de 0 até 1. Porém, em muitas situações é preferível expressar a freqüência relativa em porcentagem. Neste caso, é preciso multiplicar o resultado decimal por 100: CONTEÚDO UNIDADES DE 1 A 11 Página 12 de 51 Classificação da Informação: Interna Classificação da Informação: Interna onde FR% é a freqüência relativa expressa em porcentagem. Considere o exemplo hipotético a seguir, em que os dados brutos foram obtidos a partir de uma pesquisa com estudantes universitários e inseridos na tabela abaixo. Os dados são considerados “brutos” quando descrevem fielmente o que foi coletado,ou seja, não foram utilizados em nenhum tipo de operação matemática ou qualquer outro tipo de rearranjo. Observe que todas as variáveis que constam na tabela acima são qualitativas. Independente disso, é possível efetuar as contagens dos dados e organizá-los em uma tabela de distribuição de freqüências. Para facilitar a compreensão, vamos analisar apenas uma das três variáveis estudadas na amostra estudantil, o curso de graduação. Com relação ao curso de graduação, verificamos na tabela que existem apenas três possibilidades: Psicologia, Administração e Direito. Partiremos desta informação para montar a tabela de distribuição de freqüências abaixo: CONTEÚDO UNIDADES DE 1 A 11 Página 13 de 51 Classificação da Informação: Interna Classificação da Informação: Interna A análise da tabela acima nos permite algumas observações: • As quantidades de alunos dos cursos de Psicologia, Administração e Direito que compõem a amostra são, respectivamente, 5, 2 e 3 (freqüências absolutas). • O símbolo S (letra grega sigma, maiúscula) é usado em matemática e estatística com o significado de “somatório”. O somatório das três freqüências absolutas resulta no total de dados da amostra ( ), que, no exemplo dado, é igual a 10. • As freqüências relativas decimais (FR) de estudantes pertencentes aos cursos de Psicologia, Administração e Direito são, respectivamente: 0,5; 0,2 e 0,3. O somatório de todas as freqüências relativas decimais será sempre igual a 1 (pode haver pequenas variações por causa de arredondamentos). As freqüências relativas porcentuais (FR%) de estudantes pertencentes aos cursos de Psicologia, Administração e Direito são, respectivamente: 50%, 20% e 30%. O somatório de todas as freqüências relativas porcentuais será sempre igual a 100% (pode haver pequenas variações por causa de arredondamentos). CONTEÚDO UNIDADES DE 1 A 11 Página 14 de 51 Classificação da Informação: Interna Classificação da Informação: Interna Exemplo 1: consideremos a estatura das pessoas, medida em centímetros. A diversidade de valores dessa variável é muito grande: 140, 141, 142, 143...155, 156, 157, 158...170, 171, 172, Para variáveis quantitativas, a distribuição de freqüências pode seguir um padrão similar ao descrito para variáveis qualitativas (unidade 5), como ilustrado na tabela abaixo: Esta tabela fornece a freqüência absoluta de casos de rubéola por ano. Lembre-se que a variável “ano” é quantitativa intervalar. Por outro lado, para muitas variáveis quantitativas racionais (discretas ou contínuas), é usual estabelecer classes de dados, especialmente quando a variabilidade de valores é tamanha a ponto de inviabilizar os registros de freqüências para os dados de modo individual. Exemplo 1: consideremos a estatura das pessoas, medida em centímetros. A diversidade de valores dessa variável é muito grande: 140, 141, 142, 143...155, 156, 157, 158...170, 171, 172, 173, etc. Contar quantos indivíduos de uma amostra possuem 140 cm, quantos possuem 141 cm, 142 cm, e assim por diante, seria uma atividade que, além de trabalhosa, produziria uma tabela de distribuição de freqüências extremamente longa e pouco informativa. O estabelecimento de classes de valores quantitativos facilita bastante esta tarefa e torna mais eficiente a análise dos dados. A tabela fornecida abaixo ilustra a distribuição de freqüências por classes. CONTEÚDO UNIDADES DE 1 A 11 Página 15 de 51 Classificação da Informação: Interna Classificação da Informação: Interna As classes representadas na tabela poderiam ser referentes a quaisquer variáveis quantitativas, tais como idade, volume, área, dias, etc. Perceba que cada classe é caracterizada por dois números. O primeiro desses números é o limite inferior (LI) da classe, e o segundo, o limite superior (LS). Neste caso, temos cinco classes distintas, e, dentro de cada uma dessas classes, há uma quantidade específica de dados, que corresponde à freqüência absoluta ( f ). As distâncias entre os limites inferiores (ou superiores) de duas classes subseqüentes são denominadas amplitudes de classes. No exemplo acima, a amplitude de classe é 5 – 2 = 3. Por outro lado, a amplitude total dos dados é a distância entre o maior e o menor valor entre todos os dados coletados. Se o maior valor fosse 14 e o menor fosse 2, a amplitude total dos dados seria 14 – 2 = 12. Para a determinação do número de classes e da amplitude das mesmas, não há uma regra consensual. Existem diferentes formas de executar essa tarefa, e a que adotaremos está descrita nas etapas a seguir: 1. Escolher o número de classes em que serão distribuídas as freqüências (recomendável: mínimo 5 e máximo 20). 2. Determinar a amplitude de classe (AC). Para fazê-lo, determine antes a amplitude total (AT) dos dados e divida este valor pelo número de classes (NC). Ou seja, AC = AT ¸ NC. Se o valor da amplitude de classe não for inteiro, arredondar para o próximo número inteiro. 3. Calcular os limites superiores e inferiores das classes. Para tanto, definir como limite inferior da primeira classe o menor valor dos dados coletados. Somando o valor de AC a este limite inferior, será obtido o limite inferior da classe subseqüente. Para determinar o limite superior da primeira classe, subtrair 1 do valor do limite inferior da segunda classe. Repetir este procedimento para as demais classes. 4. Contar, no conjunto de dados brutos, os valores pertencentes a cada classe. 5. Registrar o número de valores pertencentes a cada classe na tabela de distribuição de freqüências. Será usado como exemplo o conjunto de dados brutos fornecidos a seguir, que correspondem ao tempo (em minutos) que assinantes da internet gastaram durante sua última conexão. CONTEÚDO UNIDADES DE 1 A 11 Página 16 de 51 Classificação da Informação: Interna Classificação da Informação: Interna 50 40 41 17 11 7 22 44 28 21 19 23 37 51 54 42 88 41 78 56 72 56 17 7 69 30 80 56 29 33 46 31 39 20 18 29 34 59 73 77 36 39 30 62 54 67 39 31 53 44 Sobre este conjunto de dados, será aplicado o procedimento cujas etapas foram descritas anteriormente: 1. Vamos escolher, arbitrariamente, um número de classes entre 5 e 20. Para exemplificar, vamos considerar uma distribuição de freqüências que tenha 7 classes. 2. AT = 88 – 7 = 81; AC = 81 ¸ 7 = 11,57 à Como o valor calculado da amplitude de classe não é número inteiro, devemos arredondá-lo para o próximo número inteiro = 12. Logo, a amplitude de classe a ser adotada nesta distribuição é igual a 12. 3. O limite inferior da primeira classe é o menor número da distribuição, que, no caso, é 7. Sendo assim, o limite inferior da segunda classe será 7 + 12 = 19. O limite superior da primeira classe será 19 – 1 = 18. Dessa forma, a primeira classe está completa, com limites inferior e superior estabelecidos: 7 – 18. O mesmo raciocínio serve para a definição das próximas classes. 4. Uma vez definidas as classes, utilizar-se do conjunto de dados brutos para estabelecer quantos valores existem em cada uma das sete classes. Uma sugestão é riscar (como exemplificado abaixo) aqueles números que já foram contados, para evitar que o sejam duas vezes. 50 40 41 17 11 7 22 44 28 21 19 23 37 51 54 42 88 41 78 56 72 56 17 7 69 30 80 56 29 33 46 31 39 20 18 29 34 59 73 77 36 39 30 62 54 67 39 31 53 44 No conjunto acima, foram riscados os números que pertencem à primeira classe. Ao todo, são 6 números, logo a freqüência absoluta dos valores pertencentes à primeira classe é igual a 6. Repetindo esse mesmo procedimento para as demais classes, teremos a seguinte tabelade distribuição de freqüências: CONTEÚDO UNIDADES DE 1 A 11 Página 17 de 51 Classificação da Informação: Interna Classificação da Informação: Interna Existem alguns aspectos adicionais que podem ser incluídos como colunas na tabela acima, os quais podem auxiliar na melhor compreensão da distribuição dos dados. São eles o ponto médio e a freqüência acumulada ou cumulativa. O ponto médio (PM) da classe corresponde ao valor que é a metade da soma dos limites inferior (LI) e superior (LS): Assim, o ponto médio da primeira classe seria igual a . Observe que “7” é o limite inferior (LI) da primeira classe e que “18” é o limite superior (LS). O mesmo raciocínio deve ser empregado para se obter os pontos médios das demais classes. Uma forma mais direta de se obter os pontos médios da segunda classe em diante é a partir da soma do valor da amplitude de classe ao valor do ponto médio da classe anterior. No exemplo nosso, o ponto médio da primeira classe é 12,5. Se somarmos o valor da amplitude de classe (que, no caso, é igual a 12) ao valor deste primeiro ponto médio, obteríamos o valor do segundo ponto médio, que, neste caso, seria PM2 = 12 + 12,5 = 24,5. A freqüência acumulada (FAC) de uma classe é a soma da freqüência daquela classe com todas as freqüências das classes anteriores. Na tabela acima, a freqüência acumulada da CONTEÚDO UNIDADES DE 1 A 11 Página 18 de 51 Classificação da Informação: Interna Classificação da Informação: Interna segunda classe seria FAC2 = 6 + 10 = 16, sendo que “6” é a freqüência absoluta da primeira classe e “10”, a freqüência absoluta da segunda classe. Para obtermos a freqüência acumulada da terceira classe, teríamos FAC3 = FAC2 + f 3, onde FAC2 é a freqüência acumulada da segunda classe e f 3, a freqüência absoluta da terceira classe. Em nosso exemplo, FAC3 = 16 + 13 = 29. A freqüência acumulada pode ser calculada empregando-se as freqüências relativas. Neste caso, obteríamos as freqüências relativas acumuladas (FRAC) de cada classe. O raciocínio utilizado para a obtenção das FRAC é o mesmo empregado no cálculo das FAC. Assim, a tabela completa da distribuição de freqüências para o tempo de uso da internet incluiria as freqüências absoluta, relativa, acumulada e os pontos médios das classes: Exemplo 2: consideremos as notas de estatística de 40 alunos de uma classe de administração. Rol (são dados brutos organizados): 2,0; 2,5; 2,5; 3,0; 3,0; 3,5; 4,0; 4,0; 4,0; 4,0; 4,5; 4,5; 4,5; 5,0; 5,0; 5,0; 5,0; 5,5; 5,5; 5,5; 5,5; 5,5; 5,5; 5,5; 6,0; 6,0; 6,0; 6,5; 7,0; 7,5; 7,5; 7,5; 7,5; 7,5; 8,0; 8,0; 8,5; 9,0; 9,5; 9,5. CONTEÚDO UNIDADES DE 1 A 11 Página 19 de 51 Classificação da Informação: Interna Classificação da Informação: Interna A simbologia dos intervalos: |-------| Limite fechado (tanto à esquerda quanto à direita) |------- Limite fechado à esquerda e aberto à direita --------| Limite aberto à esquerda e fechado à direita -------- Limite aberto (tanto à direita quanto à esquerda) Construção de uma variável contínua: a) nº intervalo de classe: ni , sendo n = tamanho da amostra ex: 32,640 =i b) amplitude do intervalo de classe: i AT h AT (Amplitude Total) = LL minmax − ex: 19,1 32,6 5,7 32,6 0,25,9 == − h , para melhor interpretar iremos aproximar para h = 2. CONTEÚDO UNIDADES DE 1 A 11 Página 20 de 51 Classificação da Informação: Interna Classificação da Informação: Interna Classe Notas Nº de alunos fri fri % Fi Fri % xi fi ponto médio 1 2 |------------- 4 6 0,15 15 6 15 3 2 4 |------------- 6 18 0,45 45 24 60 5 3 6 |------------- 8 10 0,25 25 34 85 7 4 8 |------------ 10 6 0,15 15 40 100 9 TOTAL 40 1 100 UNIDADE 6 – REPRESENTAÇÕES GRÁFICAS DE FREQÜÊNCIAS CONTEÚDO UNIDADES DE 1 A 11 Página 21 de 51 Classificação da Informação: Interna Classificação da Informação: Interna O uso de tabelas é uma forma de apresentar resumidamente os dados coletados de uma amostra ou população, o que facilita a identificação de padrões que, de outra forma, não seriam percebidos. Porém, apesar dessa grande importância representada pelas tabelas no contexto da estatística, nem sempre a visualização dos padrões que se pretende identificar é uma tarefa fácil em função de complexidades inerentes aos diferentes tipos de tabelas. Nesse sentido, o uso de gráficos como instrumentos estatísticos de exploração dos dados é a estratégia mais aconselhável. Existem diferentes modalidades de gráficos construídos com base em tabelas de distribuição de freqüências. Há gráficos que são mais recomendáveis para representar resultados obtidos a partir de variáveis qualitativas, enquanto outros são mais aplicáveis a conjuntos de dados quantitativos.Veremos, a seguir, os principais tipos de gráficos que representam distribuições de freqüências. I – Gráficos de conjuntos de dados qualitativos I.1) Diagrama de pizza, torta ou setores Essa modalidade bastante usada de gráfico é construída a partir das freqüências relativas porcentuais de variáveis qualitativas. Tomemos como exemplo a tabela de distribuição de freqüências da variável qualitativa “curso de graduação”, montada na unidade 8. O diagrama de pizza dessa variável deve ser construído com base nos valores de FR%. Cada “fatia” da pizza corresponde à proporção equivalente de cada dado no conjunto total. Portanto, a maior fatia do gráfico, neste caso, seria de 50%, relativos ao curso de Psicologia. A montagem final do diagrama de pizza está apresentada a seguir: CONTEÚDO UNIDADES DE 1 A 11 Página 22 de 51 Classificação da Informação: Interna Classificação da Informação: Interna I.2) Gráfico de barras ou colunas Dados qualitativos também podem ser empregados para montagem de outros gráficos, como o gráfico de barras abaixo, em que a altura de cada barra equivale proporcionalmente à fração de cada dado no conjunto total: Os gráficos de barras também podem ser construídos utilizando-se os valores das freqüências absolutas e das freqüências relativas decimais. Neste caso, os valores do eixo y do gráfico deverão corresponder à freqüência empregada. É importante ressaltar que neste tipo de gráfico, as colunas são separadas umas das outras. CONTEÚDO UNIDADES DE 1 A 11 Página 23 de 51 Classificação da Informação: Interna Classificação da Informação: Interna II – Gráficos de conjuntos de dados quantitativos II.1) Histogramas Os histogramas são gráficos de barras em que no eixo horizontal estão dispostos os valores dos dados quantitativos e no vertical as freqüências das classes, que podem ser absolutas ou relativas. É importante ressaltar que, nos histogramas, não devem existir espaços entre barras consecutivas, e que as larguras das barras equivalem às amplitudes das classes. Para ilustrar a construção de um histograma, tomemos como exemplo a tabela construída na unidade 9: Com base nos valores dos pontos médios das classes e nas freqüências relativas, temos o seguinte histograma: CONTEÚDO UNIDADES DE 1 A 11 Página 24 de 51 Classificação da Informação: Interna Classificação da Informação: Interna Na construção do histograma, ao invés dos pontos médios das classes, podem ser usados os limites de classe,como representado na figura a seguir: II.2) Polígono de freqüências O polígono de freqüências é um gráfico em forma de linha que ressalta as mudanças de freqüências associadas às classes de dados de variáveis quantitativas, representadas pelos seus respectivos pontos médios. Este tipo de gráfico deve iniciar e terminar sobre o eixo x. Para construir este gráfico, é necessário, em primeiro lugar, assinalar pontos e depois uni-los com uma linha. Cada ponto assinalado apresenta um valor correspondente no eixo x (ponto médio da classe) e CONTEÚDO UNIDADES DE 1 A 11 Página 25 de 51 Classificação da Informação: Interna Classificação da Informação: Interna outro no eixo y (freqüência da classe). No exemplo das classes de tempos de conexão à internet, temos o polígono de freqüências representado a seguir: Para fazer com que a linha conectora dos pontos toque o eixo x no início e no término, é necessário estender o lado esquerdo em uma amplitude de classe antes do ponto médio da primeira classe e uma amplitude de classe após a última classe. A linha do gráfico deve se iniciar e terminar nestes pontos estendidos, e assinalados apenas sobre o eixo x. O polígono de freqüências pode ser utilizado em conjunto com o histograma. Neste caso, teríamos um gráfico composto, formado por barras verticais e por linhas que conectam os pontos médios de cada uma das barras. II.3) Gráfico de freqüência acumulada Quando se utiliza especificamente a freqüência acumulada de cada classe para compor o eixo y do gráfico e os pontos médios de cada uma das classes como os representantes do eixo x, a linha que conecta os pontos irá caracterizar o que se convencionou chamar de gráfico de freqüência acumulada. O gráfico, assim como no caso do polígono de freqüências, deve iniciar no eixo x, sobre o valor que corresponde a uma amplitude de classe antes do ponto médio da primeira classe. Em seguida, a linha deve conectar os pontos que assinalam a equivalência entre os pontos médios das classes e suas respectivas freqüências acumuladas. O resultado final será um gráfico cuja linha é ascendente. No exemplo que temos empregado até aqui, dos tempos de conexão à internet, o gráfico obtido é o representado a seguir. CONTEÚDO UNIDADES DE 1 A 11 Página 26 de 51 Classificação da Informação: Interna Classificação da Informação: Interna Neste gráfico, foi utilizada a freqüência acumulada absoluta, mas, em seu lugar, poderia ser utilizada a freqüência acumulada relativa. De qualquer modo, o formato do gráfico seria o mesmo. A partir do gráfico, e possível visualizar com mais facilidade alguns padrões presentes nos dados. Por exemplo, cerca de 40 assinantes ficaram conectados menos que 60 minutos em seu último acesso à Internet. O maior aumento no número de usuários conectados ocorre entre 24,5 e 36,5 minutos, o que é possível deduzir pela maior inclinação vertical do gráfico exatamente neste trecho. CONTEÚDO UNIDADES DE 1 A 11 Página 27 de 51 Classificação da Informação: Interna Classificação da Informação: Interna UNIDADE 7 – MEDIDAS DE TENDÊNCIA CENTRAL Como já mencionado anteriormente, diversos procedimentos, em estatística, visam a uma redução do conjunto de informações coletadas de modo a identificar padrões que facilitem a análise, a elaboração de hipóteses e a tomada de decisões. É neste contexto que se enquadra a procura por valores específicos ou índices que representem o conjunto inteiro de dados coletados. Tais números devem se assemelhar, o máximo possível, aos demais valores do conjunto considerado. Ou seja, a identificação de valores típicos, ou centrais, é um dos procedimentos mais fundamentais da estatística. É por essa razão que tais valores recebem a denominação genérica de medidas de tendência central. As medidas de tendência central mais empregadas são a média, a moda e a mediana. 1) Média 1.1) Média aritmética A média aritmética ou média simples, à qual nos referiremos daqui por diante apenas pelo nome “média”, é obtida pela soma de todos os valores do conjunto de dados, dividida pelo número total de dados do conjunto. Para exemplificar, considere o seguinte conjunto de dados X = {1, 3, 5, 7}. Há, neste conjunto, um total de 4 elementos (n = 4). Para encontrar o valor da média, basta somar os valores dos 4 elementos e dividir por 4: No exemplo acima, observamos que o valor da média, representada por (lê-se “xis barra”), é igual a 4. A representação genérica desta fórmula para o cálculo da média, partindo-se de uma amostra qualquer X = {x1, x2, x3,..., xn}, é: A leitura da fórmula acima é: “xis barra é igual ao somatório de xis-i, onde i varia de 1 até n, dividido por n”. Ao desenvolvermos esta fórmula, teríamos: CONTEÚDO UNIDADES DE 1 A 11 Página 28 de 51 Classificação da Informação: Interna Classificação da Informação: Interna Neste caso, a leitura seria: “xis barra é igual ao primeiro valor de x mais o segundo valor de x mais o terceiro valor de x .... mais o enésimo valor de x, e a soma final disso tudo dividido por n”. Ou seja, “x” representa cada valor da amostra. Logo, “x1” representa o primeiro valor da amostra, “x2” representa o segundo, e assim por diante. O “i”, da representação “xi”, apenas serve para indicar que o “x” pode assumir um valor qualquer dentro do grupo (primeiro valor, segundo valor, etc.). Em nosso exemplo numérico, teríamos: É importante ressaltar que existe uma diferença de representação entre a média amostral e a média populacional, diferença esta existente apenas na simbologia adotada: Nesta fórmula, a letra grega (mi) representa a média populacional, e a letra maiúscula N representa o número total de elementos populacionais. Em se tratando de amostra, utiliza-se o já mencionado “x barra” para representar a média e a letra minúscula n para representar o total de elementos da amostra. De qualquer modo, seja em casos populacionais ou amostrais, a dinâmica do cálculo é exatamente a mesma. 1.2) Média ponderada Quando se pretende atribuir maior importância a determinados valores do conjunto de dados, de modo que isto se reflita no cálculo final da média, é usual atribuir pesos diferenciados aos dados. A média assim calculada é denominada média ponderada (representada por ), e seu cálculo é realizado de acordo com a fórmula CONTEÚDO UNIDADES DE 1 A 11 Página 29 de 51 Classificação da Informação: Interna Classificação da Informação: Interna O cálculo de médias finais, adotadas por diversas instituições de ensino, é realizado desta forma. É comum atribuir pesos 1, 2, 3 e 4 aos quatro bimestres letivos (primeiro, segundo, terceiro e quarto, respectivamente). Neste contexto, se considerarmos que as notas bimestrais (b1, b2, b3 e b4) de um aluno foram, nesta seqüência, 3, 4, 6 e 8, sua média final ponderada seria: 2) Moda Outra maneira de se determinar um valor que seja representativo de um conjunto de dados amostrais ou populacionais é pelo critério da maioria. Neste caso, o valor que aparece o maior número de vezes, ou seja, o mais freqüente, é aquele que irá representar o conjunto. Como exemplo, considere os números de filhos de dez casais que freqüentam certa comunidade: O número de filhos que maisse repete nesta amostra é 2. Dizemos, pois, que a moda amostral é 2. O símbolo é utilizado para representar a moda. Em nosso exemplo, portanto, teríamos = 2. Nem sempre um conjunto de dados possuirá uma moda. Isto acontece nos conjuntos em que todos os valores apresentam a mesma freqüência. Neste caso, estamos diante de uma distribuição amodal. Por CONTEÚDO UNIDADES DE 1 A 11 Página 30 de 51 Classificação da Informação: Interna Classificação da Informação: Interna outro lado, existem conjuntos de dados em que dois valores são igualmente mais freqüentes. Sendo assim, a distribuição será bimodal. Existem também as distribuições multimodais, em que no conjunto de dados há três ou mais valores que apresentam a freqüência máxima. 3) Mediana A mediana de um conjunto de dados corresponde ao valor central quando os dados são dispostos em ordem crescente ou decrescente. Em outras palavras, a mediana é o valor central de um conjunto de dados ordenados, e é representada pelo símbolo . Quando a quantidade de dados no conjunto é ímpar, a mediana é exatamente o valor que ocupa a posição central no conjunto ordenado de dados. Veja o exemplo abaixo, que representa o número de cáries em sete crianças em idade pré-escolar, freqüentadoras de uma creche pública: A disposição {2, 1, 0, 1, 0, 0, 3}, apresentada na tabela, não está ordenada. Ao ordenarmos de modo crescente estes dados, teríamos a seguinte disposição de números de cáries: {0, 0, 0, 1, 1, 2, 3}. O valor central desta distribuição, ou seja, o número que ocupa a posição central dentre as sete posições existentes no conjunto, é o número 1: {0, 0, 0, 1, 1, 2, 3}. Podemos, pois, afirmar que, neste conjunto de dados, = 1, pois a quantidade de valores que se encontra à esquerda deste número é a mesma que se encontra à direita. Por outro lado, se a quantidade de dados no conjunto é par, não haverá apenas um valor central, e sim dois valores centrais. A mediana, neste caso, será a média entre estes dois valores centrais do conjunto ordenado de dados. Como exemplo dessa situação, considere a tabela abaixo, que representa as idades de seis crianças selecionadas ao acaso em um parque de diversões: Ao ordenarmos os valores da tabela, teríamos: {1, 2, 3, 4, 5, 8}. Os valores centrais desta distribuição ordenada seriam 3 e 4: {1, 2, 3, 4, 5, 8}. Portanto, . É importante salientar que a mediana é uma medida que não é afetada pela presença de valores extremos no conjunto de dados, ao contrário da média. Voltemos ao exemplo do número de cáries por CONTEÚDO UNIDADES DE 1 A 11 Página 31 de 51 Classificação da Informação: Interna Classificação da Informação: Interna criança, mencionado anteriormente: {0, 0, 0, 1, 1, 2, 3}. Tanto a mediana quanto a média deste conjunto de dados apresentam valor igual a 1. Porém, se este conjunto de dados fosse: {0, 0, 0, 1, 1, 2, 15}, a presença do valor extremo 15 afetaria substancialmente a média, que seria 2,7 neste caso, ao passo que a mediana continuaria a ser igual a 1. Portanto, em situações como esta, em que existe a presença de um dado muito destoante dos demais, o uso da mediana como valor representativo do conjunto é preferível ao uso da média. CONTEÚDO UNIDADES DE 1 A 11 Página 32 de 51 Classificação da Informação: Interna Classificação da Informação: Interna UNIDADE 8 – MEDIDAS DE TENDÊNCIA CENTRAL PARA DADOS DISPOSTOS EM TABELAS DE FREQÜÊNCIAS Quando os dados encontram-se dispostos em tabelas de distribuição de freqüências, mesmo que os valores brutos sejam desconhecidos, é possível obter a média, moda ou mediana do conjunto. O que caracteriza estas situações é o fato de existirem observações repetidas de valores dentro do conjunto de dados, sejam valores individuais (discretos) ou valores agrupados, que se incluem em intervalos de classes determinados (contínuos). Nestes casos, na determinação da média, moda ou mediana, os valores das freqüências absolutas devem ser computados. 1) Medidas de tendência central para variáveis quantitativas discretas Vamos nos basear em um exemplo para ilustrar a forma de se obter a média, a mediana e a moda de um conjunto de dados caracterizado por apresentar poucos valores diferentes entre si (variável quantitativa discreta). Para tanto, considere a tabela abaixo, que apresenta a freqüência de erros de impressão encontrados em uma amostra de 50 páginas de um livro. Veja que existem apenas 5 valores diferentes entre si no conjunto de dados, os quais se repetem em números de vezes igualmente distintos. Se a tabela acima fosse revertida em uma tabela de dados brutos, encontraríamos uma distribuição como a que se segue abaixo: CONTEÚDO UNIDADES DE 1 A 11 Página 33 de 51 Classificação da Informação: Interna Classificação da Informação: Interna Para obter a média de um conjunto de dados brutos, como os dispostos na tabela acima, teríamos que efetuar o seguinte cálculo: No entanto, a realização deste cálculo seria facilitada se multiplicássemos cada número de erros pela freqüência com que aparece no conjunto de dados e somássemos os resultados de todas estas multiplicações, antes de dividir por 50. Essa freqüência é fornecida pela tabela de distribuição de freqüências. Sendo assim, teríamos: Quando se dispõe da tabela de distribuição de freqüências, a partir da qual pretende-se determinar a média, convém adicionar uma coluna, na qual os valores das multiplicações dos dados (xi) por suas respectivas freqüências (fi) possam ser inseridos, como demonstrado abaixo: CONTEÚDO UNIDADES DE 1 A 11 Página 34 de 51 Classificação da Informação: Interna Classificação da Informação: Interna Portanto, o cálculo da média, levando em consideração as freqüências absolutas, pode ser representado pela fórmula: Considerando que a soma de todas as freqüências é igual ao número de dados do conjunto (ou seja, fi = n ), temos: No exemplo adotado, , ou seja, há, em média, 0,66 erro de impressão por página do livro analisado. Para obter a mediana, é necessário ordenar os dados. No entanto, os dados já se encontram ordenados de cima para baixo na tabela. Ou seja, os primeiros 25 valores são iguais a zero, os próximos 20 valores são iguais a 1, e assim por diante. Como o tamanho da amostra é par (n = 50), a mediana é igual à média entre os valores que ocupam a 25ª e a 26ª posições nesta distribuição ordenada. Sendo assim, temos A moda, por outro lado, é o valor mais freqüente do conjunto de dados. Em uma tabela de distribuição de freqüências, este valor é facilmente identificável. No nosso exemplo, o valor mais freqüente é igual a 0, que se repete 25 vezes. 2) Medidas de tendência central para variáveis quantitativas contínuas Para variáveis quantitativas contínuas, cujos valores em uma tabela de freqüências são agrupados em classes, é difícil estabelecer os valores exatos da média, da mediana e da moda quando os dados brutos não são conhecidos. Sendo assim, um dos procedimentos mais usuais é a obtenção de valores aproximados, determinados a partir dos pontos médios das classes. Vamos tomar como exemplo a tabela a seguir, que representa a distribuição de freqüências de tempos da última conexão à internet de um grupo de 50 pessoas: CONTEÚDO UNIDADES DE 1 A 11Página 35 de 51 Classificação da Informação: Interna Classificação da Informação: Interna Para a obtenção da média, uma das etapas consiste em multiplicar os pontos médios de cada classe por suas respectivas freqüências absolutas, tal como realizado para as variáveis quantitativas discretas. Esta tarefa é facilitada pela adição de uma coluna à direita da tabela acima, contendo os valores destas multiplicações, como demonstrado abaixo: A mesma fórmula para determinação da média a partir da tabela de freqüências de dados discretos também serve para valores agrupados em classes. Sendo assim, temos: CONTEÚDO UNIDADES DE 1 A 11 Página 36 de 51 Classificação da Informação: Interna Classificação da Informação: Interna Para a obtenção da mediana, procedemos como já descrito no caso das variáveis quantitativas discretas, levando em consideração que cada classe é representada apenas pelo seu ponto médio. Sendo assim, consideramos que, na ordenação de dados da tabela, os 6 primeiros valores são iguais a 12,5, os próximos 10 valores são iguais a 24,5, e assim por diante. Como o tamanho amostral é par (n = 50), determinamos a mediana da seguinte forma: A moda corresponde ao valor mais freqüente da distribuição. Na tabela, verificamos que a classe modal possui 13 valores. O ponto médio desta classe é igual a 36,5. Logo, a moda aproximada deste conjunto de dados é igual a 36,5. CONTEÚDO UNIDADES DE 1 A 11 Página 37 de 51 Classificação da Informação: Interna Classificação da Informação: Interna UNIDADE 9 – MEDIDAS DE DISPERSÃO OU VARIAÇÃO Como visto anteriormente, as medidas de tendência central (média, mediana e moda) são índices cuja determinação se justifica pela necessidade de resumir as informações contidas no conjunto de dados. No entanto, ao caracterizar uma amostra ou população por meio destes índices, informações importantes sobre a variação numérica existente no conjunto não são reveladas. Para registrar de maneira resumida a variabilidade contida nos dados, são calculadas as medidas de dispersão ou variação. O termo “dispersão” sugere a idéia de quanto os dados estão separados uns dos outros. Existem conjuntos de dados cujos valores são muito diferentes uns dos outros, o que caracteriza uma grande dispersão ou variabilidade. Por outro lado, existem situações em que os valores numéricos dos dados são muito próximos uns dos outros, o que revela uma dispersão ou variabilidade reduzida. Para exemplificar o que acabamos de afirmar, considere os conjuntos de dados A = {5, 5, 5, 5, 5} e B = {2, 5, 5, 6, 7}. Em ambos os casos, o tamanho amostral é o mesmo (n = 5) e as medidas de tendência central têm o mesmo valor ( , tanto em A quanto em B). No entanto, é evidente que em A não existe variação nenhuma, e em B a variabilidade numérica existe. Dizendo de outra forma, o conjunto A é mais homogêneo que B. A caracterização da variabilidade contida nos dados é algo essencial no contexto da estatística. Parâmetros sócio-econômicos, tais como analfabetismo, distribuição de renda, dentre outros, podem ser comparados entre municípios, estados e países com base na variabilidade de seus índices. Por exemplo, é de se esperar que a renda familiar em países desenvolvidos seja mais homogênea que nos países em desenvolvimento. Serão apresentados, a seguir, alguns índices que pretendem dimensionar a variabilidade contida em conjuntos de dados: a amplitude total, a soma dos desvios simples e absolutos e o desvio médio. 1) Amplitude total Esta é a mais simples das medidas de variabilidade. A amplitude total (AT) dos dados é fornecida pela diferença entre o maior e o menor valor do conjunto. Se considerarmos o conjunto de dados C = {1, 5, 5, 5, 7, 7, 9, 9, 15}, então a amplitude total do conjunto C seria ATC = 15 – 1 = 14. A amplitude total não é um bom índice de medida de dispersão, pois não leva em consideração a variabilidade de dados. Para ter uma idéia exata do que estamos dizendo, considere outro conjunto de dados D = {1, 2, 3, 6, 8, 10, 12, 15}. Embora o valor de ATD também seja igual a 15, é possível observar que o conjunto D possui uma dispersão de dados nitidamente maior que o conjunto C. Portanto, um bom índice de dispersão deve considerar a diversidade de números existentes no conjunto total. CONTEÚDO UNIDADES DE 1 A 11 Página 38 de 51 Classificação da Informação: Interna Classificação da Informação: Interna 2) Soma dos desvios simples Um índice que leva em consideração a diversidade entre os valores de um conjunto de dados é o desvio simples. O termo “desvio” (d) é aqui empregado com o significado de “diferença” entre cada valor do conjunto e um valor de referência do grupo, que é a média. Formalizando esta idéia como uma expressão, teríamos que o desvio simples de um valor em relação à média seria: onde, di = desvio simples de qualquer valor “i” em relação à média xi = qualquer valor “i” do conjunto de dados = média Como o interesse é dimensionar a variabilidade do conjunto inteiro, todos os desvios simples individuais devem ser empregados no cálculo de um índice que represente o grupo. Uma possibilidade poderia ser a soma dos desvios simples, representada por: onde SDS = soma dos desvios simples; somatório dos desvios simples de cada valor “i” em relação à média. Apesar de servir aos propósitos de considerar toda a variabilidade existente no conjunto de dados, existe um problema quanto ao uso da soma dos desvios simples como medida de dispersão. Para compreender esse problema, considere o conjunto de dados X = {2, 4, 6, 8}, cuja média é igual a 5. Os desvios simples, neste caso, seriam: CONTEÚDO UNIDADES DE 1 A 11 Página 39 de 51 Classificação da Informação: Interna Classificação da Informação: Interna Sendo assim, ao efetuarmos a soma destes desvios simples, teríamos: Como podemos constatar, a soma de todos os desvios simples é igual a zero, uma vez que os desvios negativos e positivos se anulam. Isso é verdadeiro para qualquer conjunto de dados. Portanto, a soma dos desvios simples não pode ser uma medida de dispersão dos dados, mas será útil na determinação de outros índices, conforme veremos adiante. 3) Soma dos desvios absolutos Para evitar que os valores negativos e positivos dos desvios se anulem, como ocorre no caso da soma dos desvios simples, uma alternativa seria utilizar somente os valores dos módulos de cada desvio simples na soma final. Neste caso, os módulos, que são apenas valores positivos, são denominados desvios absolutos. Considerando o exemplo anterior, no conjunto de dados X = {2, 4, 6, 8} os valores dos desvios absolutos seriam iguais aos módulos dos desvios simples: Sendo assim, a soma dos desvios absolutos (SDA) seria: Problemas no uso da soma dos desvios absolutos como medida de dispersão podem ocorrer quando estes índices obtidos a partir de conjuntos de dados de tamanhos muito diferentes são comparados. Um conjunto grande de valores, mas pouco variável, pode fornecer uma SDA maior que CONTEÚDO UNIDADES DE 1 A 11 Página 40 de 51 Classificação da Informação: Interna Classificação da Informação: Interna outro conjunto pequeno, porém de maior variabilidade. Para que esse tipo de erro não ocorra, utiliza-se o desvio médio. 4)Desvio médio O desvio médio equivale a uma medida de dispersão obtida pela média dos desvios absolutos. Em outras palavras, o desvio médio (DM) equivale ao quociente entre a SDA e o tamanho do conjunto de dados (n): O cálculo do desvio médio para o conjunto de dados X = {2, 4, 6, 8} está apresentado abaixo: Dentre todas as medidas de dispersão apresentadas até agora, o desvio médio é a mais aceitável, pois leva em consideração toda a variabilidade contida nos dados e o tamanho do conjunto. CONTEÚDO UNIDADES DE 1 A 11 Página 41 de 51 Classificação da Informação: Interna Classificação da Informação: Interna UNIDADE 10 – VARIÂNCIA E DESVIO PADRÃO PARA DADOS BRUTOS De todas as medidas de dispersão estudadas até o momento, o desvio médio é aquela que se enquadra melhor nos propósitos de dimensionar a variabilidade contida nos dados. No entanto, é uma medida pouco empregada em estatística. A preferência, nestes casos, recai sobre o cálculo dos desvios ao quadrado. O uso dos desvios ao quadrado ao invés dos desvios absolutos se justifica pelo fato de que, ao se elevar ao quadrado o valor de um desvio, além de remover os eventuais sinais negativos, faz com que os maiores desvios tenham efetivamente um peso maior no valor do índice de variabilidade calculado. A seguir, veremos como os desvios ao quadrado são utilizados na obtenção de dois dos mais importantes índices da estatística, a variância e o desvio padrão. 1) Soma dos desvios ao quadrado A forma de se obter os valores dos desvios ao quadrado é simples. Como exemplo, usaremos o conjunto de dados brutos X = {2, 4, 6, 8}, cuja média = 5. Para calcular os valores dos desvios ao quadrado, seguiremos as etapas descritas abaixo: Portanto, os valores 9, 1, 1 e 9 correspondem aos desvios ao quadrado que estávamos CONTEÚDO UNIDADES DE 1 A 11 Página 42 de 51 Classificação da Informação: Interna Classificação da Informação: Interna interessados em obter. No entanto, os valores individuais dos desvios ao quadrado devem ser somados para obter um número único que represente o conjunto. Sendo assim, ainda há mais uma etapa a cumprir. Este valor da soma dos desvios ao quadrado será utilizado para o cálculo da variância. 2) Variância Quando o valor da soma dos desvios absolutos é calculado, o próximo procedimento é a obtenção do desvio médio (vide unidade 14), por meio da divisão desta soma pelo tamanho do conjunto de dados (n). No caso dos desvios ao quadrado, esse procedimento também é realizado, com o intuito de obter uma média dos desvios ao quadrado, também conhecida como variância (2). Desta forma, a variância, como descrita acima, pode ser representada pela seguinte expressão geral: No exemplo mencionado no item anterior, o valor da soma dos desvios ao quadrado é igual a 20 para o conjunto de dados cujo tamanho n = 4. Neste caso temos: É importante ressaltar que o símbolo adotado para representar a variância, a letra grega sigma ao quadrado (2), somente deve ser utilizado quando o conjunto de dados analisado corresponde a uma população. Quando o conjunto de dados se referir a uma amostra extraída de uma população qualquer, a variância é simbolizada pela letra s minúscula elevada ao quadrado (s2). CONTEÚDO UNIDADES DE 1 A 11 Página 43 de 51 Classificação da Informação: Interna Classificação da Informação: Interna A mesma diferenciação de símbolos descrita para a variância, também existe para a representação da média. A média populacional costuma ser representada pela letra grega (mi), enquanto a média amostral é representada pelo já mencionado símbolo (xis barra). O mesmo ocorre também para o tamanho do conjunto de dados: a letra maiúscula N é usada para conjuntos populacionais, e a letra minúscula n, para amostras. Sendo assim, a melhor representação para a variância populacional seria: Para efetuar o cálculo da variância amostral, é necessário realizar uma pequena modificação na fórmula da variância apresentada anteriormente. Essa modificação é denominada correção amostral, representada a seguir: Observe que a correção amostral consiste apenas em substituir “N” da fórmula aplicada para dados populacionais, para “n-1”. Na prática, essa correção praticamente não mudará o resultado final se a amostra contar com 30 ou mais elementos na sua composição. 3) Desvio padrão Por representar valores de desvios elevados ao quadrado, a variância também expressa a variabilidade contida nos dados como uma grandeza também elevada ao quadrado, como, por exemplo, m2, anos2, etc. Para que a variabilidade dos dados não seja expressa em uma grandeza ao quadrado, e sim em uma grandeza da mesma ordem que os valores apresentados pelos dados brutos, costuma-se tirar a raiz quadrada do valor da variância. O resultado desta operação é denominado desvio padrão. Portanto, de acordo com a descrição acima, o desvio padrão é calculado de acordo com a seguinte fórmula: CONTEÚDO UNIDADES DE 1 A 11 Página 44 de 51 Classificação da Informação: Interna Classificação da Informação: Interna Quando se dispõe de amostras, e não de conjuntos populacionais, o desvio padrão é simbolizado pela letra minúscula s, e sua fórmula, após a correção amostral, passa a ser: No exemplo mencionado nos itens anteriores, o valor calculado para a variância foi 2 = 5. Logo, o desvio padrão, neste caso, seria: Há casos particulares em que se pretende comparar a variabilidade dos dados de duas ou mais variáveis medidas por grandezas diferentes. Por exemplo, imagine que um pesquisador esteja interessado em comparar as variações de idade e de estatura em um grupo de estudantes. A idade, fornecida em anos, e a estatura, medida em centímetros, certamente fornecerão valores de variância e desvio padrão muito distintos e, portanto, incomparáveis. Nestes casos, é recomendável usar o coeficiente de variação para comparar as duas variáveis. O coeficiente de variação (cv) é um índice sem grandeza (adimensional), que se obtém pela divisão do desvio padrão pela média do conjunto. Esta prática é denominada normalização. Portanto, a fórmula para o cálculo do coeficiente de variação pode ser escrita do seguinte modo: No exemplo que temos mencionado, o valor do desvio padrão é 2,24 e a média é igual a 5. Sendo assim, o coeficiente de variação, neste caso, é: CONTEÚDO UNIDADES DE 1 A 11 Página 45 de 51 Classificação da Informação: Interna Classificação da Informação: Interna O valor do coeficiente de variação também pode ser representado na forma de porcentagem. Neste caso, basta multiplicar o valor fracionário por 100. No exemplo acima, temos que cv = 0,448 x 100 = 44,8%. 4) Organizando as idéias em uma tabela de desvios Uma maneira de organizar o raciocínio no cálculo da variância e desvio padrão é organizar os dados brutos em uma tabela e criar duas colunas, uma para incluir os valores dos desvios e outra, para os desvios ao quadrado. Considere, como exemplo, o conjunto de dados abaixo, relativos aos salários (em milhares de reais) recebidos anualmente pelos dez trabalhadores de um dos principais setores de uma empresa:41, 38, 39, 45, 47, 41, 44, 41, 37, 42. Observe que a descrição acima se refere a uma população e não a uma amostra, pelo fato de que estão sendo considerados todos os dez trabalhadores do setor mencionado. Para calcularmos a variância e o desvio padrão dos salários, o primeiro passo é obter a média: Em seguida, fazemos a montagem da tabela contendo os dados brutos e os respectivos valores dos desvios em relação à média: CONTEÚDO UNIDADES DE 1 A 11 Página 46 de 51 Classificação da Informação: Interna Classificação da Informação: Interna Como esta população sob estudo conta com apenas 10 indivíduos, temos N = 10. Como o valor da soma dos desvios ao quadrado foi obtido na tabela , é possível, pois, calcular a variância: Em seguida, calculamos o desvio padrão: Podemos, inclusive, determinar o coeficiente de variação: É importante salientar que os valores salariais fornecidos neste exemplo compõem uma população. Se estivéssemos diante de 10 valores extraídos de uma população, ou seja, se os 10 valores CONTEÚDO UNIDADES DE 1 A 11 Página 47 de 51 Classificação da Informação: Interna Classificação da Informação: Interna correspondessem a uma amostra e não a uma população, teríamos então que aplicar a correção amostral para n = 10. Os valores da variância, desvio padrão e coeficiente de variação, neste caso, seriam: UNIDADE 11 - VARIÂNCIA E DESVIO PADRÃO PARA DADOS DISPOSTOS EM TABELAS DE FREQÜÊNCIAS Muitas vezes os dados encontram-se distribuídos em tabelas de freqüências, e, nestas situações, como já descrito para as medidas de tendência central, as freqüências devem entrar no cálculo dos atributos estatísticos. Não poderia ser diferente no caso da variância e do desvio padrão. Descreveremos, a seguir, como estas medidas de dispersão são determinadas a partir destas tabelas. 1) Medidas de dispersão para variáveis quantitativas discretas O primeiro procedimento para se obter a variância e desvio padrão de dados organizados em tabelas de freqüência é o mesmo que foi adotado para os conjuntos de dados brutos, ou seja, a determinação da média. Em seguida, devem ser obtidos os valores dos desvios ao quadrado, os quais serão, finalmente, multiplicados pelas freqüências com que os dados se apresentam na tabela e somados. Para ilustrar esta seqüência de etapas, adotaremos o mesmo exemplo utilizado na unidade 13, que se refere às freqüências de erros de impressão encontrados em uma amostra de 50 páginas de um livro. CONTEÚDO UNIDADES DE 1 A 11 Página 48 de 51 Classificação da Informação: Interna Classificação da Informação: Interna Como descrito na unidade 13, a média é obtida da seguinte forma: Uma vez determinada a média, o próximo passo é obter os desvios. Para organizar melhor as idéias, é recomendável dispor os desvios na própria tabela de dados: Observe na tabela acima que as freqüências dos dados ( fi ) apenas irão participar dos cálculos após os desvios ao quadrado terem sido determinados. Após a soma dos resultados das multiplicações dos desvios ao quadrado pelas respectivas freqüências ter sido obtida CONTEÚDO UNIDADES DE 1 A 11 Página 49 de 51 Classificação da Informação: Interna Classificação da Informação: Interna , a variância pode ser calculada, lembrando que os dados acima correspondem a uma amostra, e, portanto, é necessário fazer a correção amostral (n-1): Uma vez determinada a variância, podemos efetuar o cálculo do desvio padrão: Ou seja, na amostra de 50 páginas do livro, há uma média de 0,66 erro por página e um desvio padrão de 0,85 erro por página. 2) Medidas de dispersão para variáveis quantitativas contínuas Para as tabelas de dados agrupados em classes, o procedimento permanece o mesmo que o descrito no item anterior. No entanto, é importante lembrar que os números que irão representar cada classe nos cálculos efetuados são os pontos médios. Adotaremos o mesmo exemplo citado na unidade 13, relativo à distribuição de freqüências de tempos (em minutos) da última conexão à internet de um grupo de 50 pessoas: CONTEÚDO UNIDADES DE 1 A 11 Página 50 de 51 Classificação da Informação: Interna Classificação da Informação: Interna O cálculo da média para os dados acima é feito da seguinte forma: Uma vez calculada a média, o próximo passo é determinar os desvios. Para melhor organização, os desvios são dispostos na tabela: CONTEÚDO UNIDADES DE 1 A 11 Página 51 de 51 Classificação da Informação: Interna Classificação da Informação: Interna Para calcular a variância, teríamos: A partir da variância, calculamos o desvio padrão: Portanto, nesta amostra de 50 pessoas, a última conexão à internet demorou em média 41,8 minutos, com desvio padrão de 20,16 minutos.
Compartilhar