Baixe o app para aproveitar ainda mais
Prévia do material em texto
Universidade Federal da Bahia Instituto de Matemática Departamento de Estatística NOTAS DE AULA DISCIPLINA: MAT020 ESTATÍSTICA I - A Professora: Lia Terezinha L. P. Moraes Andrea Andrade Prudente Março de 2014 Capítulo I Dados e a Estatística 1.1 O QUE É A ESTATÍSTICA A palavra Estatística deriva da palavra latina status e significa “estado”. O termo Estatística tem dois significados básicos: i. Diz respeito a um conjunto de dados obtidos a partir de levantamentos específicos. Como exemplo podemos usar a seguinte frase: As estatísticas sobre a cesta básica em Salvador registraram uma redução de 0,43% nos preços entre os meses de dezembro de 2013 e janeiro de 2014. ii. O segundo significado refere-se à Estatística como método de análise e podemos defini-la como “uma coleção de métodos para planejar experimentos, obter dados e organizá-los, resumi-los, analisá-los, interpretá-los e deles extrairmos conclusões”1. 1.2 DIVISÕES DA ESTATÍSTICA A Teoria Estatística modernamente se divide em dois grandes campos: a Estatística Descritiva e a Estatística Indutiva. Estatística Descritiva - consiste em um conjunto de métodos que ensinam a sumarizar uma quantidade de dados bastante numerosa em um número pequeno de medidas, substitutas e representantes daquela massa de dados. Estatística Indutiva - consiste em inferir (deduzir ou tirar conclusões a respeito das) propriedades de um universo a partir de uma amostra. O processo de generalização, que é característico do método indutivo, está associado a uma margem de incerteza. A medida da incerteza é tratada mediante técnicas e métodos que se fundamentam na Teoria das Probabilidades. População ou Universo 1 2 Amostra de tamanho n 3 … Tirar conclusões sobre a população N 1 TRIOLA, Mario. Introdução à Estatística. p. 2. 2 Notas de Aula – MAT020 Estatística IA UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 1.3 FASES DO TRABALHO ESTATÍSTICO2 A Estatística, enquanto método de análise, necessita ser desenvolvido em várias etapas para que se obtenha qualidade no trabalho proposto. As principais fases do método são: • Definição do problema • Planejamento do trabalho • Coleta de dados • Apuração dos dados • Apresentação dos dados • Análise e interpretação dos dados Definição do problema É a primeira etapa do trabalho estatístico e consiste na formulação correta do problema a ser estudado. Para tanto, devemos considerar vários aspectos: � explicitar de forma completa o objeto de estudo; � identificar outros estudos já realizados com o mesmo objeto ou estudos análogos (revisão bibliográfica sobre o tema); � definir as hipóteses que serão utilizadas como guia para resolução do problema proposto; � identificar as variáveis que serão analisadas durante o trabalho e ressaltar aquelas que são mais relevantes. Planejamento do trabalho Nesta etapa são determinados todos os procedimentos necessários para a resolução do problema. Primeiramente devemos definir se o estudo proposto será realizado através de um levantamento censitário (quando todos os elementos do universo são investigados) ou se o levantamento será de uma parte da população, por amostragem. A seguir devemos planejar todas as etapas do trabalho, a saber: 2 Os conceitos apresentados no item 1.3 destas Notas de Aula têm como apoio a seguinte referência bibliográfica: RUDIO, Franz Vitor. Introdução ao projeto de pesquisa científica. Petrópolis, Ed. Vozes. Capítulo I Dados e a Estatística 3 UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 � a elaboração do cronograma das atividades fixando os prazos para cada etapa do trabalho; � a definição da equipe técnica e de apoio; � a definição da amostragem, se for o caso; � a confecção do instrumento de coleta de dados (questionário, entrevista, etc.); � a seleção e treinamento da equipe de coleta de dados; � a coleta de dados propriamente dita; � a digitação e crítica aos dados; � a tabulação dos dados; � a análise e interpretação dos dados; � a elaboração do relatório final do trabalho; e, ainda, � a definição dos custos do projeto, quem o financiará e o espaço físico onde serão realizadas as atividades internas do trabalho proposto. Coleta de dados A coleta de dados consiste no processo de obter as informações desejadas sobre o(s) fenômeno(s) que se está investigando. Porém, trata-se um pouco mais do que ir a campo levantar ou coletar os dados. Para que as informações coletadas traduzam a realidade são imprescindíveis as etapas a seguir: � Elaboração do instrumento de pesquisa � Teste do instrumento de pesquisa � Seleção e treinamento de pesquisadores de campo � Coleta de dados propriamente dita � Crítica das informações obtidas Apuração dos dados Após a coleta dos dados nos defrontamos com um amontoado de repostas sobre as variáveis definidas no projeto de trabalho. Para podermos analisar e interpretar as informações obtidas precisamos ordenar e organizar as respostas. Essa etapa diz respeito à apuração dos dados e compõem-se dos seguintes passos: � Classificar os dados – identificar todas as repostas possíveis para cada variável; 4 Notas de Aula – MAT020 Estatística IA UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 � Codificar os dados – é o processo de atribuir um símbolo a cada resposta possível das variáveis e, geralmente, utilizamos números como códigos. � Tabular os dados – este passo consiste em elaborar uma tabela de modo que nas colunas sejam explicitadas as variáveis e nas linhas são registrados os resultados referentes a cada caso observado, para as diversas variáveis (diz respeito à elaboração da planilha de dados para processamento, de preferência, eletrônico dos dados). A tabulação pode ser manual e mecânica. Atualmente trabalha-se com computador para elaborar a tabulação utilizando um programa gerenciador de banco de dados ou um programa estatístico. Apresentação dos dados No trabalho estatístico muitas vezes necessitamos apresentar as informações obtidas de forma resumida, antes mesmo de utilizarmos técnicas estatísticas de análise de dados. Dessa forma, as tabelas e os gráficos são as formas mais comuns de apresentação das informações coletadas. Como confeccionar tabelas e gráficos será apresentado adiante em item específico sobre este assunto. Análise e interpretação dos dados A análise e a interpretação estatística dos dados visam verificar o que os dados significam para a pesquisa, ou seja, para resolver o problema proposto. A análise dos dados permite para as variáveis investigadas, resumidamente: � Caracterizar o que é típico no grupo - obteralguma indicação sobre a tendência central (média, moda, mediana). � Indicar até que ponto variam os indivíduos no grupo - determinar as medidas de variabilidade ou de dispersão (amplitude total, desvio quartil, desvio padrão, variância, coeficiente de variação, etc.). � Mostrar outros aspectos da maneira pela qual os indivíduos se distribuem em relação à variável que está sendo medida - identificar a distribuição de probabilidade variável (Normal, Binomial, etc.). � Mostrar a relação existentes entre as diferentes variáveis – aplicar vários métodos estatísticos para verificar a relação entre as variáveis (porém nenhum deles permite verificar uma relação causal). Capítulo I Dados e a Estatística 5 UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 � Descrever as diferenças entre dois ou mais grupos de indivíduos Considerações finais Concluído o trabalho nas questões relativas à estatística, o pesquisador com a experiência acumulada sobre o tema fará “as ilações que a lógica lhe permitir e aconselhar, procederá às comparações pertinentes e, na base dos resultados alcançados, enunciará novos princípios e fará as generalizações apropriadas”. 1.4 NOÇÕES GERAIS DE AMOSTRAGEM3 A experiência com amostragem é fato corrente no cotidiano. Basta lembrar como um cozinheiro verifica o tempero de um prato que está preparando, como alguém testa a temperatura de um prato de sopa, ou ainda como um médico detecta as condições de uma paciente através de exames de sangue. Porém, o uso inadequado de um procedimento amostral pode levar a um viés de interpretação do resultado. Por exemplo, não mexer bem a sopa antes de retirar uma colher para experimentar, pode levar a subavaliação da temperatura do prato todo, com consequências desagradáveis para o experimentador. O uso de amostras que produzam resultados confiáveis e livres de viéses é o ideal. Assim, a maneira de se obter uma amostra é tão importante que constitui uma especialidade dentro da Estatística, conhecida como Amostragem4. 1.4.1. População e Amostra População ou Universo Estes termos designam uma coleção de objetos, indivíduos ou informações que apresentam pelo menos uma característica em comum cujo comportamento interessa- nos analisar. 3 A parte referente a Noções de Amostragem foi resumida das Notas de Aula sobre Amostragem organizadas pelas professoras do Departamento de Estatística da UFBA Lia Terezinha L. P. Moraes, Rosemeire Leovigildo Fiaccone, Rosana de Freitas Castro e Verônica Maria Cadena Lima. 4 Amostragem é a parte da Estatística que trata da determinação do tamanho da amostra e da forma de seleção dos seus elementos, ou seja, das técnicas para a definição de uma amostra. 6 Notas de Aula – MAT020 Estatística IA UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 Seja U a população de interesse: U = {1, 2, 3, …, i, …, N}, onde i representa a ordem do elemento populacional. Seja Y a característica que desejamos estudar. Então, para cada elemento i ∈ U podemos associar um Yi. U = { 1 , 2 , 3 , …, i , …, N } Y = { Y1; Y2; Y3; …; Yi; …; YN} Se estivermos interessados em observar mais de uma característica da população (Y, X, …, Z), podemos associar a cada elemento populacional um conjunto de informações. Seja D a matriz de dados da população, então: D = N N N ZZZ XXX YYY ... ............ ... ... 21 21 21 Exemplos: i. Deseja-se conhecer o patrimônio líquido, faturamento, número de empregados, tempo de existência, das empresas situadas no Pólo Petroquímico de Camaçari neste ano. População: empresas existentes no Pólo Petroquímico de Camaçari no ano em estudo. Características: X = patrimônio líquido, Y = faturamento, W = número de empregados, Z = tempo de existência. ii. Deseja-se saber se nas indústrias situadas no Estado da Bahia, no último ano, existia algum tipo de controle ambiental. População: indústrias situadas no Estado da Bahia no último ano. Característica: X = existência ou não de algum tipo de controle ambiental na indústria. iii. Estudo sobre a precipitação pluviométrica na Região Nordeste no mês de janeiro deste ano. População: área referente à Região Nordeste. Característica: X = precipitação pluviométrica. iv. Deseja-se estudar os salários mensais pagos no setor industrial baiano no último ano. População: trabalhadores das indústrias localizadas na Bahia no último ano. Característica: X = salários pagos a esses trabalhadores. Capítulo I Dados e a Estatística 7 UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 A Estatística ocupa-se fundamentalmente das propriedades das populações cujas características são passíveis de representação numérica como resultado de medições e contagens. Essas características da população são comumente chamadas de variáveis. Populações finitas e infinitas Quanto ao número de elementos, as populações podem ser classificadas em finita e infinita, dependendo se o número de elementos que a compõe for finito ou infinito. Exemplos: • População finita: indústrias situadas no Estado da Bahia no último ano (exemplo ii). • População infinita: pressões atmosféricas ocorridas nos diversos pontos do Continente em determinado momento. Algumas populações finitas podem apresentar um número de elementos tão elevado que, teoricamente, podemos considerá-las como infinitas, facilitando-se assim a discussão teórica de um grande número de problemas, sem introduzir erros consideráveis. Amostra Qualquer subconjunto finito de elementos extraídos da população, em geral com dimensão sensivelmente menor, sobre o qual se faz as observações. 1.4.2. Comparação entre censos e amostras As informações estatísticas podem ser obtidas de diferentes maneiras. Uma das formas mais antigas de levantamento de dados é através da realização de censos os quais, por definição, pesquisam todas as unidades pertencentes à população para o qual foi planejado. Em virtude desta definição a ideia que se tem dos resultados divulgados por um censo é que estes são precisos, ou seja, isentos de erros. Porém, à medida que passam a ser considerados alguns aspectos envolvidos nestes levantamentos, constata-se de imediato que esta ideia é errônea e que os resultados divulgados por um levantamento censitário estão sujeitos a erros. Os erros mais frequentes são os relacionados à identificação correta da área onde o recenseador trabalha e ao levantamento das informações desejadas. 8 Notas de Aula – MAT020 Estatística IA UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 Visto que um censo pode não fornecer informações exatas, além do alto custo envolvido para sua realização, da demora na divulgação dos resultadose de outros fatores, o levantamento por amostragem começou a ser pensado como forma alternativa de levantamento. Os levantamentos por amostragem consistem em trabalhar, dentro de certos critérios, com uma parte da população selecionada ao acaso. Tomando por base esta investigação é possível realizar inferência para a população como um todo. Como este trabalho é feito apenas com uma parte da população e a inferência é feita para o todo, este tipo de levantamento estará sujeito a um erro chamado de erro de amostragem ou erro amostral. Os erros de amostragem normalmente decrescem com o tamanho da amostra. Uma pesquisa por amostra, executada em concordância com certos princípios estatísticos, permite estimar parâmetros da população e também obter uma estimativa válida do erro de amostragem para o parâmetro estimado. Se nos censos não existe o erro amostral, pois por definição toda população é estudada, ocorrem outros tipos de erro, chamados erros não-amostrais, e que são comuns tanto nos censos como em pesquisas por amostra. O comportamento do erro não-amostral é o oposto ao do erro amostral, ou seja, o erro não-amostral aumenta à medida que cresce o número de questionários a serem aplicados uma vez que é preciso adotar uma melhor organização de campo, um melhor treinamento, uma melhor supervisão na coleta dos dados e um maior controle na apuração. As implicações para aplicação de um desses dois métodos devem ser bem avaliadas e compreendidas. Segundo Bussab (1998), o uso de censo é recomendado quando a população é pequena , quando a coleta das informações é barata ou quando existe um alto custo em tomar decisões erradas. O bom senso deve prevalecer em algumas decisões. Por exemplo, quando a população for pequena e a precisão estatística desejada sugerir uma amostra maior do que a metade da população é bem razoável fazer um censo, desde que os custos permitam. Em contraposição, deve-se usar amostragem quando a população é muito grande e/ou custo (em dinheiro ou tempo) de obter a informação é alto, e/ou o processo de investigação leva a destruição do elemento observado. Capítulo I Dados e a Estatística 9 UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 1.4.3. Parâmetro e Estatística Estreitamente relacionados com os conceitos de população e amostra estão os conceitos de parâmetro e estatística. Considere o exemplo abaixo para efeito de ilustração desses conceitos. Exemplo: Em uma pesquisa, feita por uma agência de consultoria, com 1015 pessoas escolhidas ao acaso, 269 (26,5%) possuíam computador. Como esta cifra se baseia em uma amostra, e não em toda população, trata-se de uma estatística. Já numa pesquisa feita entre todos os funcionários de certa empresa (censo) de Salvador mostra que 84% possuem computadores, este valor é um parâmetro, pois se baseia em toda a população de funcionários da empresa. Temos portanto, as seguintes definições: Parâmetro - é uma medida numérica que descreve uma característica de uma população. Estatística - é uma medida numérica que descreve uma característica de uma amostra. Com os objetivos da pesquisa traduzidos em características mensuráveis, antes de definirmos o tamanho da amostra e confeccionarmos o(s) instrumento(s) de pesquisa (por exemplo, questionário), necessita-se tornar bem claro quais as características populacionais (parâmetros) que deverão ser estimados pela amostra. 1.4.4. Tipos de Amostragem Os vários procedimentos de se escolher uma amostra podem ser agrupados em dois grandes grupos: os chamados planos probabilísticos e planos não-probabilísticos. • Planos probabilísticos: usam mecanismos aleatórios de seleção dos elementos da amostra, atribuindo a cada um deles uma probabilidade, conhecida a priori, de pertencer à amostra. • Planos não-probabilísticos: são os procedimentos que introduzem alguma tendência na escolha da amostra como, por exemplo: amostras intencionais, onde os elementos são selecionados com o auxílio de especialistas; amostras de voluntários para avaliação de novos remédios. Ambos os procedimentos têm suas vantagens e desvantagens. Os estatísticos preferem trabalhar com as amostras probabilísticas, pois têm toda a teoria de 10 Notas de Aula – MAT020 Estatística IA UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 probabilidade e de inferência estatística para dar suporte às conclusões. Assim, é possível medir a precisão dos resultados, baseando-se na informação contida da própria amostra. Principais Tipos de Amostragem Probabilística Amostragem aleatória simples Quando o sistema de referência é perfeito, isto é, quando é conhecida a lista de todas as unidades elementares da população, é possível usar um processo de sorteio no qual cada unidade populacional tenha a mesma probabilidade de pertencer à amostra. A seleção pode ser feita com ou sem reposição. Amostragem estratificada Nesta técnica, a população é dividida em estratos (por exemplo, por sexo, por bairro, por faixas de renda, etc.) e, em cada estrato, selecionam-se os elementos populacionais utilizando a amostragem aleatória simples. Esta técnica é muito mai9s eficiente quando é conhecida a informação de que a característica que nos interessa estudar é muito heterogênea na população. A população heterogênea é transformada em subpopulações relativamente homogêneas. Amostragem por conglomerado Quando a seleção de unidades elementares for muito dispendiosa ou não se dispuser de um sistema de referência completo, a pesquisa por amostragem pode ser viabilizada através da seleção de grupos ou conglomerados de unidades elementares (por exemplo, quarteirões, famílias). Alguns conglomerados são selecionados segundo uma amostragem aleatória simples e todos os indivíduos nos conglomerados selecionados são observados - amostragem por conglomerado em um estágio. Em geral este tipo de amostragem é menos eficiente do que as demais, porém é mais econômica. Tal procedimento é adequado quando é possível dividir a população em um grande número de pequenas subpopulações e, de preferência, essas subpopulações devem apresentar a variabilidade o mais próxima possível à da população em estudo. Pode-se também adotar um procedimento de amostragem por conglomerado em dois estágios, ou seja, cada conglomerado selecionado na amostra no primeiro estágio é Capítulo I Dados e a Estatística 11 UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 subamostrado, isto é, uma amostra de unidades é selecionada de cada conglomerado selecionado no primeiro estágio. Amostragem sistemática Quando existe disponível uma listagem de indivíduos da população, pode-se sortear aleatoriamente um indivíduo entre os k primeiros e então selecionar sequencialmente os demais elementos amostrais mantendo o intervalo de seleção de k unidades. Se o tamanho da população (N) for um múltiplo do tamanho da amostra o intervalo de seleção para obter uma amostra de tamanho n será k = N/n. Caso N não seja múltiplo de n, o problema pode ter várias soluções aproximadas e o amostrista devedecidir qual a mais conveniente. Exemplo (Bussab): Suponha que para uma determinada população N = 1000 deseja-se retirar uma amostra de tamanho n = 200. Tem-se portanto, que k = 5. Isto é, a população será dividida em 200 grupos de 5 unidades populacionais onde um elemento será selecionado em cada grupo. Uma unidade será selecionada entre 5 as primeiras. Suponha que a unidade 3 tenha sido selecionada. Então em cada um dos 199 grupos restantes, será selecionada sempre a terceira unidade, completando a nossa amostra sistemática de 200 unidades. Em populações que estão em "ordem-aleatória", este tipo de amostragem é quase tão eficiente quanto a amostragem aleatória simples, entretanto pode ser bastante prejudicada quando ciclos estão presentes na população. 1.5 TIPOS DE VARIÁVEIS A característica que nos interessa analisar damos o nome de variável. As características ou variáveis podem ser divididas em dois tipos: qualitativas e quantitativas. Contínua Discreta vaQuantitati Ordinal Nominal aQualitativ variáveisde Tipos 12 Notas de Aula – MAT020 Estatística IA UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 Variáveis qualitativas - quando o resultado da observação é apresentado na forma de qualidade ou atributo. Exemplos: setor de atividade econômica; estado civil; porte da empresa; etc. Variável qualitativa nominal - quando não existe qualquer ordenação para os resultados obtidos do processo de observação. Como exemplo, temos, entre as variáveis acima citadas: setor de atividade econômica (industrial, comercial, serviços, etc.); estado civil (solteiro, casado, viúvo, etc.). Variável qualitativa ordinal - quando existe uma certa ordenação nos possíveis resultados das observações efetuadas. Exemplo: porte de uma empresa (micro, pequena, média e grande). Outros exemplos: classe social (alta, média e baixa); o grau de escolaridade do empregado (1o grau; 2o grau; e 3o grau). Variáveis quantitativas - quando o resultado da observação é um número, decorrente de um processo de mensuração ou contagem. Exemplos: número de empregados; salário mensal; faturamento anual; idade; tamanho da família; etc. Variável quantitativa discreta - quando os resultados possíveis da observação formam um conjunto finito ou infinito enumerável. Resultam, freqüentemente, de uma contagem. Exemplos: número de empregados (0,1,2,...); tamanho da família (1, 2, 3, ...). Variável quantitativa contínua - quando os possíveis valores formam um intervalo ou uma união de intervalos de números reais. Resultam, normalmente, de um processo de mensuração. Exemplos: salário mensal; faturamento anual, altura; peso. Para resumir as informações levantadas durante uma pesquisa usaremos a técnica mais apropriada, a depender do tipo de variável que estamos analisando. 1.6 ESCALAS DE MENSURAÇÃO Existem quatro tipos de escala de mensuração: Escala nominal ou classificadora: “Quando números ou outros símbolos são usados para identificar os grupos a que vários objetos pertencem, esses números ou símbolos constituem uma escala nominal ou classificadora.”5 Isto é, quando os números ou 5 SIEGEL, p.23. Capítulo I Dados e a Estatística 13 UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 símbolos não têm significado quantitativo. Esta escala nominal envolve apenas relações de igualdade e diferença entre grupos e não é possível fazer comparações dentro de em mesmo grupo. Exemplos: • sexo (masculino, feminino); • constituição jurídica da empresa (sociedade limitada, sociedade anônima, etc.); • bom - mau; • sim – não. A escala nominal representa a escala mais simples de medição e apenas os métodos não-paramétricos de análise estatística são apropriados para este tipo de mensuração. Escala ordinal: Como na escala nominal, a escala ordinal permite verificar semelhanças e diferenças entre grupos. Porém, pode ocorrer que grupos de classificação não sejam apenas diferentes, mas também apresentem uma certa relação entre eles do tipo: mais alto do que; preferível a; mais difícil do que; etc.. Se a relação “maior do que” (simbolizada como >) é válida para todos os pares de classes, temos um escala ordinal. Exemplos: • classe social (alta, média e baixa): a relação maior status social é válida para qualquer par de classe e os membros de uma classe têm o igual status social; • opinião de um indivíduo sobre a administração de um prefeito (péssima, ruim, regular, boa, ótima) • grau de escolaridade (fundamental, médio, superior). Embora seja, ainda, um método simples de mensuração, a escala ordinal permite fazer uma ordenação por categorias dando maior robustez a este tipo de escala. Novamente, os métodos não-paramétricos são os mais indicados. Escala intervalar: “Quando a escala tem todas as características de uma escala ordinal, e quando, além disso, se conhecem as distâncias entre dois números quaisquer da escala, então consegue-se uma mensuração consideravelmente mais forte que a ordinal. Obtém- se, nesse caso, uma mensuração no sentido de uma escala intervalar. Isto é, se nossa fixação das diversas classes de objetos é tão precisa a ponto de sabermos exatamente 14 Notas de Aula – MAT020 Estatística IA UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 quão grandes são os intervalos (distâncias) entre todos os elementos da escala, então atingimos o grau de mensuração por intervalos. (…) Nesse tipo de mensuração, a razão de dois intervalos quaisquer é independente da unidade de mensuração e do ponto zero. Em uma escala intervalar, o ponto zero e a unidade de medida são arbitrários.”6 Exemplos: * medição da temperatura: a temperatura 40o C é mais quente que a temperatura de 20o C e o ponto 0o é uma temperatura arbitrada; * o nosso calendário: o ano zero é um ano arbitrário; * a distância entre duas cidades. Esta escala é uma escala verdadeiramente quantitativa. É possível a aplicação de todas os métodos estatísticos paramétricos conhecidos (médias, desvios padrões, correlações de Pearson, etc.), assim como os métodos paramétricos comuns (teste t, teste F, etc.) em dados neste tipo de escala. Os métodos não-paramétricos podem ser utilizados, mas, em geral, não aproveitam toda a informação contida nos dados pesquisados (há desperdício da informação). Escala de razões: “Quando uma escala tem todas as características de uma escala de intervalos e, além disso, tem um verdadeiro ponto zero como origem, é chamada de escalas de razões. Em uma escala de razões, a razão de dois pontos quaisquer da escala é independente da unidade de mensuração.”7 Exemplos: * medição da intensidade do som; * medição da estatura de um indivíduo; * quantidade, em quilogramas, da produção diária de uma empresa; * tempo de existência de uma empresa. Se a escala de mensuração utilizada é de razões, qualquer método estatístico é passível de aplicação aos dados levantados.6 SIEGEL (1979). p.28. 7 SIEGEL (1979). p.31. Capítulo II Estatística Descritiva: Apresentação dos Dados Quando realizamos um levantamento de dados para estudar algum fenômeno (variável), o resultado é uma série estatística. O modo de condensação ou apresentação dessas séries pode ser na forma de tabelas ou de gráficos. Estas formas de apresentação facilitam a visualização do fenômeno, permitem a comparação entre categorias do fenômeno, permitem o cruzamento com outros fenômenos e fazer previsões. Antes, porém, é necessário criar um arquivo de dados informatizado. 2.1 A PLANILHA DE DADOS O tratamento dos dados com o apoio computacional tem como primeiro passo a montagem da planilha de dados. Para construí-la basta imaginá-la como uma tabela estatística arrumada da seguinte forma: nas colunas registramos as diversas características ou variáveis investigadas e as linhas serão preenchidas com os registros sobre as variáveis de cada elemento da amostra (ou da população). Exemplo: Um estudo sobre indústrias petroquímicas situadas no Pólo Petroquímico de Camaçari – COPEC levantará as seguintes variáveis: patrimônio líquido da empresa, faturamento anual para os dois últimos anos, número total de empregados, número de empregados no setor produtivo da empresa, etc. Planilha de dados Variável 1 Nome da empresa Variável 2 Patrimônio líquido Variável 3 Faturamento ano 1 Variável 4 Faturamento ano 2 Variável 5 N° total de empregados Variável 6 N° empregados setor produtivo Etc. 1 A 2 B 3 C 4 D 5 E 6 F etc. etc. 16 Notas de Aula – MAT020 Estatística IA UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 2.2 REPRESENTAÇÃO TABULAR E GRÁFICA DE UM CONJUNTO DE DADOS A apresentação de dados, como foi dito anteriormente, pode ser resumida através de tabelas e gráficos. O gráfico constitui um elemento básico na análise e na apresentação dos trabalhos estatísticos. Os principais tipos de gráficos foram apresentados a seguir e, antecedendo-os, uma tabela estatística reproduzida do site1 da SEI-BA – Superintendência de Estudos Econômicos e Sociais da Bahia, órgão oficial de estatística vinculado à Secretaria de Planejamento do Estado da Bahia. Os gráficos foram construídos na Planilha Excel. Estrutura do PIB por Grandes Setores Bahia – 2002 - 2007 Ano Grandes setores Primário Secundário Terciário Total 2002 10,5 28,8 60,7 100,0 2003 10,6 28,8 60,6 100,0 2004 10,8 30,7 58,5 100,0 2005 8,6 32,2 59,2 100,0 2006 7,9 30,7 61,5 100,0 2007 (*) 7,8 30,2 62,0 100,0 Fonte: SEI/IBGE (*) Dados sujeitos a retificação, depois de consolidados os resultados de todas as UF's (Projeto de Contas Regionais - SEI/IBGE). 2.2.1. Principais Tipos de Representação Gráfica 1º) Gráfico em barras Estrutura do PIB por Grandes Setores Bahia - 2007 0,0 10,0 20,0 30,0 40,0 50,0 60,0 70,0 Primário Secundário Terciário Se to r Percentagem Fonte: SEI/IBGE Nota: Dados sujeitos a retificação, depois de consolidados os resultados de todas as UF's (Projeto de Contas Regionais - SEI/IBGE). 1 www.sei.ba.gov.br Capítulo II Estatística Descritiva: Apresentação dos Dados 17 UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 Estrutura do PIB por Grandes Setores Bahia, 2002/2007 0,0 10,0 20,0 30,0 40,0 50,0 60,0 70,0 Primário Secundário Terciário Se to r Percentagem 2007 (*) 2002 Fonte: SEI/IBGE (*) Dados sujeitos a retificação, depois de consolidados os resultados de todas as UF's (Projeto de Contas Regionais - SEI/IBGE). 2º) Gráfico em colunas Estrutura do PIB por Grandes Setores Bahia - 2007 0,0 10,0 20,0 30,0 40,0 50,0 60,0 70,0 Primário Secundário Terciário Setor % Fonte: SEI/IBGE Nota: Dados sujeitos a retificação, depois de consolidados os resultados de todas as UF's (Projeto de Contas Regionais - SEI/IBGE). Estrutura do PIB por Grandes Setores Bahia, 2002/2007 0,0 20,0 40,0 60,0 80,0 Primário Secundário Terciário Setor % 2002 2007 (*) Fonte: SEI/IBGE (*) Dados sujeitos a retificação, depois de consolidados os resultados de todas as UF's (Projeto de Contas Regionais - SEI/IBGE). Legenda Legenda 18 Notas de Aula – MAT020 Estatística IA UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 3º) Gráfico em curvas Evolução Percentual do PIB do Setor Terciário Bahia, 2002 - 2007 56,0 57,0 58,0 59,0 60,0 61,0 62,0 63,0 2002 2003 2004 2005 2006 2007 (*) Ano % Fonte: SEI/IBGE (*) Dados sujeitos a retificação, depois de consolidados os resultados de todas as UF's (Projeto de Contas Regionais - SEI/IBGE). Evolução Percentual do PIB segundo Grandes Setores Bahia, 2002 - 2007 0,0 10,0 20,0 30,0 40,0 50,0 60,0 70,0 2002 2003 2004 2005 2006 2007 (*) Ano % Primário Secundário Terciário Fonte: SEI/IBGE (*) Dados sujeitos a retificação, depois de consolidados os resultados de todas as UF's (Projeto de Contas Regionais - SEI/IBGE). 4º) Gráfico em setores 8% 30% 62% Distribuição Percentual do PIB segundo Grandes Setores Bahia, 2007 Primá rio Secundário Terciário Fonte: SEI/IBGE Nota: Dados sujeitos a retificação, depois de consolidados os resultados de todas as UF's (Projeto de Contas Regionais - SEI/IBGE). Legenda Legenda Capítulo II Estatística Descritiva: Apresentação dos Dados 19 UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 O gráfico em setores presta-se à representação da parte no todo através do uso de um círculo. Para tanto, é necessário transformar os valores absolutos ou relativos da variável para graus, aplicando uma regra de três simples. Cada setor do círculo representará um resultado da variável. 5°°°°) Histograma2 6°°°°) Boxplot Faturamento (em mil unidades monetárias) 135012501150105095085075065055045035025015050 Distribuição do faturamento das empresas industriais Região XWZ, Ano 2 Fonte: Dados f ic itícios Nú m e ro de e m pr es a s 30 25 20 15 10 5 0 1141471762N = Faturamento das empresas industriais segundo o setor industrial Região XWZ, Ano 2 Fonte: Dados f ic itícios Nota: Faturamento em mil unidades monetárias Setor industrial Prod. Alimentares Prod. Minerais não-m Ves tuário Editorial e Gráfica Bebidas Mobiliário Fa tu ra m en to 1600 1200 800 400 0 2.2.2. Tabelas simples e de dupla entrada Chamamos de tabela simples ou de uma única entrada quando esta representa apenas uma série estatística. Como exemplo,temos: Estrutura do PIB por Grandes Setores Bahia – 2002 Grandes setores % do PIB Primário 10,5 Secundário 28,8 Terciário 60,7 Total 100,0 Fonte: SEI/IBGE É bastante comum necessitarmos apresentar mais de uma série estatística em uma única tabela. A conjugação de duas séries damos o nome de tabelas de dupla entrada. Como exemplo temos a tabela que foi inicialmente apresentada. 2 A construção dos gráficos histograma e boxplot será explicada adiante. Estes gráficos foram elaborados no programa estatístico SPSS. 20 Notas de Aula – MAT020 Estatística IA UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 2.2.3. Tabelas de múltipla entrada A tabela de múltipla entrada apresentada a seguir consiste em uma parte da tabela apresentada no site do IBGE na publicação As micro e pequenas empresas comerciais e de serviços do Brasil – 2001, da série Estudos e Pesquisas – Informações Econômicas.3 Aconselha-se não colocar muitas variáveis em uma única tabela pois, no lugar de facilitar, pode dificultar a compreensão da informação. Deve-se, neste caso, dividir a tabela em quantas tabelas forem necessárias para a veiculação da informação. Tabela 1 - Micro e pequenas empresas de comércio e serviços, pessoal ocupado, salários, retiradas e outras remunerações, valor adicionado e receita operacional líquida, segundo as Grandes Regiões e faixas de pessoal ocupado - 2001 (continua) Grandes Regiões e faixas de pessoal ocupado Número de micro e pequenas empresas Pessoal ocupado em 31.12 Salários, retiradas e outras remunerações Valor adicionado (1) Receita operacional líquida 1 000 R$ Total Brasil 2 044 565 7 290 670 27 1179 568 61 856 724 168 245 562 Até 5 pessoas ocupadas 1 536 272 2 958 944 9 634 642 26 764 984 76 934 168 De 6 a 19 pessoas ocupadas 439 719 2 668 873 10 372 680 21 582 424 66 612 098 20 ou mais pessoas ocupadas 68 574 1 662 853 7 972 247 13 509 316 24 699 297 Norte 27 467 148 036 540 156 1 190 896 2 852 390 Até 5 pessoas ocupadas 17 083 39 360 122 889 342 218 95 7252 De 6 a 19 pessoas ocupadas 8 649 56 991 213 549 466 681 1 284 420 20 ou mais pessoas ocupadas 1 735 51 685 203 718 381 998 610 719 Nordeste 292 324 1 067 086 3 273 120 6 722 102 21 187 488 Até 5 pessoas ocupadas 223 881 427 901 1 026 871 2 329 022 9 874 625 De 6 a 19 pessoas ocupadas 57 140 351 076 1 123 940 2 518 005 8 196 625 20 ou mais pessoas ocupadas 11 303 288 109 1 122 310 1 875 075 3 116 239 Sudeste 1 134 052 4 066 775 16 707 569 36 027 810 92 512 654 Até 5 pessoas ocupadas 847 757 1 631 454 5 827 004 16 485 519 41 574 718 De 6 a 19 pessoas ocupadas 249 329 1 505 384 6 157 017 11 747 171 36 485 884 20 ou mais pessoas ocupadas 36 966 929 937 4 723 548 7 795 119 14 452 051 Sui 458 293 1 484 774 5 680 315 13 113 437 37 979 423 Até 5 pessoas ocupadas 354 589 664 842 21 11 340 5 724 564 18 482 025 De 6 a 19 pessoas ocupadas 90 481 541 766 2 166 340 4 913 673 14 717 456 20 ou mais pessoas ocupadas 13 223 278 166 1 402 636 2 475 201 4 779 942 Centro-Oeste 132 429 523 999 1 778 408 4 802 479 13 713 607 Até 5 pessoas ocupadas 92 962 195 387 546 538 1 883 661 6 045 547 De 6 a 19 pessoas ocupadas 34 120 213 656 711 835 1 936 895 5 927 713 20 ou mais pessoas ocupadas 5 347 114 956 520 035 981 923 1 740 346 Fonte: http://www.ibge.gov.br/home/estatistica/economia/microempresa/microempresa2001.pdf, em 15/03/2009 3 http://www.ibge.gov.br/home/estatistica/economia/microempresa/microempresa2001.pdf Capítulo II Estatística Descritiva: Apresentação dos Dados 21 UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 Correspondência entre as séries estatísticas e a representação gráfica Tipo de série estatística Gráfico mais indicado Temporal Curvas, excepcionalmente Colunas Especificativas Barras, Colunas ou Setores Geográficas Cartogramas, Colunas, Barras ou Setores Distribuição de frequências Histograma 1ª) Série temporal, cronológica ou histórica - quando os resultados da observação do fenômeno são registrados ao longo do tempo. (Ver gráfico em curvas) 2ª) Série geográfica ou espacial - quando os resultados da observação são registrados segundo seu local de ocorrência (Ver tabela nesta página). 3ª) Série especificativa, específica ou categórica - quando o fenômeno é observado segundo algumas categorias. (Ver gráfico em setores) 4ª) Distribuição de frequências - neste tipo de série estatística o fenômeno considerado é uma variável quantitativa (discreta ou contínua) e seus valores observados são descritos considerando o número de vezes que ocorreram na série (frequência). (O histograma representa uma distribuição de frequências) 2.3 NORMAS DE APRESENTAÇÃO TABULAR4 2.3.1. Objetivo Estas normas fixam conceitos e procedimentos aplicáveis à elaboração de tabelas de dados numéricos, de modo a garantir a clareza das informações apresentadas. 2.3.2. Principais elementos de uma tabela Inicialmente, apresentaremos o esboço de uma tabela e a seguir serão conceituados os elementos que a compõe. 4 Retiradas do documento: IBGE. Normas de apresentação tabular. Centro de Documentação e Disseminação de Informação. 3ª ed. IBGE, Rio de Janeiro, 1993. 22 Notas de Aula – MAT020 Estatística IA UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 Título Tabela da Número TOPO Cabeçalho da coluna indicadora Cabeçalho das colunas numéricas Coluna � Linha � Célula específica Nota geral Nota Fonte RODAPÉ Topo: Espaço superior de uma tabela destinado ao seu número e ao seu título. Título: Conjunto de termos indicadores do conteúdo de uma tabela. Toda tabela deve ter título, inscrito no topo, para indicar a natureza e as abrangências geográfica e temporal dos dados numéricos. As indicações da natureza e da abrangência geográfica dos dados numéricos devem ser feitas sem abreviações, por extenso, de forma clara e concisa. Centro: Espaço central de uma tabela destinado à moldura, aos dados numéricos e aos termos necessários à sua compreensão. No centro identificam-se quatro espaços menores: o espaço do cabeçalho, a coluna, a linha e a célula. Espaço do cabeçalho: Espaço superior do centro de uma tabela destinado à indicação do conteúdo das colunas. Toda tabela deve ter cabeçalho, inscrito no espaço do cabeçalho, para indicar, complementarmente ao título, o conteúdo das colunas. O conteúdo das colunas deve ser feita com palavras ou com notações, de forma clara e concisa. Recomenda-se que a indicação com palavras seja feita por extenso, sem abreviações. Coluna: Espaço vertical do centro de uma tabeladestinado aos dados numéricos (coluna de dados numéricos) ou aos indicadores de linha (colunas indicadoras). Linha: Espaço horizontal do centro de uma tabela destinado aos dados numéricos. Toda tabela deve ter indicadores de linha, inscritos nas colunas indicadoras, para indicar, complementarmente ao título, o conteúdo as linhas. O conteúdo das linhas deve ser feita Capítulo II Estatística Descritiva: Apresentação dos Dados 23 UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 com palavras ou com notações, de forma clara e concisa. Recomenda-se que a indicação com palavras seja feita por extenso, sem abreviações Dado numérico: Quantificação de um fato específico observado. A estruturação dos dados numéricos e dos termos necessários à compreensão de uma tabela deve ser feita com, no mínimo, três traços horizontais paralelos. O primeiro para separar o topo, o segundo para separar o espaço do cabeçalho. O terceiro para separar o rodapé. Célula: espaço mínimo do centro de uma tabela, resultante do cruzamento de uma linha com uma coluna, destinado ao dado numérico ou ao sinal convencional. Sinal convencional: Representação gráfica que substitui um dado numérico. A substituição de um dado numérico deve ser feita por um dos sinais abaixo, conforme o caso: - Dado numérico igual a zero não resultante de arredondamento; .. Não se aplica dado numérico; ... Dado numérico não disponível; x Dado numérico omitido a fim de evitar a individualização da informação; 0 0 0 0 00 , , etc. Valor igual a zero resultante de arredondamento de um dado numérico originalmente positivo. − − − 0 0 0 0 00 , , etc. Valor igual a zero resultante de arredondamento de um dado numérico originalmente negativo. Quando uma tabela contiver sinais convencionais, estes deverão ser apresentados em nota geral com seus respectivos significados. No caso de publicação que contenha tabelas com sinais convencionais, na qual a apresentação dos sinais e de seus significados figure em destaque, é dispensável a nota geral em cada tabela. Rodapé: Espaço inferior de uma tabela destinado à fonte, à nota geral e à nota específica. Fonte: Identificador do responsável (pessoa física ou jurídica) ou responsáveis pelos dados numéricos. Toda tabela deve ter fonte, inscrita a partir da primeira linha de seu 24 Notas de Aula – MAT020 Estatística IA UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 rodapé. A identificação do responsável ou responsáveis pelos dados numéricos deve ser feita com palavras, por extenso, e precedida da palavra Fonte ou Fontes. Quando os dados são extraídos de algum documento, recomenda-se a indicação da referência bibliográfica do documento e quando a tabela contiver dados numéricos resultantes de transformação dos dados numéricos obtidos na fonte, o responsável pela operação deve ser identificado em nota geral ou nota específica. Nota geral: Texto esclarecedor do conteúdo geral de uma tabela, quando necessário. Deve ser inscrito logo após ao rodapé da tabela e ser precedido do termo Nota ou Notas. Nota específica: Texto esclarecedor de algum elemento específico de uma tabela, quando necessário. Deve ser inscrito no rodapé, logo após a nota geral (quando esta existir). Quando uma tabela contiver mais de uma nota específica, estas devem ser distribuídas obedecendo à ordem de numeração das chamadas, separando-se uma das outras por um ponto. Chamada: Símbolo remissivo atribuído a algum elemento de uma tabela que necessita uma nota específica. A remissiva atribuída a algum elemento deve ser feita em algarismos arábicos em destaque: entre parênteses, entre colchetes, exponencial. Quando uma tabela contiver mais de uma chamada, estas devem ser distribuídas sucessivamente, de cima para baixo e da esquerda para a direita, em ordem crescente de numeração. Unidade de medida: Termo indicador da expressão quantitativa ou metrológica dos dados numéricos. Uma tabela deve ter unidade de medida, inscrita no espaço do cabeçalho ou nas colunas indicadoras, sempre que houver necessidade de se indicar, complementarmente ao título, a expressão quantitativa ou metrológica dos dados numéricos. A unidade de medida deve ser feita com símbolos ou palavras entre parênteses. 2.3.3. Apresentação do tempo i) Toda série temporal consecutiva deve ser apresentada, em uma tabela, por seus pontos, inicial e final, ligados por hífen (-). Capítulo II Estatística Descritiva: Apresentação dos Dados 25 UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 Exemplos: 1981-1985: apresenta dados numéricos para os anos de 1981, 1982, 1983, 1984 e 1985. OUT 1991 - MAR 1992: apresenta dados numéricos para os meses de outubro, novembro e dezembro de 1991 e janeiro, fevereiro e março de 1992. 30.05.1991 - 06.06.1991: dados referentes aos dias 30 e 31 de maio de 1991 e 1, 2, 3, 4, 5, e 6 de junho de 1991. ii) Toda série temporal não consecutiva deve ser apresentada, em uma tabela, por seus pontos, inicial e final, ligados por barra (/). Exemplos: 1981/1985: apresenta dados numéricos para os anos de 1981 e 1985, não sendo apresentados dados numéricos de pelo menos um dos anos desta série temporal. OUT 1991/MAR 1992: dados referentes aos meses de outubro de 1991 e março de 1992, não sendo apresentados dados numéricos de pelo menos um dos meses desta série temporal. 30.05.1991 / 06.06.1991: dados referentes aos dias 30 de maio de 1991 e 6 de junho de 1991, não sendo apresentados dados numéricos de pelo menos um dos dias desta série temporal. iii) No caso de uma série temporal não consecutiva que contenha um número reduzido de pontos, a série temporal pode ser apresentada por todos os seus pontos, separados por vírgula, dispensando-se proceder conforme o item (ii). iv) Quando uma tabela contiver dados numéricos de uma safra, abrangendo dois anos, a apresentação do ponto no tempo deve ser feita com os dois últimos algarismos de cada um dos anos ligados por barra (/) e precedida da palavra Safra. Exemplo: Safra 91/92: apresenta dados numéricos de uma safra iniciada em 1991 e terminada em 1992. v) Quando uma tabela contiver dados numéricos de um período anual diferente do ano civil, isto deve ser indicado no título, em nota geral ou nota específica 26 Notas de Aula – MAT020 Estatística IA UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 2.3.4. Arredondamento de dados numéricos Os dados numéricos devem ser arredondados, em uma tabela, sempre que houver necessidade de apresentá-los com um número menor de algarismos. Isto deve ser indicado em nota geral ou nota específica. i. O arredondamento dos dados numéricos deve respeitar as diferenças significativas (absolutas e relativas) existente entre eles. ii. No arredondamentodo dado numérico, quando o primeiro algarismo a ser abandonado for 0, 1, 2, 3 ou 4, deve ficar inalterado o último algarismo a permanecer. Exemplos: Arredondar para: - número inteiro o número 9,2377 ⇒ 9; - número com uma casa decimal (décimos) o número 9,2377 ⇒ 9,2; - número com duas casas decimais (centésimos) o número 21,0509 ⇒ 21,05. iii. No arredondamento de dado numérico, quando o primeiro algarismo a ser abandonado for 5, 6, 7, 8 ou 9, deve-se aumentar de uma unidade o último algarismo a permanecer. Exemplos: Arredondar para: - número inteiro o número 399,85 ⇒ 400; - número com uma casa decimal (décimos) o número 399,85 ⇒ 399,9; - número com duas casas decimais (centésimos) o número 9,2377 ⇒ 9,24. 2.4 DISTRIBUIÇÕES DE FREQUÊNCIAS Exemplo de aplicação: Para exemplificar os diversos conceitos estatísticos destas Notas de Aula, será utilizado um banco de dados fictício referente ao seguinte enunciado. Na Região XWZ, visando conhecer as principais características das empresas industriais situadas na região, foi realizado um levantamento censitário para investigar algumas características das empresas no ano 2 e o faturamento nos anos 1 e 2. O banco de dados, reproduzido na página a seguir, está organizado de acordo com o esquema abaixo e as palavras no cabeçalho da tabela dizem respeito aos nomes dados a cada uma das variáveis investigadas: Capítulo II Estatística Descritiva: Apresentação dos Dados 27 UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 • Identificação da empresa (empresa) ⇒ número sequencial; • Setor de atividade industrial (setorind) ⇒ Códigos: 0 = Mobiliário; 1 = Bebidas; 2 = Editorial e gráfica; 3 = Vestuário; 4 = Minerais não-metálicos; 5 = Produtos alimentares; • Faturamento do ano 1 (fat_ano1) ⇒ valores em mil unidades monetárias; • Faturamento do ano 2 (fat_ano2) ⇒ valores em mil unidades monetárias; • Número de empregados (emprego); • Tempo de funcionamento da empresa (idade) ⇒ valores em anos completos. empresa setorind fat_ano1 fat_ano2 emprego idade 1 2 3 4 5 6 etc. 2.4.1. Dados brutos e rol Quando realizamos um levantamento de dados, é necessário utilizarmos algum instrumento de registro das informações coletadas (questionários, formulários, etc.). Porém, após coletarmos as informações, estas encontram-se desorganizadas numericamente. Os dados obtidos, sem qualquer organização numérica, são chamados de dados brutos. Quando os valores para cada variável investigada são dispostos em uma determinada ordem, crescente ou decrescente, chamamos a listagem de rol. 28 Notas de Aula – MAT020 Estatística IA UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 Banco de dados utilizado no exemplo de aplicação empresa setorind fat_ano1 fat_ano2 emprego idade empresa setorind fat_ano1 fat_ano2 emprego idade 1 2 70 45 13 10 63 4 446 381 18 13 2 2 48 65 13 16 64 4 444 381 14 20 3 2 80 66 16 8 65 3 328 386 19 4 4 2 62 69 10 10 66 3 343 389 20 1 5 2 69 77 6 4 67 3 352 391 16 5 6 2 80 88 12 8 68 3 369 402 20 4 7 2 74 89 12 14 69 4 468 402 8 20 8 2 93 98 10 8 70 3 352 405 26 7 9 2 96 104 10 2 71 4 450 410 15 18 10 2 133 122 18 11 72 4 494 415 12 21 11 2 254 123 5 18 73 4 488 423 11 16 12 2 95 129 5 3 74 3 383 426 21 5 13 2 163 145 9 4 75 3 360 432 6 4 14 4 140 150 13 15 76 3 373 432 19 5 15 2 116 154 12 7 77 4 494 432 10 17 16 2 160 154 13 9 78 3 353 450 19 1 17 0 76 156 3 11 79 3 378 455 9 3 18 1 148 156 5 20 80 4 537 455 22 18 19 4 148 167 15 14 81 3 397 456 17 6 20 2 180 171 14 13 82 3 407 463 14 5 21 1 202 174 12 13 83 3 443 465 16 7 22 1 124 176 11 5 84 3 411 473 12 6 23 1 154 183 10 12 85 4 550 475 6 19 24 3 155 185 21 6 86 3 428 483 22 6 25 0 120 192 5 5 87 3 422 483 20 7 26 3 174 202 17 4 88 3 437 487 23 5 27 3 437 205 23 3 89 5 446 487 22 15 28 2 202 212 12 14 90 3 425 489 21 8 29 3 190 217 18 5 91 4 576 490 17 17 30 4 202 230 15 21 92 4 573 495 11 13 31 3 205 233 26 3 93 4 594 500 9 14 32 1 249 233 15 8 94 3 455 502 24 5 33 3 218 236 16 4 95 3 469 503 21 6 34 3 273 245 13 5 96 3 446 505 18 5 35 3 216 248 18 5 97 4 579 510 8 15 36 3 223 250 18 5 98 4 499 510 13 18 37 3 205 253 13 5 99 3 445 525 15 3 38 5 203 254 15 6 100 3 374 530 27 5 39 3 225 261 19 5 101 5 510 534 31 10 40 4 308 265 7 16 102 4 774 543 17 30 41 3 226 268 13 6 103 4 633 545 15 13 42 3 260 276 17 5 104 4 653 567 16 18 43 4 329 282 12 16 105 3 513 570 20 5 44 1 336 292 10 15 106 4 590 585 20 20 45 3 236 299 19 6 107 4 716 610 11 23 46 3 262 310 15 6 108 5 554 620 23 12 47 5 271 310 17 7 109 4 719 623 20 18 48 3 270 314 21 5 110 4 764 630 20 21 49 3 304 333 12 8 111 4 650 634 11 24 50 4 322 334 27 16 112 5 656 670 16 12 51 3 297 335 18 4 113 4 807 682 20 24 52 5 222 345 15 7 114 5 686 695 19 6 53 3 318 351 20 6 115 4 813 702 13 10 54 3 313 354 23 2 116 4 711 723 14 17 55 4 425 355 16 18 117 4 841 730 14 17 56 4 422 361 15 19 118 4 824 734 18 21 57 3 296 365 15 6 119 4 850 750 17 25 58 3 307 367 25 6 120 4 959 810 18 18 59 3 319 369 16 5 121 5 810 835 26 5 60 4 435 370 15 17 122 4 866 875 12 23 61 4 436 372 12 19 123 5 1150 1243 39 11 62 4 453 375 5 12 124 5 1554 1345 29 10 Capítulo II Estatística Descritiva: Apresentação dos Dados 29 UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 2.4.2. Tabelas de frequências Ao observarmos um rol relativo a uma variável, podemos verificar que vários valores aparecem mais de uma vez. Chamamos de frequência absoluta o número de vezes que um determinado valor da variável aparece na série. Tabelas de frequências para variáveis quantitativas discretas5 Exemplo: Com as informações sobre o tempo de existência das empresas (idade) na região XWZ organizar os dados, construindo: a) o rol; b) a tabela de frequências. a) Rol: Variável “tempo de existência das empresas na região XWZ” 1 1 2 2 3 3 3 3 3 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 8 8 8 8 8 8 9 10 10 10 10 10 11 11 11 12 12 12 12 13 13 13 13 13 14 14 14 14 15 15 15 15 16 16 16 16 16 17 17 17 17 17 18 18 18 18 18 18 18 18 19 19 19 20 20 20 20 21 21 21 21 23 23 24 24 25 30 b) Tabela de frequências Tempo de existência das empresas industriais Região XWZ, Ano 2 (Em anos) Tempo de existência Número de empresas Tempo de existência Número de empresas 1 2 14 4 2 2 15 4 3 5 16 5 4 8 17 5 5 21 18 8 6 13 19 3 7 6 20 4 8 6 21 4 9 1 23 2 10 5 24 2 11 3 25 1 12 4 30 1 13 5 Total Global 124 Fonte: Dados fictícios 5 A tabela de frequências para uma variável quantitativa discreta é também chamada de distribuição de frequências para dados não-agrupados em classes. 30 Notas de Aula – MAT020 Estatística IA UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. PrudenteMarço de 2014 No exemplo (b), as informações existentes na tabela resultaram de um processo de contagem dos anos relativos aos tempos de existência das empresas. Assim, trata-se de uma variável quantitativa discreta. Ou seja, se a variável “idade” (medida em anos completos) for representada pela letra X, temos que os valores que X pode assumir são representados pelo conjunto RX = {0, 1, 2, 3, ... } e RX é um conjunto infinito enumerável. De um modo geral, uma variável quantitativa discreta, representada por X, assume valores da sucessão ordenada ,...x,...,x,x,x i 321 , isto é, X = { ,...x,...,x,x,x i 321 }. Em um rol, um valor possível da variável X pode ocorrer uma ou mais vezes. O valor que representa o número de vezes que ocorreu um valor ix qualquer (i = 1, 2, ..., i,...) do rol é chamado frequência absoluta - in (i = 1, 2, ..., i,...). Logo, ∑ = =++++= n i ii nnnnn 1 21 ...... , onde n representa o número total de observações do conjunto X. O valor n é denominado de frequência total. Tabelas de frequências para variáveis quantitativas contínuas Muitas vezes há necessidade de organizarmos os dados originais em uma tabela onde os valores observados aparecem agrupados em classes de valores. Quando a variável objeto de estudo for contínua, será sempre conveniente agrupar os valores observados em classes. A determinação do tamanho e da quantidade de classes deve observar as seguintes normas: a) As classes devem abranger todas as observações; b) Cada observação deve enquadrar-se em apenas uma classe; c) Para variáveis contínuas, o limite superior de uma classe é o limite inferior da classe subsequente. Em geral, na definição das classes, o limite inferior é incluído e o superior excluído. Como exemplo, suponha que se deseja criar um intervalo de valores que inicia com 7 e inclui todos os valores menores que 15: 7 | 15. O símbolo | significa “inclui o limite inferior do intervalo e exclui o limite superior”. Podemos, ainda, escrever os intervalos de classe de outras formas. Temos: 7 | 15: exclui o limite inferior e inclui o limite superior do intervalo de classe; Capítulo II Estatística Descritiva: Apresentação dos Dados 31 UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 7 15 ou 7 || 15: inclui ambos os limites do intervalo de classe. d) A quantidade de classes, de um modo geral, não deve ser inferior a 5 ou superior a 25. e) Quando não houver inconveniente sério, a amplitude dos intervalos de classe deve ser constante. A amplitude do intervalo de classe é o comprimento da classe. Para determinarmos a amplitude basta calcularmos a diferença entre dois limites inferiores (ou limites superiores) consecutivos. Exemplo: O rol a seguir corresponde ao faturamento no ano 2, em mil unidades monetárias, declaradas pelas empresas da Região XWZ. Definir os intervalos de classe da distribuição. Rol: variável “faturamento no ano 2” 45 65 66 69 77 88 89 98 104 122 123 129 145 150 154 154 156 156 167 171 174 176 183 185 192 202 205 212 217 230 233 233 236 245 248 250 253 254 261 265 268 276 282 292 299 310 310 314 333 334 335 345 351 354 355 361 365 367 369 370 372 375 381 381 386 389 391 402 402 405 410 415 423 426 432 432 432 450 455 455 456 463 465 473 475 483 483 487 487 489 490 495 500 502 503 505 510 510 525 530 534 543 545 567 570 585 610 620 623 630 634 670 682 695 702 723 730 734 750 810 835 875 1243 1345 Resolução: Para o conjunto de 124 faturamentos declarados, temos 45 mil como valor mínimo e 1.345 mil unidades monetárias como valor máximo. Usaremos como limite inferior da distribuição o valor 40 mil e como limite superior 1.350 mil. A diferença entre 1.350 e 40 é de 1.310 mil, que é divisível por 5. Tomaremos um total de 5 classes com 262 mil unidades monetárias de amplitude cada. Utilizando a convenção de incluir o limite inferior da classe e excluir o superior, obtemos os seguintes intervalos de classe: 40 | 302; 302 | 564; 564 | 826; 826 | 1.088; 1.088 | 1.350. 32 Notas de Aula – MAT020 Estatística IA UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 Exemplo: Construir a tabela da Distribuição de Frequências do faturamento no ano 2 para as empresas da região XWZ. Distribuição de frequências do faturamento das empresas industriais - Região XWZ, Ano 2 Classes de faturamento (em mil unidades monetárias) Número de empresas 40 | 302 45 302 | 564 58 564 | 826 17 826 | 1.088 2 1.088 | 1.350 2 Total 124 Fonte: Dados fictícios. Exemplo: Construir a mesma tabela com 10 classes. Distribuição de frequências do faturamento das empresas industriais - Região XWZ, Ano 2 Classes de faturamento (em mil unidades monetárias) Número de empresas (freq. Absoluta) 40 | 171 19 171 | 302 26 302 | 433 32 433 | 564 26 564 | 695 10 695 | 826 7 826 | 957 2 957 | 1.088 ---- 1.088 | 1.219 ---- 1.219 | 1.350 2 Total 124 Fonte: Dados fictícios. Pergunta: Qual das duas distribuições construídas é mais indicada para a análise dessa variável? Resposta: _________________________________________________________________________ _________________________________________________________________________ __________________________________________________________________ Capítulo II Estatística Descritiva: Apresentação dos Dados 33 UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 Observações sobre a construção dos intervalos de classe: i) Nem sempre é possível trabalharmos com intervalos de classe de amplitude constante. Exemplos: - Distribuição de rendimentos. Se utilizamos intervalos de amplitude constante obteríamos um número tão extenso de classes que tornaria impraticável a análise do fenômeno. - Distribuição de Frequências quando algumas classes têm frequência igual a zero. Nestes casos recomendamos montar a distribuição de frequências com intervalos de classes diferentes. (Ver exemplo adiante) ii) Para intervalos de classe constantes, alguns autores sugerem a Regra de Sturges para determinação do número de classes da distribuição de frequências: k = 1 + 3,3.log n onde k = número de classes e n = número total de observações (frequência total). Exemplo: Defina os limites dos intervalos de classes utilizando a Regra de Sturges para a variável faturamento no ano 2. n = 124 ⇒ log n = 2,0934; k = 1 + (3,3x2,0934) = 1 + 6,90822 = 7,90822 ⇒ 8 classes Amplitude total da distribuição: 1345 – 45 = 1300 Amplitude dos intervalos de classe: 1300 ÷ 8 = 162,5 mil unidades monetárias Limites: 45 | 207,5; 207,5 | 370; 370 | 532,5; 532,5 | 695; 695 | 857,5; 857,5 | 1020; 1020 | 1182,5; 1182,5 | 1345. iii) Devemos evitar que a primeira e a última classes da distribuição sejam classes abertas, ou seja, sem a definição de um de seus limites, pois sem algum dos limites não é possível avançar no trabalho estatísticodescritivo. iv) Se estivermos trabalhando com uma variável quantitativa discreta e o número de resultados possíveis para a variável for muito grande, recomenda-se o agrupamento dos dados em classes de valores. Exemplo: Construir uma distribuição de frequências por classes para a variável “tempo de existência” das empresas. 34 Notas de Aula – MAT020 Estatística IA UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 Tempo de existência das empresas industriais Região XWZ, Ano 2 (Em anos) Tempo de existência Número de empresas 0 —| 5 38 5 —| 10 31 10 —| 15 20 15 —| 20 25 20 —| 25 9 25 —| 30 1 Total 124 Fonte: Dados fictícios 2.4.3. Ponto médio ou ponto central da classe Quando construímos uma distribuição de frequências por classes ocorre uma simplificação da realidade, pois estamos perdendo informação com relação aos verdadeiros valores observados dentro de cada classe. E, ainda, esse processo de classificação dos dados não permite um tratamento estatístico adequado para a descrição dos dados. Para contornarmos o problema, adotamos a hipótese de que todos os valores de uma classe são iguais ao valor que se encontra no centro da classe. A este valor, que será representativo da classe, damos o nome de ponto médio ou ponto central da classe. No caso da variável contínua o ponto médio da classe, que representaremos por mi, é definido por: khlm iii ,...,2,1i ;2 1 =+= onde mi = ponto médio da classe i; li = limite inferior da classe i; hi = amplitude do intervalo da classe i; k = número de classes da distribuição de frequências. 2.4.4. Tipos de frequências Relativa Absoluta de" Acima" Relativa Absoluta de" Abaixo" Acumulada Relativa Absoluta Simples sFrequência Capítulo II Estatística Descritiva: Apresentação dos Dados 35 UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 Frequências simples As frequências simples podem ser do tipo "absoluta" ou "relativa". A frequência simples absoluta já foi definida anteriormente e, em geral, a chamamos apenas por frequência absoluta. Podemos também exprimir o fenômeno observado na forma de frequência simples relativa, ou apenas frequência relativa, que representa a proporção de vezes que ocorreu o fenômeno em relação ao número total de observações. Designando, genericamente, a frequência relativa por f i , temos: n nf ii = , para todo i, e temos que f i i ∑ = 1. A frequência relativa pode também ser apresentada na forma de percentagem, bastando para tanto multiplicá-la por 100 - frequência simples relativa percentual. Observação: As frequências relativas e relativas percentuais são úteis quando necessitamos comparar dois conjuntos de dados com as frequências totais diferentes. Frequências acumuladas Notação: Ni = frequência acumulada absoluta Fi = frequência acumulada relativa A frequência acumulada, absoluta ou relativa, crescente ou “abaixo de” corresponde à soma das frequências simples (absolutas ou relativas) até o valor (ou até a classe) de interesse. A expressão "abaixo de" refere-se ao fato de que as frequências a serem acumuladas correspondem aos valores menores ou anteriores ao valor (ou à classe) cuja frequência acumulada se deseja obter, ou seja, as observações existentes até um determinado valor individual (ou até uma determinada classe de valores). As frequências acumuladas decrescente ou “acima de” correspondem as soma das frequências a partir de um determinado valor individual (ou uma particular classe de valores). Exemplo: Calcular as frequências simples e acumuladas referentes à distribuição da variável “tempo de existência das empresas industriais” na Região XWZ no Ano 2. 36 Notas de Aula – MAT020 Estatística IA UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 Resolução: Tempo de existência (em anos completos) Frequência simples Frequência acumulada Número de empresas (ni) Percentual de empresas (fi) Absoluta (Ni) Relativa % (Fi) 0 —| 5 38 30,6 38 30,6 5 —| 10 31 25,0 69 55,6 10 —| 15 20 16,1 89 71,8 15 —| 20 25 20,2 114 91,9 20 —| 25 9 7,3 123 99,2 25 —| 30 1 0,8 124 100,0 Total 124 100,0 ---- ---- 2.4.5. Representação gráfica de uma distribuição de frequências Os gráficos utilizados para a representação das distribuições de frequências são gráficos tipicamente de análise e estão apresentados a seguir. Histograma Faturamento (em mil unidades monetárias) 1284,51153,51022,5891,5760,5629,5498,5367,5236,5105,5 Faturamento das empresas industriais Região XWZ, Ano 2 Fonte: Dados f ic tícios Nú m e ro de e m pr es as 40 30 20 10 0 Na construção deste histograma foram utilizados intervalos de classes iguais e representamos no eixo vertical o número de observações de cada classe (frequência absoluta) e no eixo horizontal o ponto médio das classes. Construção do histograma Rigorosamente, o histograma é formado por uma sucessão de retângulos adjacentes, onde cada retângulo tem por base o intervalo de classe e sua altura corresponde à densidade de frequência (absoluta ou relativa) da classe. A densidade de frequência é calculada pela divisão da frequência (absoluta ou relativa) pela amplitude do Capítulo II Estatística Descritiva: Apresentação dos Dados 37 UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes e Andrea A. Prudente Março de 2014 intervalo da classe. Assim, a área de cada retângulo no gráfico histograma corresponde à frequência da respectiva classe. Exemplo: Elaborar o histograma da distribuição de frequências do faturamento das empresas industriais da Região XWZ no Ano 2. Utilize a distribuição de frequência com 10 classes. Resolução: Cálculo das densidades das frequências absolutas: Classes de faturamento (em mil unidades monetárias) Número de empresas (ni) Amplitude do intevalo (hi) Densidade (ni ÷ hi) 40 | 171 19 131 0,145 171 | 302 26 131 0,198 302 | 433 32 131 0,244 433 | 564 26 131 0,198 564 | 695 10 131 0,076 695 | 826 7 131 0,053 826 | 957 2 131 0,015 957 | 1.088 ---- 131 ---- 1.088 | 1.219 ---- 131 ---- 1.219 | 1.350 2 131 0,015 Total 124 ---- ----- Exercício: Desenhe na área quadriculada na página a seguir o histograma relativo às densidades de frequências calculadas no exemplo anterior: Exercício: Compare o histograma elaborado com as densidades de frequência do exercício anterior com o apresentado na página 35 desta Notas de Aula, que foi elaborado com as frequências absolutas. Pergunta:
Compartilhar