Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 ECO 1721 - Introdução à Estatística Econômica 4-Estatística Descritiva Resumo Teórico Professor: Juarez Figueiredo 4.1 Introdução A Estatística é uma ciência que possui extraordinária importância na pesquisa científica, na coleta e análise de dados e no planejamento de experimentos. Ela investiga de que forma a informação deve ser utilizada para possibilitar a tomada de decisões e aumentar o conhecimento em problemas envolvendo a incerteza. Para o economista, a Estatística proporciona instrumentos analíticos e empíricos a serem utilizados na pesquisa econômica e servirem de base ao estudo da Econometria. Os fundamentos da Estatística estão alicerçados no Cálculo de Probabilidades e sua teoria se consolida na Inferência Estatística. 4.1.1 Estatística e Cálculo de Probabilidades A ciência Estatística é usualmente dividida em dois campos: (i) A Estatística Descritiva. (ii) A Estatística Indutiva ou Inferência Estatística. Para alcançar uma compreensão geral da ciência Estatística, convém introduzir, embora de modo superficial (neste momento), dois importantes conceitos: o de população e o de amostra. Nos estudos estatísticos em geral a atenção do estudo é direcionada para um conjunto que é o objeto de estudo. Tal conjunto é denominado população. Na maioria das aplicações práticas, por várias razões, principalmente devido a limitações de tempo e de recursos financeiros, não se realiza um exame exaustivo de todos os elementos da popu- lação (esse exame exaustivo, quando realizado, chama-se censo) mas sim apenas de um subconjunto dessa população, denominado amostra. Pode-se demonstrar que para conse- guir extrair informações válidas da amostra e concluir algo sobre aspectos relevantes da população essa amostra deve ser selecionada de acordo com certas regras probabilísticas. 2 Ou seja, a amostra deve ser probabilística. Quando se dispõe de uma amostra probabilís- tica, é possível alcançar conclusões sobre a população – processo que é denominado in- dução ou inferência – quantificando-se o grau de certeza com que tais conclusões são vá- lidas. A Inferência Estatística está alicerçada no Cálculo de Probabilidades. Agora é possível compreender a divisão da Estatística apresentada anteriormente: (i) A Estatística Descritiva fornece métodos para descrever a amostra; e (ii) A Inferência Estatística fornece métodos que permitem a partir das informações con- tidas na amostra poder-se efetuar inferências sobre a população. Portanto, em resumo tem-se: a) Cálculo de Probabilidades O Cálculo de Probabilidades é o ramo da Matemática que tem por objeto a formulação de modelos probabilísticos para os fenômenos aleatórios. b) Estatística Descritiva A Estatística Descritiva é o campo da Estatística voltado para a organização, resumo e descrição dos dados estatísticos observados. Como tal, seu alcance é limitado, pois res- tringe-se ao particular conjunto de dados observados – uma amostra da população. c) Inferência Estatística A Inferência Estatística é o campo da Estatística voltado para a análise e interpretação dos dados estatísticos. Nesse sentido, com base no Cálculo de Probabilidades, tem como propósito o desenvolvimento de métodos estatísticos que permitem, a partir dos dados amostrais, fazer induções sobre a população que é objeto de estudo, quantificando o grau de certeza dessas induções. 4.2 Estatística Descritiva 4.2.1 Conceitos Preliminares Características e Variáveis 3 Nos estudos estatísticos a atenção está voltada para uma ou algumas características dos elementos que compõem a população que apresentam interesse para os propósitos do es- tudo. A cada característica corresponde uma variável. Quanto a sua natureza, tal variável pode ser classificada como qualitativa (ou categórica) ou quantitativa. As variáveis são denotadas em geral por letras maiúsculas do alfabeto (como, X, Y, T, etc). Dados Estatísticos – Valores das Variáveis Os dados estatísticos correspondem a registros sistemáticos das variáveis observadas na realização de um fenômeno aleatório. Nesse sentido, a conceituação é bastante ampla e compreende todos os casos: (i) experimentos aleatórios simples; (ii) experimentos aleatórios planejados; (iii) processos aleatórios (ou estocásticos). O conjunto formado pelos valores observados das variáveis de interesse é denominado, genericamente, conjunto de dados estatísticos. Tais valores são denotados por letras mi- núsculas correspondentes àquelas utilizadas para denotar as variáveis de interesse (ex. x, y, t, etc). Um conjunto com n observações da variável X é denotado por 1 2 3 nx x x x, , ,..., enquanto um conjunto com n observações do par de variáveis X e Y é denotado por 1 1 2 2 n nx y x y x y, , , ,..., , . Estrutura dos Dados Estatísticos Assim, os dados estatísticos correspondem a uma grande variedade de tipos, cada qual com suas características particulares. Entre os principais tipos que são de interesse para a Economia tem-se: (i) dados de corte transversal ou dados seccionais (cross-section) – são aqueles que cor- respondem a observações de uma ou mais variáveis em um instante do tempo; (ii) dados de série temporal – são dados relativos a uma ou mais variáveis observadoa(s) ao longo do tempo e que possuem uma estrutura de interrelações entre si; (iii) dados de painel (ou dados longitudinais) – são aqueles que consistem em uma série temporal para cada objeto componente da amostra que é acompanhada ao longo do tem- po. 4.2.2 Processos Descritivos Processos Descritivos 1 – Classificação, Tabulação e Gráficos Os processos descritivos mais simples consistem na organização dos dados e compreen- dem essencialmente a ordenação e a classificação dos mesmos. A ordenação se aplica somente aos dados de natureza numérica e é, simplesmente, a disposição dos mesmos em 4 ordem crescente ou decrescente de valor. Já a classificação consiste no processo de agru- pamento desses dados em classes, definidas estas por algum critério. Este é o processo mais empregado. A classificação pressupõe o estabelecimento de um sistema de classes que sejam mutua- mente excludentes – no sentido de que cada dado pertença a uma única classe – e exaus- tivas – no sentido de que todos os dados devem ser enquadrados em uma das classes. Uma vez estabelecida a classificação, realiza-se o enquadramento de cada dado em uma (única) das classes e, ao final, faz-se a contagem de quantos valores foram enquadrados em cada uma das classes, obtendo-se como resultado dessa contagem a frequência abso- luta da classe. Pode-se ainda, posteriormente, dividir a frequência absoluta de cada classe pelo número de dados observados, n, para obter-se a frequência relativa da classe. As ta- belas assim obtidas são denominadas, genericamente, distribuições de frequências. Tabelas e Gráficos das Distribuições de Frequências A vantagem da classificação é permitir uma apresentação geral resumida da informação contida no conjunto de dados. Desse modo, a classificação pode ser expressa por meio de uma tabela à qual corresponde, em geral, um gráfico. Em decorrência do critério utilizado na classificação, as classes podem ser definidas por meio de um único valor da variável ou por um conjunto de valores da variável, assim resultando dois tipos de classes, deno- minadas, respectivamente: (i) classes pontuais; e (ii) classes intervalares. Como resultado da classificação, os dados podem ser resumidos em uma tabela, cujo formato geral é apresentado a seguir. Classes Frequências C1 1n C2 2n C3 3n . . . . .. Ck kn Total n Onde Ci denota a i-ésima classe e in denota a frequência absoluta da i-ésima classe, se optar-se pela indicação das frequências absolutas das classes. A soma das frequência ab- solutas de todas as classes é a frequência absoluta total, valendo n. Ou, alternativamente, 5 Classes Frequências C1 1f C2 2f C3 3f . . . . . . Ck kf Total 1 Onde iC denota a i-ésima classe e i i n f = n denota a frequência relativa da i-ésima classe, se optar-se pela indicação das frequências relativas. A soma das frequência relativas de todas as classes é igual a 1. Em qualquer dos dois casos pode-se associar à tabela um gráfico. Classificação Pontual – Tabela e Gráficos Quando os dados são numéricos, cada classe pontual é definida por um valor único da va- riável de interesse. Nesse caso, pode-se representar a classe iC por ixˆ que indica o valor da variável X empregado para definir a classe. Nesse tipo de classificação, o gráfico correspondente é do tipo gráfico de barras. Classificação Intervalar – Tabela e Gráficos Quando os dados são numéricos, cada classe intervalar é definida por um intervalo de va- lores da variável de interesse. Nesse caso, pode-se representar a classe iC por i il | L que indica o intervalo de valores da variável X empregado para definir a classe, sendo o limi- te inferior do intervalo denotado por il e o seu limite superior por iL . Além disso, para evitar ambiguidade no critério de classificação é usual incluir-se um dos extremos e ex- cluir o outro, sistematicamente, para todas as classes. Na representação empregada, a bar- ra vertical próxima do extremo inferior, il , indica que tal valor foi incluído na classe. Desse modo, na classificação intervalar, a notação i il | L representa o intervalo que em linguagem matemática usual é indicado por i il ,L . 6 Nesse tipo de classificação, o gráfico correspondente é denominado histograma. Com relação às distribuições de frequências, é importante ressaltar que: (i) uma distribuição de frequências relativas corresponde a uma espécie de “retrato expe- rimental” da distribuição de probabilidade (desconhecida) da variável (aleatória) obser- vada; (ii) devido à propriedade denominada regularidade estatística, quando o número de ob- servações da variável, n, cresce e se torna “suficientemente grande”, pode-se considerar que os valores das frequências relativas de cada classe são valores próximos das probabi- lidades correspondentes, o que permite alcançar uma boa compreensão da distribuição de probabilidade da variável estudada. Processos Descritivos 2 – Apuração das Principais Características Numéricas Quando o conjunto de dados é reduzido, isto é se n for pequeno, em geral não compensa elaborar a sua classificação nem a sua distribuição de frequências. Mesmo assim torna-se útil empregar medidas descritivas para avaliar aspectos particulares do comportamento observado da variável analisada. Serão aqui abordadas apenas a média, a variância e o desvio padrão dos conjuntos de dados numéricos. Média Aritmética, Variância e Desvio Padrão de Dados Desagrupados Seja 1 2 3 nx x x x, , ,..., o conjunto de dados correspondente a n observações da variável X. Média Aritmética A média aritmética do conjunto de dados é definida por n i i 1 1 x x n Variância e Desvio Padrão A variância do conjunto de dados é definida por n 22 i i 1 1 s x x n e pode ser calculada também pela expressão n 2 2 2 i i 1 1 s x x n e o seu desvio padrão por n 22 i i 1 1 s s x x n ou por n 2 2 i i 1 1 s x x n 7 Média Aritmética, Variância e Desvio Padrão de Distribuições de Frequências No caso de distribuições de frequências relativas a variáveis quantitativas, é também pos- sível, com base nas tabelas, a apuração das principais características numéricas das distri- buições. Para a realização dos cálculos torna-se necessário adotar um valor que represente cada classe. Há dois casos a considerar: (i) distribuições pontuais; e (ii) distribuições in- tervalares. Distribuições Pontuais Para essas distribuições, o cálculo é exato, o valor que representa cada classe é o próprio valor empregado para definir a classe, ixˆ , e pode-se empregar as frequências das classes para reduzir o volume de cálculo. Nesse caso tem-se: Média Aritmética A média aritmética da distribuição é calculada por k i i i 1 1 ˆx n x n ou k i i i 1 ˆx f x onde k é o número de classes. Variância e Desvio Padrão A variância da distribuição é calculada por k 22 i i i 1 1 ˆs n x x n ou ainda pela expressão k 2 2 2 i i i 1 1 ˆs n x x n e o seu desvio padrão por k 22 i i i 1 1 ˆs s n x x n ou por k 2 2 i i i 1 1 ˆs n x x n Distribuições Intervalares Para essas distribuições, o cálculo não é exato mas sim aproximado. O valor que repre- senta cada classe é o ponto médio do intervalo que define a classe, isto é a média aritmé- tica dos seus extremos, i i i l L xˆ 2 ; pode-se também empregar as frequências das classes para reduzir o volume de cálculo. As expressões de cálculo são as mesmas do caso ante- rior: Média Aritmética A média aritmética da distribuição é calculada por k i i i 1 1 ˆx n x n ou k i i i 1 ˆx f x onde k é o número de classes. 8 Variância e Desvio Padrão A variância da distribuição é calculada por k 22 i i i 1 1 ˆs n x x n ou ainda pela expressão k 2 2 2 i i i 1 1 ˆs n x x n e o seu desvio padrão por k 22 i i i 1 1 ˆs s n x x n ou por k 2 2 i i i 1 1 ˆs n x x n Finalmente, com relação à apuração numérica das principais características descritivas, convém ressaltar o seguinte: (i) a média aritmética do conjunto de dados observados (média da amostra) fornece, em geral, um valor aproximado para a média (expectância ou valor esperado) da variável (aleatória) analisada. (ii) a variância do conjunto de dados observados (variância da amostra) fornece, em geral, um valor aproximado para a variância da variável (aleatória) analisada. Essas aproximações são, geralmente, tão melhores quanto maior for o número de dados observados (tamanho da amostra). Concluindo, em resumo, os métodos descritivos, a despeito de sua limitação, podem ser um instrumento valioso para alcançar conclusões mais amplas, que extrapolam a amostra observada, particularmente quando o tamanho da amostra cresce.
Compartilhar