2014.1 - Apostila completa de Análise Exploratória de Dados.

•
UFC

Lidia Feitosa
28.07.2014
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 55 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 55 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 55 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Análise Exploratória de Dados

468 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
Análise Exploratória de Dados (CC0269) 
 
Professor: Paulo Rogério Faustino Matos 
Monitor: A ser definido 
Contatos: paulomatos@caen.ufc.br 
Período: 2014 – I 
Carga horária/ Créditos: 64 horas/ 4 créditos 
Horário da Disciplina: 3a e 5a (20:30 – 22:10) 
Horário de atendimento do monitor: A ser definido (Local: NCF/CAEN) 
Pré-requisitos: - x - 
 
 
 
 
 
Análise Exploratória de Dados Prof. Dr. Paulo Matos 
 
 
2 
Programa da disciplina 
 
I – OBJETIVO 
 Com a atual disponibilidade dos recursos computacionais e a partir do aprofundamento do estudo 
das ciências matemática e estatística, inúmeros são os avanços evidenciados na análise de dados e 
modelagem de fenômenos, sejam estes de natureza comportamental, na área de saúde, econômica ou 
atuarial, diferenciando estas ciências das demais, ao permitir que se testem empiricamente arcabouços 
e modelos, por exemplo. 
 Em suma, em um estudo empírico o pesquisador se depara com o usual problema de analisar e 
entender um determinado conjunto de dados relevante ao seu objetivo particular. Assim, o primeiro 
passo em estudos aplicados consiste em sujar as mãos com os dados, visando transformá-los em 
informações, de forma que possam fundamentar comparações e conclusões. 
 Os objetivos serão: (i) propiciar ao aluno não somente um maior contato com métodos quantitativos 
per si, mas sim familiarizá-lo com as técnicas, fazendo-o reconhecer sua relevância e aplicação quando 
da solução de modelos econômicos e (ii) conjugar conhecimentos acadêmicos e profissionais através 
de uma exposição clara, didática e objetiva, abordando conceitos teóricos que norteiam a análise e o 
raciocínio analítico, como também propondo casos e exercícios, dos mais simples e usuais aos mais 
complexos e específicos. 
 
II – EMENTA 
Introdução; Análise dos dados; Métricas estatísticas; Análise bidimensional. 
 
III – CONTEÚDO PROGRAMÁTICO 
#1. Introdução 
 Estatística descritiva e inferencial 
 População e amostra 
 Variáveis qualitativas e quantitativas 
#2. Análise dos dados (B&M: 2 e FBS&C: 2) 
 Tipos de variáveis 
 Representação gráfica 
 Representação tabular 
#3. Métricas estatísticas (B&M: 3 e FBS&C: 3) 
 Medidas de posição 
 Medidas de dispersão 
 
 
Análise Exploratória de Dados Prof. Dr. Paulo Matos 
 
 
3 
 Quantis 
 Assimetria e curtose 
 Box plot 
#4. Análise bidimensional (B&M: 4) 
 Variáveis qualitativas 
 Variáveis quantitativas 
 
IV – REFERÊNCIAS BIBLIOGRÁFIAS 
Bibliografia Básica: 
[B&M] Bussab, Wilson e Morettin, Pedro, “Estatística básica”. Ed. Saraiva, 6ª edição, 2010 
[FBS&C] Fávero, L. Belfiore, P., Silva, F. e Chan, B., “Análise de dados”. Ed. Campus, 1ª ed, 2009 
 
 
 
V – METODOLOGIA 
 Aulas presenciais teóricas 
 Apresentação de estudos de caso 
 Resolução de exercícios 
 Utilização de softwares (Excel) 
 
VI – AVALIAÇÃO 
A nota final será determinada pela média ponderada das seguintes notas parciais: 
 80% referentes a avaliações individuais 
 20% referentes ao trabalho em equipe 
 
VII – CURRICULUM RESUMIDO DO PROFESSOR 
Paulo Rogério Faustino Matos é Doutor em Economia pela Fundação Getulio Vargas (EPGE/FGV-RJ, 2003 
- 2006), onde foi bolsista Nota 10 da FAPERJ – destinada ao primeiro lugar do curso – e Engenheiro Civil 
pela Universidade Federal do Ceará (UFC, 1997 - 2002). Atualmente é Professor Adjunto III nos programas 
de Graduação em Ciências Atuariais da UFC e de Pós-Graduação em Economia da UFC (CAEN/UFC). Em 
termos de pesquisa, é pesquisador do CNPq, compõe o grupo de pesquisadores do Laboratório de Estudo da 
Pobreza (LEP/CAEN), coordena o Núcleo de Conjuntura Econômico-Financeira (NCF/CAEN) e é 
parecerista de algumas das principais revistas em finanças e economia do país, membro da Sociedade 
Brasileira de Finanças (SBFin). Suas áreas de pesquisa são: i) Finanças Internacionais; ii) Apreçamento de 
Ativos e iii) Sistema Financeiro e Desenvolvimento. Endereço para CV lattes: 
http://lattes.cnpq.br/0288522400109962 
 
 
Análise Exploratória de Dados Prof. Dr. Paulo Matos 
 
 
4 
Sumário 
 
1. Introdução ............................................................................................................................................................................ 5 
 
2. Análise dos dados ..................................................................................................................................................... 10 
 
3. Métricas estatísticas ............................................................................................................................................... 25 
 
4. Análise bidimensional ....................................................................................................................................... 52 
 
 
 
 
Análise Exploratória de Dados Prof. Dr. Paulo Matos 
 
 
5 
1. Introdução 
1.1. Contexto histórico 
Desde a antigüidade, as civilizações já demonstravam preocupação em registrar o número de 
habitantes, de nascimento, de óbitos e até faziam estimativas das riquezas individual ou social. Uma aplicação 
bastante comum era a cobrança de impostos por parte do estado, o que possivelmente motivou o uso da 
ciência estatística, cuja origem vem de status, que significa em latim Estado. Com essa palavra faziam-se as 
descrições e dados relativos aos Estados, tornando a Estatística um meio de administração para os 
governantes. 
Mais recentemente se passou a falar em estatística em várias ciências de todas as áreas do 
conhecimento humano, onde pode definir a Estatística como “um conjunto de métodos e processos 
quantitativos que servem para estudar e medir os fenômenos coletivos”. Ao se estudar os fenômenos coletivos, 
o que interessa são os fatos que envolvem os elementos desses fenômenos, como eles se relacionam e qual o 
seu comportamento. 
 
1.2. Áreas da estatística 
A estatística consiste em uma espécie de matemática aplicada, podendo ser vista como um conjunto 
de técnicas utilizadas para planejar experimentos, obter dados e organizá-los, resumi-los, analisá-los, interpretá-
los e deles extrair conclusões. Esta ciência tal e qual a estudamos hoje em dia, faz uso do sistema numérico 
hindu-arábico, o qual foi introduzido nas sociedades que habitam o ocidente há cerca de oito séculos. 
Em uma sequência tradicional, o estudo da estatística tem seu início caracterizado pela análise 
exploratória dos dados, ou seja, análise através de gráficos, tabelas ou métricas estatísticas descritivas a partir 
das informações coletadas junto às entidades portadoras de características comuns úteis na compreensão do 
comportamento de interesse. 
Após esta etapa, já de conhecimento dos elementos de probabilidade incondicional e condicional, 
faz-se uso de relações matemáticas funcionais paramétricas de forma que se possa modelar a probabilidade de 
se observar determinadas realizações em variáveis aleatórias isoladamente ou conjuntamente. 
Assim, somente a partir de uma amostra coletada, o fenômeno poderá ser estudado estatisticamente, 
sendo para tal, necessário descobrir qual distribuição que possui o melhor fitting e uma vez descrita esta 
distribuição,fazer uso de técnicas de estimação para que se obtenha valores para os parâmetros da distribuição 
ou de outras características de interessa desta população. Como estimar tais valores dos parâmetros 
populacionais a partir de amostras e analisar as propriedades destes parâmetros são etapas do estudo de 
inferência estatística. 
Por fim, é possível que um pesquisador se dedique mais especificamente às inúmeras técnicas de 
estimação dos parâmetros, as quais compõem a análise multivariada, onde se estuda análise de regressão, 
análise discriminante, correlação canônica, componentes principais, dentre outras ferramentas. Uma vez 
modelado corretamente o fenômeno e usada a técnica de estimação adequada, além de se entender sobre os 
parâmetros populacionais, pode-se ainda realizar exercícios de previsão, de forma que tentemos antever 
resultados prováveis. Em suma, em um estudo científico rigoroso o qual envolva estatística, é estritamente 
necessário que se observe com detalhes os dados antes de levantar suposições estatísticas e testes de hipóteses. 
Mas o uso indiscriminado de pacotes estatísticos computacionais, sem o exame cuidadoso dos dados 
profissionais da área, conduz, às vezes, a resultados aberrantes. 
1.3. Amostra e população 
 
 
Análise Exploratória de Dados Prof. Dr. Paulo Matos 
 
 
6 
Como veremos em detalhes na subseção a seguir, iremos trabalhar com dados numéricos ou não, os 
quais precisam ser coletados. A vertente da ciência que lida com a extração de dados consiste na teoria da 
amostragem, cujo estudo se dá durante o curso de inferência estatística. 
Mesmo antes de um estudo detalhado sobre esta teoria de amostragem, os conceitos de população a 
mostra precisam ser abordados. 
Definição 1: (População) População é o conjunto constituído por todos os indivíduos que 
representam pelo menos uma característica comum, cujo comportamento interessa analisar (inferir). Assim 
sendo, o objetivo das generalizações estatísticas está em dizer se algo acerca de diversas características da 
população estudada, com base em fatos conhecidos. 
Definição 2: (Amostra) Amostra pode ser definida como um subconjunto, uma parte selecionada 
da totalidade de observações abrangidas pela população, através da qual se faz inferência sobre as 
características da população. Uma amostra tem que ser representativa, a tomada de uma amostra bem como 
seu manuseio requer cuidados especiais para que os resultados não sejam distorcidos. 
Mas qual a relevância de se estudar uma amostra? Bem, em muitos fenômenos, ou é muito custoso, 
toma muito tempo, destrói a população ou é mesmo impossível se observar todos os elementos que compõem 
a população completa. Nestes casos, se observa um subconjunto, ou seja, uma amostra. Um exemplo 
interessante consiste na coleta de dados sobre a população brasileira. 
Exemplo 1: Em 2010, o IBGE realizou o XII Censo Demográfico, que é o grande retrato em extensão 
e profundidade da população brasileira e das suas características sócio-econômicas e, ao mesmo tempo, na 
base sobre a qual deverá se assentar todo o planejamento público e privado da próxima década. O Censo 
2010 será um retrato de corpo inteiro do país com o perfil da população e as características de seus domicílios. 
A fase preparatória da operação censitária teve início em 2007 e seus trabalhos foram intensificados 
a partir de 2008. A coleta está fixada para começar em 1º de agosto de 2010 e o início da divulgação dos 
resultados em dezembro do mesmo ano. Percorrer por inteiro um país como o Brasil, de dimensões 
continentais, com cerca de 8 milhões de km2 de um território heterogêneo e, muitas vezes, de difícil acesso, 
é uma tarefa que envolve grandes números. Veja, a seguir, as dimensões do Censo 2010. 
- Universo a ser recenseado: todo o Território Nacional 
- Número de municípios: 5.565 municípios 
- Número de domicílios: aproximadamente 58 milhões de domicílios 
- Número de setores censitários: 314.018 setores censitários 
- Pessoal a ser contratado e treinado: cerca de 240 mil pessoas 
- Orçamento previsto: R$ 1,4 bilhão 
A Pesquisa Nacional por Amostra de Domicílios - PNAD investiga anualmente, de forma 
permanente, características gerais da população, de educação, trabalho, rendimento e habitação e outras, com 
periodicidade variável, de acordo com as necessidades de informação para o País, como as características sobre 
migração, fecundidade, nupcialidade, saúde, segurança alimentar, entre outros temas. 
A PNAD 2009 investigou 399.387 pessoas em 153.837 domicílios por todo o país a respeito de 
temas como população, migração, educação, trabalho, família, domicílios e rendimento, tendo setembro 
como mês de referência. 
 
 
1.4. Definições relevantes 
A seguir, apresentaremos as definições mais relevantes da estatística descritiva. 
 
 
Análise Exploratória de Dados Prof. Dr. Paulo Matos 
 
 
7 
Definição 3: (Dados estatísticos) Dados são tido como os elementos mais importantes quando do 
uso da estatística, os dados são os fatos e números coletados, a matéria-prima a ser analisada e sintetizada para 
apresentação e interpretação. 
É importante também que venhamos a trabalhar outras definições básicas, a fim de evitarmos o uso 
incorreto e impreciso da linguagem estatística. 
Definição 4: (Elementos) Elementos são as “entidades” sobre as quais os dados são coletados. 
Definição 5: (Variáveis) Variáveis são as características de interesse para os elementos, podendo ser 
observadas ou medidas 
Definição 6: (Observações) Observações são o conjunto de medidas coletadas para um determinado 
elemento. 
A mensuração de determinado fenômeno ou objeto é um processo por meio do qual os números 
ou símbolos são anexados a uma característica, em função de determinados procedimentos. 
Definição 7: (Variável qualitativa) Variável cujos “valores” não são numericamente mensuráveis, 
sendo expressos por atributos, classes, categorias ou qualidades: sexo, cor da pele, classe social, formação, etc. 
Se tais variáveis possuem uma ordenação natural, indicando intensidades crescentes de realização, são 
classificadas de qualitativas ordinais (por ex: classe social - baixa, média ou alta). Se não for possível estabelecer 
uma ordem natural entre seus valores, são classificadas como qualitativas nominais (por ex: sexo - masculino 
ou feminino). 
Definição 8: (Variável quantitativa) Variável que assume valores numéricos. Tais variáveis podem 
ser classificadas ainda em discretas ou contínuas. Variáveis discretas podem ser vistas como resultantes de 
contagens, e assumem, em geral, valores inteiros, como por exemplo, anos de estudo. Neste caso, é possível 
uma bijeção com um conjunto enumerável não necessariamente finito, como os inteiros. Já as variáveis 
contínuas podem assumir qualquer valor dentro de um intervalo especificado e são, geralmente, resultados 
de uma mensuração. Neste caso, a escala numérica de seus possíveis valores corresponde ao conjunto dos 
números reais, ou seja, podem assumir, teoricamente, qualquer valor entre dois limites, como o peso em kg 
de uma pessoa mensurado por uma balança muito acurada. 
Para exemplificar, observemos a tabela 1.1. a seguir. Nesta tabela, podemos identificar inicialmente 
que há 6 características de interesse, ou variáveis: formação, ter concluído pós-graduação, anos de estudo, 
altura e peso. Os dados (90 ao todo) desta amostra foram obtidos ao coletarmos as medidas ou observações 
para cada um dos elementos, ou seja, cada um dos funcionários. 
Uma primeira curiosidadeque “salta aos olhos” consiste no fato de que há variáveis que assumem 
valores numéricos enquanto outras não, como a altura e a formação, respectivamente. Tal distinção ocorre, 
pois é possível analisarmos, para qualquer amostra, tanto variáveis qualitativas, como quantitativas. 
Outro aspecto a ser destacado nesta tabela é que a mesma nos fornece dados de apenas uma amostra 
dos funcionários e não de todos os funcionários da empresa em questão. Entendendo o termo população 
como o conjunto total de elementos portadores de, pelo menos, uma característica comum, definimos então 
amostra como sendo uma “pequena” parcela representativa da população que é examinada com o propósito 
de tirarmos conclusões sobre a essa população. 
Isso ocorre, pois em qualquer estudo científico enfrentamos o dilema de se analisar a população ou 
uma amostra. Obviamente teríamos uma precisão muito superior se fosse analisado o grupo inteiro, ou seja, 
a população, do que uma pequena parcela representativa, denominada amostra. 
Observa-se que é impraticável na grande maioria dos casos, estudarmos a população em virtude de 
distâncias, custo, tempo, logística, entre outros motivos. 
 
 
 
Análise Exploratória de Dados Prof. Dr. Paulo Matos 
 
 
8 
Tabela 1.1. 
Amostra dos funcionários da Empresa XXX com suas respectivas características 
Funcionário Formação 
Pós-
graduação 
Anos de 
estudo 
Salário 
(R$) 
Altura 
(cm) 
Peso (Kg) 
Antônio Filho Administração Sim 24 5.500,00 156 65,8 
Bernardo Aguiar Contabilidade Não 21 3.650,00 175 80,9 
Carlos Smitch Economista Não 22 3.650,00 202 99,9 
Ciro Alcântara Engenharia Sim 25 35.000,00 180 79,1 
Débora Lima Psicologia Não 20 5.500,00 145 46,1 
Eduardo Rossi Marketing Sim 24 7.800,00 180 85,1 
Flavio Gomes Economista Não 23 2.800,00 165 67,7 
Ingrid Paes Engenharia Não 20 3.650,00 180 76,9 
João Mendonça Jornalista Sim 23 5.120,00 178 75,5 
Marcelo Vilar Direito Não 21 8.930,00 161 60,9 
Mirian Carvalho Comunicação Sim 24 4.500,00 168 65,1 
Noraide Mendes Direito Sim 22 8.930,00 150 54,7 
Orlando Moraes Odontologia Não 22 6.500,00 179 80,8 
Pedro Malta Engenharia Não 21 3.650,00 190 89,9 
Rodrigo Broa Nutrição Não 22 2.800,00 187 78,9 
 
A alternativa praticada nestes casos é o trabalho com uma amostra confiável. Se a amostra é confiável 
e proporciona inferir sobre a população, chamamos de inferência estatística. Neste contexto, mesmo não 
sendo pertencendo ao escopo desta seção, é importante que venhamos a saber que os parâmetros são valores 
singulares que existem na população e que servem para caracterizá-la, sendo necessário examinar toda a 
população, enquanto, estimativa é um valor aproximado do parâmetro, calculado com o uso apenas de uma 
amostra. 
Neste contexto, devemos ainda definir o que seria uma estatística. Ainda com o objetivo de resumir, 
ou descrever o conjunto de dados, usaremos algumas medidas características, usadas para representar, de uma 
forma ou de outra, a própria distribuição do conjunto de dados. Qualquer medida obtida a partir das 
informações dos dados é chamada estatística. 
O objetivo de se calcular estatísticas é resumir as informações obtidas em um único valor, de modo 
que esse valor dê uma característica da amostra, que possa nos levar a ter uma idéia de uma característica da 
população. Exemplos básicos de estatísticas seriam, por exemplo, a soma dos anos de estudo dos funcionários 
pertencentes á amostra, ou mesmo, o valor de peso do aluno mais “magro” desta sala. 
Para que a inferência seja válida, é necessário que haja um bom uso da técnica de amostragem, 
determinando corretamente a população, dimensionando precisamente o tamanho da amostra e primando 
pela aleatoriedade, sendo esta última característica extremamente relevante para que venhamos a garantir, 
tanto quanto possível, o acaso na escolha. 
Um último aspecto a ser analisado é disposição dos dados em questão, se estes se encontram 
identificados pelo caráter variável ao longo do tempo ou se dentre diferentes elementos. 
Para melhor entendermos o primeiro caso, observemos a tabela 1.2. a seguir. 
 
 
Análise Exploratória de Dados Prof. Dr. Paulo Matos 
 
 
9 
 
Tabela 1.2. 
Indicadores financeiros selecionados da Empresa XXX (quadriêncio 2003 – 2006) 
Indicador 2003 2004 2005 2006 
Receita operacional bruta (R$ milhões) 20.895 29.020 35.350 46.746 
Exportações (US$ milhões) 4.229 5.534 7.021 9.656 
Exportações líquidas (US$ milhões) 3.672 4.618 6.339 8,784 
Lucro líquido (R$ milhões) 4.509 6.460 10.443 13.431 
Investimentos (US$ milhões) 1.988 2.092 4.998 26.324 
 
Nela, possuímos valores coletados de várias características, como por exemplo, receita operacional, 
exportações, etc., para apenas um elemento, ou seja, a Empresa XXX. Claramente os valores para cada uma 
dessas características estão sofrendo alteração de uma observação para outra em razão do efeito temporal. 
Estamos diante, portanto de séries temporais de características de uma mesma empresa. 
Para segundo caso, voltemos a observar a tabela 1.1. Nela não há efeito temporal influenciando os 
valores, uma vez que foram todos coletados em um mesmo período. O que faz com que haja diversos valores 
para uma mesma característica, como salário, por exemplo, são os diversos elementos observados, ou seja, os 
diversos funcionários da amostra. Dizemos comumente que estamos diante de dados cross-section, ou em corte 
transversal. Este detalhamento será explorado na seção seguinte. 
Em softwares como o Statistical Package for the Social Sciences (SPSS), ou ainda o Microsoft Access, é 
possível criar rótulos (labels) de variáveis qualitativas, sejam estas nominais ou ordinais, assim como planilhas 
ricas em macros para variáveis quantitativas. 
Com relação à obtenção direta dos dados a partir de questionários, é preciso que este seja estruturado 
tendo em vista o tratamento a ser realizado nos dados, assim como o objetivo final da pesquisa. Em teoria da 
amostragem, assim como nas disciplinas aplicadas, são abordadas práticas úteis na elaboração de 
questionários. 
 
 
 
 
Análise Exploratória de Dados Prof. Dr. Paulo Matos 
 
 
10 
2. Análise de dados 
2.1. Introdução 
A análise exploratória de dados nos fornece um extenso repertório de métodos para um estudo 
detalhado dos dados, antes de adaptá-los, ou mesmo usá-los em inferências ou regressões. Nessa abordagem, 
a finalidade é obter dos dados a maior quantidade possível de informação, que indique modelos plausíveis a 
serem utilizados numa fase posterior, a análise confirmatória de dados ou inferência estatística. 
Em um estudo estatístico, uma vez definido o que se pretende pesquisar, ou seja, especificado 
corretamente o problema, as próximas etapas seriam o planejamento, a qual visa definir as questões 
relacionadas ao levantamento das informações e a coleta de dados, na qual se registra sistematicamente os 
dados observados. 
De posse dos dados, precisamos começar a “tratá-los”, “manipulá-los”, para assim poder apresentá-
los e usá-los em inferências. 
Assim, de uma maneira mais formal, definimos as atividades de coleta, organização, descrição dos 
dados, cálculo e interpretação de coeficientes como compondo a estatística descritiva. 
Iremos nos ater aqui nesta seção à organização e descrição dos dados. Nas seções seguintes, iremos 
lidar com o cálculo e interpretação das estatísticascalculadas. 
 
2.2. Representação tabular e gráfica 
Basicamente, há duas formas de apresentação, que não se excluem mutuamente. A apresentação 
tabular, ou seja é uma apresentação numérica dos dados em linhas e colunas distribuídas de modo ordenado, 
segundo regras práticas fixadas pelo Conselho Nacional de Estatística. 
A apresentação gráfica dos dados numéricos constitui uma apresentação geométrica permitindo uma 
visão rápida e clara do fenômeno. 
É importante conhecer e saber construir os principais tipos de tabelas, gráficos e medidas resumo 
para realizar uma boa análise descritiva dos dados. Vamos tentar entender como os dados se distribuem, onde 
estão centrados, quais observações são mais freqüentes, como é a variabilidade, etc., tendo em vista responder 
às principais questões do estudo. 
Cada ferramenta fornece um tipo de informação e o seu uso depende, em geral, do tipo de variável 
que está sendo investigada. 
A seguir, algumas das abordagens mais usadas e relevantes. 
 
2.2.1. Representação tabular 
Apresentação tabular numérica de dados é a representação das informações por intermédio de uma 
tabela. Uma tabela é uma maneira bastante eficiente de mostrar os dados levantados e que facilita a 
compreensão e interpretação dos dados. Para organizar uma série estatística ou uma distribuição de 
frequências, existem algumas normas nacionais ditadas pela Associação Brasileira de Normas Técnicas 
(ABNT) as quais devem ser respeitadas. Assim, toda tabela estatística de conter: 
a) Elementos essenciais 
· Título – indica a natureza do fato estudado (o quê?), as variáveis escolhidas na análise do fato (como?), 
o local (onde?) e a época (quando?). 
 
 
Análise Exploratória de Dados Prof. Dr. Paulo Matos 
 
 
11 
· Corpo – é o conjunto de linhas e colunas que contém, respectivamente, as séries horizontais e 
verticais de informações. 
· Cabeçalho – designa a natureza do conteúdo de cada coluna. 
· Coluna indicadora – mostra a natureza do conteúdo de cada linha. 
b) Elementos complementares (se necessário) 
· Fonte – é o indicativo, no rodapé da tabela, da entidade responsável pela sua organização ou 
fornecedora dos dados primários. 
· Notas – são colocadas no rodapé da tabela para esclarecimentos de ordem geral. 
c) Sinais convencionais 
· – (hífen), quando o valor numérico é nulo; 
· ... (reticência), quando não se dispõe de dado; 
· ? (ponto de interrogação), quando há dúvidas quanto à exatidão do valor numérico; 
· 0; 0,0; 0,00 (zero), quando o valor numérico é muito pequeno para ser expresso pela unidade 
utilizada, respeitando o número de casas decimais adotado; 
· X (letra x), quando o dado for omitido. 
d) Numerar as tabelas quando houver mais de uma. 
e) As tabelas devem ser fechadas acima e abaixo por linha horizontal, não sendo fechadas à direita 
e à esquerda por linhas verticais. É facultativo o emprego de traços verticais para separação de colunas no 
corpo da tabela. 
f) Os totais e subtotais devem ser destacados. 
g) Manter a uniformidade do número de casas decimais. 
A título de ilustração, observemos as tabelas 2.1. e 2.2. a seguir. 
Como exemplo, observemos este trecho abaixo extraído de Matos, Oquendo e Trompieri (2012). 
 
“Utilizam-se 155 observações de retornos mensais de índices de bolsas de valores dos BRICs entre janeiro/1998 
e novembro/2010 (fontes: CMA e Bloomberg). São eles Índice Bovespa (São Paulo, Brasil), Shanghai Composite (Xangai, 
China), SENSEX-30 (Bombaim, Índia) e o Russian Trading System Index (Moscou, Rússia). 
As características e códigos dos índices são descritas na tabela 2.1., enquanto as principais estatísticas descritivas 
estão na Tabela 2.2.” 
 
Tabela 2.1. 
 
 
 
Análise Exploratória de Dados Prof. Dr. Paulo Matos 
 
 
12 
Tabela 2.2. Estatísticas descritivas dos índices de mercado dos BRIC 
SSE IBOVESPA SENSEX-30 RTS
mean 0.918% 1.672% 1.398% 2.009%
minimum -24.632% -39.554% -23.890% -56.158%
maximum 32.056% 24.046% 31.665% 55.981%
cumulative 136.176% 564.035% 428.384% 302.497%
standard deviation 8.539% 9.226% 8.001% 14.389%
semivariance 5.983% 6.920% 5.785% 10.591%
drawdown 70.968% 51.616% 56.171% 88.961%
asymmetry 0.103 -0.667 -0.064 -0.350
kurtosis 4.417 5.044 3.825 5.427
a Statistics of the monthly returns on the each stock market index in termos of the local investor's currency, during the
period from January 1998 to November 2010. b The data source is CMA Trade.
Statistic/ Stock market index
gain
risk
other 
moments
 
 
O interessante nestas tabelas é que na primeira, há somente dados cadastrais, ou seja, qualitativos 
sobre os índices das bolsas, enquanto na segunda tabela, constam apenas dados numéricos, os quais não 
foram exatamente coletados de alguma fonte, mas sim calculados pelos autores. Trata-se de estatísticas 
descritivas associadas aos 4 momentos da distribuição de probabilidade, objeto de estudo da seção 3. 
 
2.2.2. Representação gráfica 
A seguir, algumas das representações mais usuais de dados através de gráficos. 
Diagrama circular: para construir um diagrama circular ou gráfico de pizza, repartimos um disco em 
setores circulares correspondentes às porcentagens de cada valor (multiplica-se a freqüência relativa por 100). 
Este tipo de gráfico adapta-se muito bem para as variáveis qualitativas nominais. A título de ilustração, 
observemos os diagramas a seguir na figura 2.1. Como exemplo, segue trecho de Matos e Nogueira (2012). 
“O presente trabalho foca-se nos Fundos Multimercados Multiestratégia por poderem adotar mais de uma 
estratégia de investimento, sem o compromisso declarado de se dedicarem a uma em particular, admitindo alavancagem. 
Segundo a ANBIMA (2011), esse seguimento representa 54,5% da indústria Brasileira de Multimercados com mais de 
2.900 fundos e patrimônio total superior a R$ 216 bilhões, conforme observa-se na figura a seguir.” 
 
Figura 2.1: Participação % dos Fundos de Investimento Multimercado por Modalidade 
 
Fonte: ANBIMA (09/2011) 
0,65 1,48 
1,00 
1,48 
11,91 0,40 
54,50 
3,11 
23,53 
1,96 
Balanceados
Capital Protegido
Long And Short - Neutro
Long And Short - Direcional
Multimercados Macro
Multimercados Trading
Multimercados Multiestrategia
Multimercados Multigestor
Multimercados Juros e Moedas
Multimercados Estrategia Especifica
 
 
Análise Exploratória de Dados Prof. Dr. Paulo Matos 
 
 
13 
Gráfico de barras: para construir um gráfico de barras, representamos os valores da variável no eixo 
das abscissas e suas as freqüências ou porcentagens no eixo das ordenadas. Para cada valor da variável 
desenhamos uma barra com altura correspondendo à sua freqüência ou porcentagem. Este tipo de gráfico é 
interessante para as variáveis qualitativas ordinais ou quantitativas discretas, pois permite investigar a presença 
de tendência nos dados. Observe a figura 2.2. a seguir. 
 
Figura 2.2: Relação dívida/PIB 
 
 
Dispersão X vs. Y: Pode ser útil para a análise que se consiga visualizar em um locus gráfico, possíveis 
padrões de relação entre duas variáveis distintas, sendo neste caso aconselhável o uso de um gráfico de 
dispersão nos eixos X e Y. A título de ilustração, observemos os diagramas a seguir na figura 2.3. 
 
 
Análise Exploratória de Dados Prof.Dr. Paulo Matos 
 
 
14 
Como exemplo, observemos este trecho abaixo extraído de Pinto, Matos e Simonassi (2012). 
“Ainda sob esta ótica, Caetano (2006) afirma que países com características demográficas similares às 
brasileiras despendem com previdência como proporção do PIB algo em torno de 4%. O autor ainda ressalta, dentre os 52 
países analisados em sua pesquisa, que o Brasil possui percentual de contribuintes na força de trabalho inferior a mediana 
internacional e valor médio da aposentadoria em relação à renda per capta equivalente a 59,4%, enquanto a medida 
internacional se situa em 48,3%. Tais indicadores demonstram que proporcionalmente o país possui representatividade 
contributiva modesta para níveis elevados de benefícios, revelando um perfil desastroso para a sustentabilidade de qualquer 
sistema previdenciário. 
 
Figura 2.3: Gastos com Previdência Social e proporção da população com 65 anos ou mais 
 
Fonte: Giambiagi et al. (2007, p.181) 
 
Perfazendo a análise de variáveis abordadas no estudo de Giambiagi et al. (2007), seria acertado esperar que 
a proporção de pessoas acima de 65 anos na população do país e o percentual do PIB gasto com benefícios previdenciários 
apresente uma correlação positiva. A Figura 5 traz esta realidade, em que se observa que países com populações mais 
idosas gastam mais com previdência, o que os coloca no quadrante direito superior. Por outro lado, países considerados 
jovens tendem a permanecer no quadrante esquerdo inferior. Já no quadrante direito inferior, apesar da população mais 
velha, situam-se nações que registram gastos modestos, geralmente explicado por questões culturais, sistemas eficientes 
alcançados por reformas prévias ou forte crescimento do PIB. O Brasil é o único país da análise que se encontra deslocado 
de sua realidade demográfica, mas com dispêndios em níveis semelhantes a de países como Holanda e Reino Unido. 
Diante deste cenário, verifica-se que o Brasil é um país fora do padrão internacional, com regras generosas, 
incompatibilidade demográfica, baixo esforço contributivo ao mesmo tempo em que repõe parcelas elevadas da renda. Um 
panorama tão custoso do ponto de vista fiscal exige a adoção mandatória de medidas em esforço mútuo por parte do 
Estado e da sociedade.” 
 
Distribuição de freqüência: quando da análise de dados, é comum procurar conferir certa ordem 
aos números tornando-os visualmente mais amigáveis. O procedimento mais comum é o de divisão por classes 
 
 
Análise Exploratória de Dados Prof. Dr. Paulo Matos 
 
 
15 
ou categorias, verificando-se o número de indivíduos pertencentes a cada classe. Não há um modo único de 
se alocar valores em intervalos, mas sugere-se o seguinte procedimento: 
1. Determina-se o menor, o maior valor para o conjunto e a amplitude (maior – menor); 
2. Definir o limite inferior da primeira classe (Li) que deve ser igual ou ligeiramente inferior ao 
menor valor das observações; 
3. Definir o limite superior da última classe (Ls) que deve ser igual ou ligeiramente superior ao 
maior valor das observações; 
4. Definir o número de classes (K), que será calculado usando 𝑲 = 𝟏 + 𝟑, 𝟑. 𝒍𝒐𝒈(𝒏) ou 𝑲 = √𝒏 
, onde n é a quantidade de observações. K deve estar compreendido entre 5 a 15; 
5. Conhecido o número de classes define-se a amplitude das classes assim: Ac = (Ls – Li)/K. Não é 
necessário que as classes tenham exatamente a mesma amplitude, mas usualmente assume-se isso; 
6. Com o conhecimento da amplitude de cada classe, definem-se os limites para cada classe 
(inferior e superior). 
Comumente, usamos o histograma para representar graficamente uma distribuição de freqüências. 
Este recurso consiste em retângulos contíguos com base nas faixas de valores da variável e com área igual à 
freqüência relativa da respectiva faixa. Desta forma, a altura de cada retângulo é denominada densidade de 
freqüência ou simplesmente densidade definida pelo quociente da área pela amplitude da faixa. Alguns 
autores utilizam a freqüência absoluta ou a porcentagem na construção do histograma, o que pode ocasionar 
distorções (e, conseqüentemente, más interpretações) quando amplitudes diferentes são utilizadas nas faixas. 
Abaixo um histograma ilustrativo contendo a distribuição de freqüência (figura 2.4.). 
 
Figura 2.4: Histograma e possíveis distribuições (fitting) de operações descobertas de aquisição de títulos 
públicos do governo americano de curto prazo 
 
 
Normalmente, as operações com ativos financeiros possuem retornos brutos em torno de 1,0, sendo 
possível observar neste histograma (statigraphics ou easyfit) que há uma maior frequência de retornos entre 
0,93 e 1,03, com poucas observações a partir de 1,15 ou abaixo de 0,89. É possível ainda observar que 
distribuições melhor fitam o histograma. 
 
 
Análise Exploratória de Dados Prof. Dr. Paulo Matos 
 
 
16 
Gráficos ou lineares: são freqüentemente usados para representação de séries cronológicas com um 
grande número de períodos de tempo. As linhas são mais eficientes do que as colunas, quando existem 
intensas flutuações nas séries ou quando há necessidade de se representarem várias séries em um mesmo 
gráfico. A título de ilustração, observemos os diagramas a seguir na figura 2.5. 
Como exemplo, observemos este trecho extraído de Matos, Oquendo e Trompieri (2012). 
“É evidente ao se analisar os gráficos de retornos acumulados (Figura 3) que as bolsas destes países dividem uma 
tendência de longo prazo comum. A bolsa chinesa apresenta certo descolamento em alguns momentos. Todas apresentam 
valorização no período de “boom” econômico entre 2002 e 2007 aproximadamente, assim como forte queda por ocasião 
da crise financeira internacional de 2008, tendo as bolsas de China e Índia iniciado seu período de perdas mais cedo que 
Brasil e Rússia. Todas ainda apresentaram recuperação importante durante os anos 2009 e 2010, embora neste período 
a intensidade de recuperação tenha sido mais heterogêneo.” 
 
Figura 2.5: Retorno acumulado nominal mensal dos índices dos BRIC´s. 
0
1
2
3
4
5
6
7
Dec-97 Dec-98 Dec-99 Dec-00 Dec-01 Dec-02 Dec-03 Dec-04 Dec-05 Dec-06 Dec-07 Dec-08 Dec-09
IBOVESPA SENSEX-30 SSE RTS
 
 
Mapa: o uso de mapas com cores diferentes para variáveis quantitativas ou qualitativas é menos comum, 
mas igualmente útil quando da necessidade em se observar muitas observações ao mesmo tempo, todas elas 
sobre uma mesma variável, a qual assume diferentes valores em um mesmo instante de tempo para várias 
economias. 
Observe o exemplo da figura 2.6. 
 
 
 
 
 
 
Análise Exploratória de Dados Prof. Dr. Paulo Matos 
 
 
17 
Figura 2.6: Dívida pública per capita em diversas economias 
 
 
 
Análise Exploratória de Dados Prof. Dr. Paulo Matos 
 
 
18 
Como exemplo, visando apresentar um mix de tabelas e recursos gráficos disponíveis, observemos 
este trecho abaixo extraído de Pinto, Matos e Simonassi (2012). 
“No início de sua história como instituição, a previdência encontrava-se figurada através dos IAPs e CAPs. 
Ressalte-se que tais institutos eram configurados em moldes semelhantes aos fundos de previdência complementar 
conhecidos atualmente e regidos pela acumulação de seus recursos. 
Baseada em regimes capitalizados, aprevidência, muitas vezes era utilizada como fonte de financiamento para 
diversos setores da economia. Segundo Oliveira et al. (1999), muitos recursos dos institutos foram investidos em hospitais 
e ambulatórios, na Companhia Vale do Rio Doce, na Companhia Hidroelétrica do Vale de São Francisco, bem como na 
construção de Brasília. O baixo rendimento das aplicações, associado ao não pagamento da cota de responsabilidade da 
União, a sonegação por parte dos empregadores e o processo inflacionário, impossibilitaram, já na década de 1950, a 
manutenção de um sistema capitalizado, o que ocasionou a adoção do sistema praticado nos dias de hoje, o de repartição 
simples. 
Nas últimas décadas, tem-se observado as consideráveis dificuldades de países que adotam este tipo de regime e 
um movimento crescente de reformas e migrações a sistemas capitalizados. Tais modificações possuem origem na 
inadequação destes sistemas frente às mudanças demográficas, econômicas e sociais pelas quais o mundo tem passado. 
Em relação aos aspectos demográficos, destacam-se o forte processo de envelhecimento, o aumento progressivo da 
longevidade e as baixas taxas de natalidade. No Brasil, cenário semelhante ocasiona a diminuição da base de 
financiamento e o aumento das despesas com benefícios. Enquanto na década de 1940, registrava-se 31 contribuintes por 
beneficiário, esta proporção reduz para menos de 3 para 1 já no início dos anos 80. Somado a este fator o alto grau de 
informalidade registrado durante anos, a ampliação da cobertura sem apropriada fonte de custeio e a concessão de 
aposentadorias precoces, foi possível observar o surgimento do déficit previdenciário, despertando as discussões em torno do 
equilíbrio financeiro do RGPS. 
A Tabela 2.3 traz o histórico dos resultados anuais do RGPS. Nota-se o grande aumento no saldo previdenciário 
negativo na última década, chegando a contabilizar valores 60 vezes maiores do que há 15 anos. 
Segundo Dantas (2009), o ritmo de crescimento das despesas com benefícios do RGPS associado a pouca 
expansão da arrecadação desencadearam o debate sobre a necessidade de uma reforma da Previdência no Brasil. Na 
Figura 2.7, acompanha-se claramente este processo de ampliação dos gastos previdenciários, iniciado com o advento da 
Lei nº 8.213/91, em que se determinou a padronização dos benefícios urbanos e rurais. 
Notórias são as particularidades associadas aos benefícios rurais que contribuem para este movimento. 
Compostos em sua grande maioria de benefícios praticamente de caráter assistencial, mesmo que arrolados dentro do grupo 
dos previdenciários, apresentam-se carentes de financiamento através de contribuições, pela própria fragilidade e larga 
inexistência de relações de trabalho formalizadas. A segunda característica refere-se à menor idade de concessão de benefício 
em relação aos trabalhadores urbanos, que são os principais contribuintes do sistema. 
Em relação à arrecadação, também se observa a tendência de crescimento, porém em níveis inferiores às despesas. 
Segundo Dantas (2009), entre 1993 e 1992, as despesas com benefícios tiveram um aumento de 34,5%, enquanto as 
receitas cresceram 13,6%. 
Em 2010, os gastos previdenciários alcançaram a ordem de 6,9% do PIB, enquanto se registrou receitas 
correspondentes a 5,7%, gerando um déficit de 1,2% do PIB, porém, no início da década de 90, este resultado era 
superavitário. 
 
 
 
Análise Exploratória de Dados Prof. Dr. Paulo Matos 
 
 
19 
Ano
Arrecadação Líquida
 (em milhões R$)
Despesas com Benefícios 
(em milhões R$)
Saldo Previdenciário
(em milhões R$)
1990 70.902,98 43.934,75 26.968,23
1991 63.736,56 46.067,49 17.669,07
1992 62.878,05 50.144,89 12.733,16
1993 71.451,90 67.463,36 3.988,55
1994 76.251,67 74.429,94 1.821,73
1995 91.596,05 92.326,85 (730,80)
1996 99.851,29 100.488,95 (637,66)
1997 103.285,17 110.463,79 (7.178,62)
1998 105.202,85 121.220,77 (16.017,92)
1999 105.448,80 125.598,18 (20.149,38)
2000 101.938,93 132.935,27 (30.996,34)
2001 117.467,40 141.404,53 (23.937,13)
2002 120.848,69 149.592,04 (28.743,35)
2003 117.727,41 156.130,44 (38.403,03)
2004 128.736,02 172.572,83 (43.836,81)
2005 140.843,11 189.625,33 (48.782,21)
2006 155.438,53 208.465,90 (53.027,37)
2007 169.617,72 223.915,81 (54.298,09)
2008 185.151,91 226.372,20 (41.220,29)
2009 196.511,04 242.945,40 (46.434,36)
2010 217.525,07 261.878,31 (44.353,24)
a Valores expressos em reais constantes, atualizados pelo INPC mensal, a preço de dezembro/2010.
b Fonte: Anuário Estatístico da Previdência Social.
Tabela 2.3.
Arrecadação líquida, Despesa com Benefícios e Saldo Previdenciário de 1990 a 2010 a, b
 
 
A partir de 1995, o aumento do universo de beneficiários, a crise econômica e a política de concessão de ganhos 
reais do salário mínimo serviram como catalisadores do déficit. Quando se registrou o primeiro resultado previdenciário 
negativo, iniciaram-se as tentativas de combate à sua expansão. Como reflexos desta necessidade, foram aprovadas a 
Emenda Constitucional n.º 20 de 1998, que estabeleceu, em linhas gerais, a relação entre a fonte de custeio e os benefícios, 
e a Lei n.º 9.876/99, normativo que instituiu o fator previdenciário com objetivo de desestimular a aposentadoria precoce. 
 
 
 
 
 
 
 
 
 
 
 
 
Análise Exploratória de Dados Prof. Dr. Paulo Matos 
 
 
20 
Figura 2.7: Evolução do saldo previdenciário, da arrecadação líquida e de despesas (benefícios) do RGPS 
 
Fonte: MPAS e BACEN. 
a Valores expressos em reais constantes, atualizados pelo INPC mensal, a preço de dezembro/2010. 
 
 
2.3. Exercícios 
Exercício #1. Observe a base de dados contida na Tabela 2.3. 
a) Construa um histograma para o saldo previdenciário. Comente. 
b) Construa um gráfico de dispersão (eixos X e Y) para as variáveis arrecadação líquida e despesas 
com benefícios. Comente se há algum padrão entre estas duas grandezas. 
 
Exercício #2. Observe os dados contendo índices de variação de preço (inflação) de diversas 
economias em vários continentes na Tabela 2.4. 
a) Identifique a melhor forma de representar graficamente estes dados. 
b) Monte um histograma para as inflações de 2007 e outro para as inflações de 2011. Compare e 
comente. 
 
 
 
 
Tabela 2.4. 
-3%
-2%
-1%
0%
1%
2%
3%
4%
5%
6%
7%
8%
-100.000
-50.000
0
50.000
100.000
150.000
200.000
250.000
300.000
1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010
M
ilh
õ
es
Saldo Previdenciário Arrecadação líquida Despesa com benefícios
Saldo previdenciário/ PIB Arrecadação líquida/ PIB Despesa com benefícios/ PIB
 
 
Análise Exploratória de Dados Prof. Dr. Paulo Matos 
 
 
21 
Inflações de um cross-section de economias 
 
 
 
Exercício #3. Observe os dados na Tabela 2.5. Construa um gráfico linear mensal para as variáveis 
arrecadação líquida e despesas com benefícios. 
a) Comente se há algum padrão entre estas duas grandezas. 
b) Há algum sinal de sazonalidade, ou seja, comportamento atípico de determinados meses do ano. 
Comente possíveis razões. 
C
o
u
n
t
r
y
2
0
0
7
2
0
1
1
C
o
u
n
t
r
y
2
0
0
7
2
0
1
1
C
o
u
n
t
r
y
2
0
0
7
2
0
1
1
C
o
u
n
t
r
y
2
0
0
7
2
0
1
1
T
a
n
z
a
n
i
a
6
,4
0
19
,8
0
K
a
z
a
k
h
s
t
a
n
1
0
,8
0
7
,4
0
I
n
d
o
n
e
s
i
a
6
,5
9
3
,7
9
E
u
r
o
 A
r
e
a
3
,1
0
2
,7
0
K
e
n
y
a
1
2
,0
0
1
8
,9
3
H
o
n
g
 K
o
n
g
3
,8
0
5
,7
0
L
a
t
v
i
a
1
4
,0
0
4
,0
0
F
r
a
n
c
e
2
,6
0
2
,5
0
V
i
e
t
n
a
m
1
2
,7
5
1
8
,1
3
H
u
n
g
a
r
y
7
,4
0
4
,1
0
U
. 
K
i
n
g
o
d
m
2
,1
0
4
,2
0
I
r
e
l
a
n
d
4
,7
0
2
,5
0
A
n
g
o
l
a
1
1
,7
8
1
1
,3
8
S
i
n
g
a
p
o
r
e
3
,7
0
5
,5
0
C
o
l
o
m
b
i
a
5
,6
9
3
,7
3
N
e
t
h
e
r
l
a
n
d
s
1
,9
0
2
,4
0
M
o
n
g
o
l
i
a
1
5
,1
0
1
1
,1
0
S
a
u
d
i
 A
r
a
b
i
a
6
,4
7
5
,3
0
P
o
r
t
u
g
a
l
2
,7
0
3
,7
0
C
. 
R
e
p
u
b
l
i
c
5
,4
0
2
,4
0
T
u
r
k
e
y
8
,3
9
1
0
,4
5
A
l
g
e
r
i
a
3
,5
1
5
,1
6
L
i
t
h
u
a
n
i
a
8
,1
0
3
,4
0
T
a
i
w
a
n
3
,3
3
2
,0
3
E
g
y
p
t
6
,9
0
1
0
,4
0
C
h
i
n
a
6
,5
0
4
,1
0
S
o
u
t
h
 K
o
r
e
a
3
,6
1
4
,2
0
B
u
l
g
a
r
i
a
1
2
,5
0
2
,8
0
N
i
g
e
r
i
a
6
,6
0
1
0
,3
0
E
s
t
o
n
i
a
9
,5
7
3
,7
0
T
h
a
i
l
a
n
d
3
,2
0
3
,6
0
C
a
n
a
d
a
2
,4
0
2
,3
0
P
a
k
i
s
t
a
n
8
,7
9
9
,7
5
M
e
x
i
c
o
3
,7
6
3
,8
2
A
u
s
t
r
i
a
3
,5
0
3
,2
0
G
r
e
e
c
e
3
,9
0
2
,4
0
A
r
g
e
n
t
i
n
a
8
,5
0
9
,5
0
P
a
r
a
g
u
a
y
6
,0
0
4
,9
0
B
e
l
g
i
u
m
3
,1
0
3
,2
0
S
l
o
v
e
n
i
a
5
,6
0
2
,0
0
B
o
t
s
w
a
n
a
8
,1
0
9
,2
0
P
e
r
u
3
,9
3
4
,7
2
I
t
a
l
y
2
,6
0
3
,3
0
S
w
e
d
e
n
3
,5
0
2
,3
0
G
h
a
n
a
1
2
,7
0
8
,5
8
C
h
i
l
e
6
,2
7
4
,4
0
L
u
x
e
m
b
o
u
r
g
3
,4
0
3
,2
0
I
s
r
a
e
l
3
,4
0
2
,2
0
R
w
a
n
d
a
6
,6
0
8
,3
4
R
u
s
s
i
a
1
1
,9
0
6
,1
0
A
u
s
t
r
a
l
i
a
3
,0
0
3
,1
0
G
e
r
m
a
n
y
3
,1
0
2
,1
0
N
a
m
i
b
i
a
7
,1
0
7
,2
0
T
u
n
i
s
i
a
5
,1
0
4
,2
0
M
a
l
a
y
s
i
a
2
,4
0
3
,0
0
S
p
a
i
n
4
,2
0
2
,4
0
B
o
l
i
v
i
a
1
1
,7
3
6
,9
0
P
o
l
a
n
d
4
,0
0
4
,6
0
U
n
i
t
e
d
 S
t
a
t
e
s
4
,1
0
3
,0
0
N
e
w
 Z
e
a
l
a
n
d
3
,2
0
1
,8
0
I
c
e
l
a
n
d
5
,8
6
6
,5
0
P
h
i
l
i
p
p
i
n
e
s
3
,9
0
4
,2
0
F
i
n
l
a
n
d
2
,6
0
2
,9
0
N
o
r
w
a
y
2
,8
0
0
,2
0
I
n
d
i
a
5
,5
1
6
,4
9
S
l
o
v
a
k
i
a
3
,4
0
4
,4
0
D
e
n
m
a
r
k
2
,3
0
2
,5
0
U
. 
A
r
a
b
 E
.
1
1
,1
0
0
,2
0
B
r
a
z
i
l
4
,4
6
6
,5
0
S
r
i
 L
a
n
k
a
1
8
,8
0
4
,9
0
M
a
c
e
d
o
n
i
a
4
,9
0
2
,8
0
J
a
p
a
n
0
,7
0
-
0
,2
0
S
o
u
t
h
 A
f
r
i
c
a
8
,9
0
6
,1
0
U
k
r
a
i
n
e
1
6
,6
0
4
,6
0
R
o
m
a
n
i
a
6
,6
0
3
,1
4
S
w
i
t
z
e
r
l
a
n
d
2
,0
0
-
0
,7
0
 
 
Análise Exploratória de Dados Prof. Dr. Paulo Matos 
 
 
22 
Tabela 2.5. 
Rubricas previdenciárias 
Arrecadação líquida (em 
R$ constantes de 
dez/2010, com base no 
INPC)
Despesa com benefícios 
previdenciários (em R$ 
constantes de dez/2010, 
com base no INPC)
Fonte: Ministério da 
Previdência
Fonte: Ministério da 
Previdência
jan-08 R$ 13.136.719.488,11 R$ 19.101.981.368,67
fev-08 R$ 13.914.652.924,72 R$ 16.279.693.997,70
mar-08 R$ 14.083.655.906,04 R$ 17.143.108.589,12
abr-08 R$ 14.579.536.959,18 R$ 17.794.034.758,48
mai-08 R$ 14.450.551.944,75 R$ 17.595.963.323,85
jun-08 R$ 14.651.635.955,58 R$ 17.893.000.207,87
jul-08 R$ 14.890.654.608,24 R$ 17.341.226.683,78
ago-08 R$ 14.817.939.080,00 R$ 19.378.247.043,72
set-08 R$ 15.061.302.428,95 R$ 23.378.659.125,25
out-08 R$ 15.037.390.509,53 R$ 17.167.824.220,64
nov-08 R$ 15.073.245.317,91 R$ 19.769.724.189,65
dez-08 R$ 25.454.628.028,69 R$ 23.528.738.804,19
jan-09 R$ 13.251.852.623,69 R$ 20.232.230.517,16
fev-09 R$ 14.459.740.664,57 R$ 17.300.501.644,76
mar-09 R$ 15.570.977.058,99 R$ 19.001.555.312,52
abr-09 R$ 15.355.171.289,37 R$ 18.732.887.606,59
mai-09 R$ 15.600.531.036,88 R$ 18.568.515.481,32
jun-09 R$ 15.171.832.478,08 R$ 18.819.665.713,72
jul-09 R$ 15.377.570.789,89 R$ 18.707.118.886,46
ago-09 R$ 15.486.615.247,63 R$ 21.069.840.498,57
set-09 R$ 15.129.898.190,81 R$ 24.978.985.964,58
out-09 R$ 15.922.634.805,59 R$ 18.894.270.131,49
nov-09 R$ 17.938.128.217,27 R$ 21.263.839.552,30
dez-09 R$ 27.246.091.981,71 R$ 25.375.989.760,03
jan-10 R$ 14.855.323.907,21 R$ 18.769.047.175,40
fev-10 R$ 15.937.738.791,82 R$ 19.900.395.957,84
mar-10 R$ 16.528.421.372,26 R$ 23.528.196.285,23
abr-10 R$ 16.870.588.671,01 R$ 19.982.094.010,55
mai-10 R$ 17.057.213.183,57 R$ 19.720.992.901,31
jun-10 R$ 17.074.542.192,17 R$ 19.935.688.207,42
jul-10 R$ 17.358.693.215,77 R$ 20.002.666.791,96
ago-10 R$ 17.872.271.156,77 R$ 23.457.111.363,54
set-10 R$ 17.567.935.279,61 R$ 26.995.411.173,70
out-10 R$ 17.850.969.383,15 R$ 20.059.136.441,42
nov-10 R$ 18.027.644.911,00 R$ 22.478.634.723,89
dez-10 R$ 30.523.729.644,36 R$ 27.048.937.407,80
Data
 
 
Exercício #4. Observe os Patrimônios líquidos das empresas registradas junto à ANS como 
filantrópicas nos anos de 2008 a 2010 (Tabela 2.6.). Monte um histograma de cada cross-section para cada ano. 
É possível inferir algo sobre a crise financeira de 2008 sobre este segmento? Seria necessário ou recomendável 
retirar algumas das observações, em razão do seu comportamento extremo na amostra? 
 
 
 
 
 
 
 
Análise Exploratória de Dados Prof. Dr. Paulo Matos 
 
 
23 
Tabela 2.6. 
PL de filantrópicas 
 
 
2
0
1
0
2
0
0
9
2
0
0
8
2
0
1
0
2
0
0
9
2
0
0
8
A
S
S
O
C
IA
Ç
Ã
O
 A
D
V
E
N
T
IS
T
A
 N
O
R
T
E
 B
R
A
S
. 
D
E
 P
R
E
V
. 
E
 A
S
S
IS
T
. 
A
 S
A
Ú
D
E
6
5
.2
3
7
6
4
.2
5
7
5
4
.2
9
8
IR
M
A
N
D
A
D
E
 D
A
 S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
Ó
R
D
IA
 D
E
 S
T
A
 R
. 
P
. 
Q
U
A
T
R
O
2
2
3
1
.4
9
6
2
.4
2
8
A
S
S
O
C
IA
Ç
Ã
O
 B
E
N
E
F
IC
E
NT
E
 C
A
T
Ó
L
IC
A
8
.2
6
4
7
.1
1
6
6
.9
0
4
IR
M
A
N
D
A
D
E
 D
A
 S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
O
R
D
IA
 D
E
 V
A
L
IN
H
O
S
6
4
9
-2
.6
2
2
A
S
S
O
C
IA
Ç
Ã
O
 C
A
S
A
 F
O
N
T
E
 D
A
 V
ID
A
1
1
.9
2
9
8
.4
4
4
9
3
3
IR
M
A
N
D
A
D
E
 D
A
 S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
O
R
D
IA
 D
E
 V
IT
O
R
IA
4
9
.1
5
4
4
8
.0
1
1
4
6
.2
8
6
A
S
S
O
C
IA
Ç
Ã
O
 D
O
S
 F
U
N
C
IO
N
Á
R
IO
S
 P
Ú
B
L
IC
O
S
 D
O
 E
S
P
ÍR
IT
O
 S
A
N
T
O
-3
.2
0
7
-2
.0
7
9
1
8
7
IR
M
A
N
D
A
D
E
 D
A
 S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
Ó
R
D
IA
 E
 M
. 
D
O
N
A
 Z
IL
D
A
 S
A
L
V
A
G
N
I
4
.6
2
2
3
.4
2
6
2
.6
6
5
A
S
S
O
C
IA
Ç
Ã
O
 D
R
. 
B
A
R
T
H
O
L
O
M
E
U
 T
A
C
C
H
IN
I
6
9
.7
4
1
2
8
.3
6
0
2
5
.5
5
2
IR
M
A
N
D
A
D
E
 D
E
 M
IS
E
R
IC
O
R
D
IA
 D
E
 A
M
E
R
IC
A
N
A
1
0
.8
2
7
3
.0
4
4
2
.6
0
3
A
S
S
O
C
IA
Ç
Ã
O
 E
V
A
N
G
E
L
IC
A
 B
E
N
E
F
IC
E
N
T
E
 D
E
 L
O
N
D
R
IN
A
-5
7
.9
4
3
-7
8
.1
5
3
IR
M
A
N
D
A
D
E
 D
E
 M
IS
E
R
IC
Ó
R
D
IA
 D
E
 M
O
N
T
E
 A
L
T
O
1
6
.1
9
5
5
.2
7
8
5
.0
0
6
A
S
S
O
C
IA
Ç
Ã
O
 H
O
S
P
IT
A
L
 D
E
 C
A
R
ID
A
D
E
 I
JU
I
1
0
.6
9
5
1
0
.2
8
8
7
.0
4
7
IR
M
A
N
D
A
D
E
 D
E
 M
IS
E
R
IC
O
R
D
IA
 D
E
 P
O
R
T
O
 F
E
R
R
E
IR
A
5
.4
0
5
5
.7
3
6
6
.1
0
7
A
S
S
O
C
IA
C
A
O
 H
O
S
P
IT
A
L
A
R
 S
A
N
T
A
 R
O
S
A
L
IA
1
7
.8
4
3
1
9
.6
7
8
1
9
.4
7
2
IR
M
A
N
D
A
D
E
 D
O
 H
O
S
P
IT
A
L
 D
E
 N
O
S
S
A
 S
E
N
H
O
R
A
 D
A
S
 D
O
R
E
S
6
.3
7
0
7
.3
5
2
8
.6
6
9
B
E
N
E
F
IC
E
N
C
IA
 C
A
M
IL
IA
N
A
 D
O
 S
U
L
5
0
.8
7
5
4
7
.0
1
3
4
3
.6
3
3
IR
M
A
N
D
A
D
E
 D
O
 S
E
N
H
O
R
 B
. 
JE
S
U
S
 D
O
S
 P
A
S
S
O
S
 D
A
 S
T
A
 C
A
S
A
 D
E
 M
. 
D
E
 B
. 
P
A
U
L
IS
T
A
3
5
4
9
6
5
2
.9
8
5
B
E
N
E
F
IC
E
N
C
IA
 N
IP
O
-B
R
A
S
IL
E
IR
A
 D
A
 A
M
A
Z
O
N
IA
8
.5
1
3
8
.6
1
4
1
0
.2
6
4
IR
M
A
N
D
A
D
E
 N
O
S
S
A
 S
E
N
H
O
R
A
 D
A
S
 G
R
A
Ç
A
S
6
7
.8
4
0
1
2
.2
8
2
1
1
.4
6
4
C
E
N
T
R
O
 B
A
R
B
A
C
E
N
E
N
S
E
 D
E
 A
S
S
IS
T
Ê
N
C
IA
 M
E
D
IC
A
 E
 S
O
C
IA
L
3
.4
4
0
2
.9
5
9
2
.9
0
0
IR
M
A
N
D
A
D
E
 N
O
S
S
A
 S
E
N
H
O
R
A
 D
A
S
 M
E
R
C
E
S
 D
E
 M
O
N
T
E
S
 C
L
A
R
O
S
2
9
.4
1
9
2
9
.2
6
3
3
1
.5
9
3
C
IR
C
U
L
O
 O
P
E
R
A
R
IO
 C
A
X
IE
N
S
E
1
0
3
.8
8
7
3
8
.6
3
5
3
7
.6
0
5
IR
M
A
N
D
A
D
E
 S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
Ó
R
D
IA
 D
E
 M
A
R
IN
G
Á
7
.9
2
9
7
.1
1
4
C
O
N
F
E
R
Ê
N
C
IA
 S
Ã
O
 J
O
S
É
 D
O
 A
V
A
Í
6
0
.8
3
0
5
8
.1
4
0
4
8
.2
4
6
IR
M
A
N
D
A
D
E
 S
A
N
T
A
 C
A
S
A
 M
IS
E
R
IC
O
R
D
IA
 D
E
 S
Ã
O
 J
O
S
É
 D
O
S
 C
A
M
P
O
S
1
7
.3
3
6
2
7
.8
0
4
3
3
.2
5
7
F
U
N
D
A
Ç
Ã
O
 A
S
S
IS
T
E
N
C
IA
L
 V
IÇ
O
S
E
N
S
E
5
.5
5
5
7
.1
0
6
8
.2
2
3
R
E
A
L
 S
O
C
IE
D
A
D
E
 P
O
R
T
U
G
U
E
S
A
 D
E
 B
E
N
E
F
IC
E
N
C
IA
-3
7
.1
6
0
-9
.4
7
3
-8
4
0
,0
0
F
U
N
D
A
Ç
Ã
O
 B
E
N
E
F
IC
E
N
T
E
 R
IO
 D
O
C
E
7
.8
8
5
7
.6
0
6
7
.2
6
4
S
A
N
T
A
 C
A
S
A
 D
A
 M
IS
E
R
IC
Ó
R
D
IA
 D
E
 S
Ã
O
 J
O
Ã
O
 D
E
L
 R
E
I
6
0
9
.9
9
9
4
7
3
.6
3
2
4
3
5
.3
4
0
,0
0
F
U
N
D
A
Ç
Ã
O
 F
IL
A
N
T
R
Ó
P
IC
A
 E
 B
E
N
E
F
IC
IE
N
T
E
 D
E
 S
A
Ú
D
E
 A
R
N
A
L
D
O
 G
A
V
A
Z
Z
A
 F
IL
H
O
6
.8
0
2
7
.1
1
4
7
.7
0
6
S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
O
R
D
IA
 D
A
 B
A
H
IA
0
1
0
5
.6
5
7
1
0
4
.2
3
3
,0
0
F
U
N
D
A
Ç
Ã
O
 G
E
R
A
L
D
O
 C
O
R
R
E
A
1
6
.3
3
6
2
5
.7
7
7
2
3
.0
4
3
S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
Ó
R
D
IA
 D
E
 A
R
A
Ç
A
T
U
B
A
9
.0
0
2
1
1
.6
9
2
1
8
.8
0
0
,0
0
F
U
N
D
A
C
A
O
 L
E
O
N
O
R
 D
E
 B
A
R
R
O
S
 C
A
M
A
R
G
O
4
2
.2
2
9
3
5
.2
3
5
3
4
.3
0
2
S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
O
R
D
IA
 D
E
 B
A
R
R
A
 M
A
N
S
A
1
7
.1
4
7
4
.8
7
9
7
.5
0
3
,0
0
F
U
N
D
A
Ç
Ã
O
 P
A
D
R
E
 A
L
B
IN
O
8
4
.3
4
2
6
4
.7
0
2
5
9
.5
8
3
S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
Ó
R
D
IA
 D
E
 B
A
R
R
E
T
O
S
6
.3
9
3
1
.6
0
2
4
.6
8
7
,0
0
F
U
N
D
A
Ç
Ã
O
 S
Ã
O
 F
R
A
N
C
IS
C
O
 X
A
V
IE
R
1
5
7
.7
9
0
1
2
2
.1
8
5
1
0
4
.6
8
6
S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
O
R
D
IA
 D
E
 C
A
S
A
 B
R
A
N
C
A
-6
.6
8
4
-5
.6
8
3
-4
.1
8
2
,0
0
H
O
S
P
IT
A
L
 C
É
S
A
R
 L
E
IT
E
1
0
.3
1
0
9
.6
3
2
8
.9
1
8
S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
O
R
D
IA
 D
E
 I
T
A
B
U
N
A
3
8
.0
8
4
2
.0
9
1
3
.2
4
4
,0
0
H
O
S
P
IT
A
L
 D
E
 C
A
R
ID
A
D
E
 D
E
 V
A
R
G
E
M
 G
R
A
N
D
E
 D
O
 S
U
L
3
.9
5
8
3
.8
8
3
4
.1
1
2
S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
Ó
R
D
IA
 D
E
 I
T
A
P
E
V
A
2
2
.2
1
4
2
2
.6
4
7
1
9
.2
9
3,0
0
H
O
S
P
IT
A
L
 D
E
 C
A
T
A
G
U
A
S
E
S
1
0
.5
0
2
9
.7
5
3
9
.3
4
0
S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
O
R
D
IA
 D
E
 J
O
S
E
 B
O
N
IF
A
C
IO
2
.2
4
6
2
.1
6
0
H
O
S
P
IT
A
L
 E
V
A
N
G
É
L
IC
O
 D
E
 R
IO
 V
E
R
D
E
4
.9
7
5
4
.9
7
5
8
.0
6
7
S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
Ó
R
D
IA
 D
E
 J
U
IZ
 D
E
 F
O
R
A
8
1
.9
5
4
5
2
.1
1
1
5
0
.9
5
7
,0
0
H
O
S
P
IT
A
L
 I
M
A
C
U
L
A
D
A
 C
O
N
C
E
IÇ
Ã
O
 -
 A
M
H
IC
-S
A
Ú
D
E
-8
2
6
6
S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
Ó
R
D
IA
 D
E
 L
O
R
E
N
A
-8
5
1
-2
.2
7
1
-8
.4
9
2
,0
0
H
O
S
P
IT
A
L
 P
A
D
R
E
 J
Ú
L
IO
 M
A
R
IA
4
.6
4
7
4
.2
1
0
4
.2
1
0
S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
Ó
R
D
IA
 D
E
 M
A
R
IN
G
Á
7
.1
1
4
5
.4
0
8
,0
0
H
O
S
P
IT
A
L
 S
A
O
 P
A
U
L
O
8
.1
0
0
9
.3
8
2
9
.3
8
2
S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
Ó
R
D
IA
 D
E
 P
A
S
S
O
S
2
6
.1
2
1
2
3
.8
0
5
1
9
.6
3
9
,0
0
IE
A
S
 -
 I
N
S
T
IT
U
T
O
 D
E
 E
N
S
IN
O
 E
 A
S
S
IS
T
Ê
N
C
IA
 S
O
C
IA
L
4
6
.6
1
9
4
7
.4
7
0
4
6
.3
3
4
S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
O
R
D
IA
 D
E
 S
Ã
O
 J
O
S
É
 D
O
 R
IO
 P
A
R
D
O
 -
 H
O
S
P
IT
A
L
 S
Ã
O
 V
IC
E
N
T
E
6
.5
1
7
6
.5
4
6
6
.6
3
0
,0
0
IR
M
A
N
D
A
D
E
 D
A
 S
A
N
T
A
 C
A
S
A
 D
A
 M
IS
E
R
IC
Ó
R
D
IA
 D
E
 S
A
N
T
O
S
1
1
5
.3
3
0
4
6
.4
2
5
4
9
.8
1
6
S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
Ó
R
D
IA
 D
E
 T
U
P
Ã
4
.3
1
4
3
.5
0
2
2
.6
3
0
,0
0
IR
M
A
N
D
A
D
E
 D
A
 S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
Ó
R
D
IA
 D
E
 A
R
A
R
A
S
1
3
.1
6
1
1
1
.2
0
0
1
0
.3
9
8
S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
O
R
D
IA
 D
E
 V
IT
Ó
R
IA
 D
A
 C
O
N
Q
U
IS
T
A
1
8
.1
8
2
1
.5
5
3
7
0
6
,0
0
IR
M
A
N
D
A
D
E
 D
A
 S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
Ó
R
D
IA
 D
E
 C
U
R
IT
IB
A
3
3
.8
5
1
3
0
.8
4
3
3
0
.7
7
7
S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
Ó
R
D
IA
 D
E
 V
O
T
U
P
O
R
A
N
G
A
4
0
.5
9
8
2
6
.4
3
8
2
0
.2
0
6
,0
0
IR
M
A
N
D
A
D
E
 D
A
 S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
O
R
D
IA
 D
E
 I
L
H
E
U
S
5
9
6
2
.0
1
4
S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
O
R
D
IA
 D
O
N
A
 C
A
R
O
L
IN
A
 M
A
L
H
E
IR
O
S
1
9
.5
5
2
2
2
.1
0
2
2
3
.6
1
5
,0
0
IR
M
A
N
D
A
D
E
 D
A
 S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
Ó
R
D
IA
 D
E
 L
E
M
E
-3
.1
2
9
-3
.8
4
9
S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
Ó
R
D
IA
 E
 A
S
IL
O
 D
O
S
 P
O
B
R
E
S
 D
E
 B
A
T
A
T
A
IS
1
7
.2
7
1
1
8
.1
3
1
1
8
.6
9
7
,0
0
IR
M
A
N
D
A
D
E
 D
A
 S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
O
R
D
IA
 D
E
 L
IM
E
IR
A
6
.2
2
1
4
.8
7
6
5
.6
1
2
S
B
H
 S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
O
R
D
IA
 D
E
 R
IB
E
IR
A
O
 P
R
E
T
O
-2
1
.2
7
0
-1
7
.8
6
1
-1
7
.8
8
9
,0
0
IR
M
A
N
D
A
D
E
 D
A
 S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
Ó
R
D
IA
 D
E
 M
A
U
Á
1
.0
2
1
2
.5
1
1
2
.4
3
6
S
O
C
IE
D
A
D
E
 B
E
N
E
F
IC
E
N
T
E
 U
N
IÃ
O
 O
P
E
R
Á
R
IA
 D
E
 A
R
A
R
A
Q
U
A
R
A
1
.7
5
5
1
.2
1
7
1
.0
2
1
,0
0
IR
M
A
N
D
A
D
E
 D
A
 S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
Ó
R
D
IA
 D
E
 M
U
Z
A
M
B
IN
H
O
1
.6
6
9
1
.9
1
8
2
.1
4
5
S
O
C
IE
D
A
D
E
 D
E
 B
E
N
E
F
IC
Ê
N
C
IA
 E
 F
IL
A
N
T
R
O
P
IA
 S
Ã
O
 C
R
IS
T
O
V
Ã
O
5
1
.6
7
4
4
5
.1
9
7
4
5
.6
5
0
,0
0
IR
M
A
N
D
A
D
E
 D
A
 S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
Ó
R
D
IA
 D
E
 O
S
V
A
L
D
O
 C
R
U
Z
8
0
9
7
7
8
7
0
6
S
O
C
IE
D
A
D
E
 E
S
P
A
N
H
O
L
A
 D
E
 B
E
N
E
F
IC
E
N
C
IA
6
.5
4
6
6
.1
6
0
IR
M
A
N
D
A
D
E
 D
A
 S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
Ó
R
D
IA
 D
E
 P
IR
A
C
IC
A
B
A
3
5
.0
3
2
3
1
.3
5
9
2
7
.5
3
5
S
O
C
IE
D
A
D
E
 I
T
A
L
IA
N
A
 D
E
 B
E
N
E
F
IC
Ê
N
C
IA
 E
 M
U
T
U
O
 S
O
C
O
R
R
O
-3
.3
4
1
-2
.7
4
4
9
4
5
,0
0
IR
M
A
N
D
A
D
E
 D
A
 S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
Ó
R
D
IA
 D
E
 R
IO
 C
L
A
R
O
1
3
.1
1
0
1
0
.4
9
7
7
.4
2
3
S
O
C
IE
D
A
D
E
 L
IT
E
R
Á
R
IA
 E
 C
A
R
IT
A
T
IV
A
 S
A
N
T
O
 A
G
O
S
T
IN
H
O
5
3
.8
1
0
5
4
.8
2
4
5
4
.5
4
5
,0
0
IR
M
A
N
D
A
D
E
 D
A
 S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
Ó
R
D
IA
 D
E
 S
Ã
O
 J
O
S
É
 D
O
 R
IO
 P
R
E
T
O
2
8
.6
2
0
2
4
.7
7
9
2
1
.1
0
8
S
O
C
IE
D
A
D
E
 O
P
E
R
Á
R
IA
 H
U
M
A
N
IT
Á
R
IA
2
.8
5
7
3
.7
7
9
3
.7
1
3
,0
0
IR
M
A
N
D
A
D
E
 D
A
 S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
Ó
R
D
IA
 D
E
 S
Ã
O
 R
O
Q
U
E
2
.7
2
8
2
.9
9
4
1
.9
1
6
S
T
A
 C
A
S
A
 M
IS
 N
 S
R
A
 F
Á
T
IM
A
 E
 B
E
N
E
F
 P
O
R
T
U
G
U
E
S
A
 D
E
 A
R
A
R
A
Q
U
A
R
A
7
.6
5
0
-7
2
9
-1
.1
4
0
,0
0
IR
M
A
N
D
A
D
E
 D
A
 S
A
N
T
A
 C
A
S
A
 D
E
 M
IS
E
R
IC
Ó
R
D
IA
 D
E
 S
O
R
O
C
AB
A
3
0
.9
9
1
2
3
.4
7
1
2
8
.2
3
8
P
L
 (
R
$
 m
il
)
O
p
e
r
a
d
o
r
a
 f
il
a
n
tr
ó
p
ic
a
O
p
e
r
a
d
o
r
a
 f
il
a
n
tr
ó
p
ic
a
P
L
 (
R
$
 m
il
)
 
 
Análise Exploratória de Dados Prof. Dr. Paulo Matos 
 
 
24 
Exercício #5. Observe os retornos (variação de cotação) dos índices das principais bolsas de valores 
da A. Latina (Tabela 2.7). Identifique qual a melhor representação gráfica para ambas as séries temporais. 
 
Tabela 2.7. 
PL de filantrópicas 
BOGOTÁ BUENOS AIRESCARACAS LIMA SANTIAGO SÃO PAULO
IGBC MERVAL IBVC IGBVL IPSA IBOVESPA
jan-08 -12,519% -7,743% -8,087% -13,183% -3,732% -7,334%
fev-08 1,053% 2,512% -6,543% 14,908% -1,646% 6,212%
mar-08 2,109% 0,547% 4,717% 6,520% 10,269% -4,496%
abr-08 8,420% -4,669% 2,871% -7,666% -5,701% 10,446%
mai-08 -1,090% 0,904% -11,792% -5,197% -6,405% 6,175%
jun-08 -19,444% -4,227% 4,431% -11,980% -11,808% -10,907%
jul-08 3,946% -10,620% 4,717% -12,309% 2,007% -8,734%
ago-08 -0,135% -3,674% 6,546% -4,609% -2,731% -6,670%
set-08 2,211% 1,688% 8,763% -3,454% 3,677% -11,424%
out-08 -20,712% -34,712% 3,346% -32,784% -17,266% -25,066%
nov-08 13,338% 8,164% 6,381% 15,594% 7,154% -2,048%
dez-08 6,456% 4,671% 1,490% -6,305% 3,258% 2,118%
jan-09 -5,876% -1,668% -0,445% -4,333% 8,604% 4,089%
fev-09 -2,713% -6,361% 7,704% -3,779% 2,028% -0,200%
mar-09 -0,661% 3,192% 13,591% 38,385% -0,459% 3,638%
abr-09 8,780% 6,062% -5,144% 6,682% -0,224% 15,007%
mai-09 7,310% 12,324% -12,026% 21,844% 9,204% 12,091%
jun-09 4,379% -4,932% 1,925% -5,012% 4,972% -3,489%
jul-09 5,824% 3,765% -1,703% 4,939% -2,368% 6,253%
ago-09 3,592% 4,120% 11,099% 1,361% -2,648% 2,901%
set-09 5,652% 9,462% -6,355% 2,973% 0,670% 8,599%
out-09 -10,612% -0,407% -1,437% -8,987% -1,390% -0,363%
nov-09 5,031% 1,491% 5,125% 0,621% 5,320% 8,532%
dez-09 -0,467% 6,704% 1,838% -1,632% 6,356% 1,541%
Data
 
 
 
 
Análise Exploratória de Dados Prof. Dr. Paulo Matos 
 
 
25 
3. Métricas estatísticas 
3.1. Introdução 
Comumente, ouvimos notícias em jornais tais como esta: “....... ao longo do último mês, o retorno médio 
de uma ação ON da Companhia Vale do Rio Doce (VALE 3) foi de 5,45 %, tendo portanto batido o mercado, apesar 
de ter apresentado uma maior oscilação, cerca de 1,98 % ....” 
Assim como a maioria das informações estatísticas contidas nos jornais, revistas e demais tipos de 
publicação, os fatos numéricos acima reportados consistem na manipulação de dados ou observações, de 
forma a reuni-los e apresentá-los de forma clara para que o leitor possa entender. Tais sumários, sejam 
tabulares, gráficos ou numéricos, são conhecidos como estatísticas descritivas. 
Vimos inicialmente, no capítulo anterior, que a representação gráfica adequada pode ser bem mais 
informativa que uma simples representação tabular, por permitir obervar comportamentos ao longo do tempo 
ou dentre um corte transversal de dados. Um passo adiante neste processo consiste no cálculo de métricas 
estatísticas a partir da amostra, ou mesmo, a partir de toda a população. A partir destes cálculos, será possível 
sumarizar em um ou poucos números representativos toda uma amostra. 
 
3.2. Conceitos básicos e definições 
Suponha que você esteja diante de um processo de entendimento sobre a distribuição de renda de 
toda uma população de funcionários públicos no Brasil, a qual segue uma determinada “função de 
distribuição de probabilidade”. Sua suspeita é a de que na média, a faixa salarial é superior à média observada 
na iniciativa privada, em torno de R$2.300,00. A partir de uma amostra “aleatória”, se observa a média 
amostral �̅� e pode se fazer inferência sobre sua hipótese em investigação. Mas o quão próximo teria que ser 
�̅� de R$2.300,00 para se afirmar que o setor público ganha melhor ou pior que o setor privado? 
Perceba que o estudo das propriedades da distribuição de �̅� são fundamentais neste caso! Mesmo 
sendo este um assunto estudado apenas em inferência estatística, nesta etapa inicial e descritiva da pesquisa 
estatística, procede-se com o cálculo das estatísticas descritivas. Mais especificamente, iremos definir agora o 
que é uma estatística e depois apresentar as mais comumente extraídas da amostra. 
Definição 1: Seja 𝑋1, 𝑋2, 𝑋3, … , 𝑋𝑛 uma amostra aleatória de tamanho n de uma população e 
𝑇(𝑥1, 𝑥2, 𝑥3, … , 𝑥𝑛) uma função com contradomínio em ℝ
𝑛 e cujo domínio contenha o espaço amostral de 
𝑋1, 𝑋2, 𝑋3, … , 𝑋𝑛. Então, uma variável ou vetor aleatório 𝑌 = 𝑇(𝑋1, 𝑋2, 𝑋3, … , 𝑋𝑛) que consista em uma 
função dos valores da amostra será dito uma estatística e sua distribuição de probabilidade será a dita 
distribuição amostral. Observe que esta definição é muito ampla, sendo a única restrição mais técnica, que 
esta não possa depender de um parâmetro da distribuição dos elementos da amostra aleatória. A estatística 
deverá ser simplesmente uma função dos elementos da amostra aleatória. 
As inúmeras estatísticas vão desde funções muito simples, como o maior valor da amostra, ás médias, 
ou métricas de dispersão, por exemplo, dentre outras. 
 
3.3. Medidas de tendência central 
3.3.1. Aspectos teóricos 
Qual seria o peso médio em Kg dos alunos desta turma? Apesar de delicada, essa seria uma questão 
simples, facilmente a partir de uma coleta direta de dados junto aos próprios alunos. Estamos assim, diante 
de uma situação que requer o uso de estatísticas que de certa forma procuram identificar um valor em torno 
 
 
Análise Exploratória de Dados Prof. Dr. Paulo Matos 
 
 
26 
do qual os dados tendem a se agrupar. Podemos definir medidas de posição como sendo as estatísticas que 
representam uma série de dados orientando-nos quanto à posição da distribuição em relação ao eixo 
horizontal do gráfico um histograma. Apesar desta definição um tanto prolixa, tais medidas são bem simples 
e extremamente comuns, como veremos a seguir. 
 Dentre todas as medidas de posição, destacamos como as mais importantes, as medidas de tendência 
central ou promédias – estatísticas que visam localizar o centro de um conjunto de dados.1 
As medidas de tendência central mais utilizadas são: a média aritmética, a moda e a mediana.2 
Média aritmética: Definimos a média aritmética amostral (�̅�) como sendo simplesmente a razão 
entre a soma dos valores de todas as observações e a quantidade total destas observações que compõem a 
amostra. Formalmente, esta estatística pode ser obtida através da seguinte fórmula: 
 
�̅� =
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛
𝑛
= ∑
𝑥𝑖
𝑛
𝑛
𝑖=1
 
 
Quando do cálculo de algumas estatísticas, passa a ser relevante que venhamos a definir se estamos 
trabalhando com toda a população ou se apenas com uma amostra desta. Sendo a média a estatística em 
questão, quando do estudo de uma população e não de uma amostra, o que muda é apenas a letra que 
denota a média populacional aritmética (𝝁), apesar de 𝝁 e �̅� possuírem exatamente a mesma fórmula. 
Exemplo 3.1: Calcule o a receita operacional média e o lucro líquido médio da empresa XXX, com 
base na amostra de tempo durante 2003 a 2006. Compare estes valores. Ver Tabela 3.1., a seguir. 
 
Tabela 3.1. 
Indicadores financeiros selecionados da Empresa XXX (quadriêncio 2003 – 2006) 
Indicador 2003 2004 2005 2006 
Receita operacional bruta (R$