Baixe o app para aproveitar ainda mais
Prévia do material em texto
Análise Exploratória de Dados - Prof. Dr. Waldir Medri 1 ESTATÍSTICA 1 INTRODUÇÃO Desde a Antigüidade vários povos já registravam o número de habitantes, de nascimento, de óbitos, faziam estimativas das riquezas individual e social, distribuíam equitativamente terras ao povo, cobravam impostos e até realizavam inquéritos quantitativos por processos que, hoje, se chama de Estatística. A palavra “Estatística” vem de status, que significa em latim Estado. Com essa palavra faziam-se as descrições e dados relativos aos Estados, tornando a Estatística um meio de administração para os governantes. Mais recentemente se passou a falar em estatística em várias ciências de todas as áreas do conhecimento humano, onde pode definir a Estatística como “um conjunto de métodos e processos quantitativos que servem para estudar e medir os fenômenos coletivos”. Ao se estudar os fenômenos coletivos, o que interessa são os fatos que envolvem os elementos desses fenômenos, como eles se relacionam e qual o seu comportamento. Para que tal estudo possa acontecer com toda a seriedade que a ciência exige, é necessário que o levantamento seja feito através de uma pesquisa científica, sendo ela definida como a realização concreta de uma investigação planejada, desenvolvida e redigida de acordo com as normas de metodologia. A Estatística é muito mais do que a simples construção de gráficos e o cálculo de médias. As informações numéricas são obtidas com a finalidade de acumular informação para a tomada de decisão. Então, a estatística pode ser vista como um conjunto de técnicas para planejar experimentos, obter dados e organizá-los, resumi- los, analisá-los, interpretá-los e deles extrair conclusões. A informação de estatística é apresentada constantemente no rádio e na televisão, como por exemplo, a coleta de dados sobre nascimentos e mortes, a avaliação da eficiência de produtos comerciais e a previsão do tempo. As técnicas clássicas da estatística foram delineadas para serem as melhores possíveis sob rigorosas suposições. Entretanto, a experiência tem forçado os estudiosos a conhecer que as técnicas clássicas comportam-se mal quando situações práticas não apresentam o ideal descrito por tais suposições. O Laps & Notes Text Box 1 Análise Exploratória de Dados - Prof. Dr. Waldir Medri 2 desenvolvimento recente de métodos exploratórios robustos está aumentando a eficiência da análise estatística. Os bons profissionais de estatística têm sempre olhado com detalhes os dados antes de levantar suposições estatísticas e testes de hipóteses. Mas o uso indiscriminado de pacotes estatísticos computacionais, sem o exame cuidadoso dos dados profissionais da área, conduz, às vezes, a resultados aberrantes. A análise exploratória de dados nos fornece um extenso repertório de métodos para um estudo detalhado dos dados, antes de adaptá-los. Nessa abordagem, a finalidade é obter dos dados a maior quantidade possível de informação, que indique modelos plausíveis a serem utilizados numa fase posterior, a análise confirmatória de dados ou inferência estatística. 2 ÁREAS DA ESTATÍSTICA Se entender Estatística como a Ciência dos Dados, será de grande valia o domínio que seu corpo de conhecimento pode oferecer. Primeiramente, como ponto de partida, pode-se dividir a Estatística em duas áreas: • Descritiva • Inferencial (Indutiva) Obs. Alguns autores, como por exemplo, Marcos Nascimento Magalhães e Antonio Carlos Pedroso de Lima, dizem que a estatística, grosso modo, pode ser dividida em três áreas: Estatística descritiva; Probabilidade e Inferência estatística. 2.1 ESTATÍSTICA DESCRITIVA A Estatística Descritiva se preocupa com a organização, apresentação e sintetização de dados. Utilizam gráficos, tabelas e medidas descritivas como ferramentas. Utilizada na etapa inicial da análise, destinada a obter informações que indicam possíveis modelos a serem utilizados numa fase final que seria a chamada inferência estatística. Laps & Notes Text Box 2 Análise Exploratória de Dados - Prof. Dr. Waldir Medri 3 2.2 ESTATÍSTICA INFERENCIAL A Estatística Inferencial postula um conjunto de técnicas que permitem utilizar dados oriundos de uma amostra para generalizações sobre a população. Constitui esse conjunto de técnicas: a determinação do número de observações (tamanho da amostra); o esquema de seleção das unidades observacionais; o cálculo das medidas estatísticas; a determinação da confiança nas estimativas; a significância dos testes estatísticos; a precisão das estimativas; dentre outras. Essa generalização é feita a partir do processo de estimação das medidas estatísticas que podem ser calculadas, porém não sem antes se antecipar um grau de certeza de que a amostra esteja fornecendo os dados que seriam de se esperar caso toda a população fosse estudada. Nesse caso, o ramo da matemática que será utilizado para se avaliar tal grau de certeza é a probabilidade. Com ela teremos condições de mensurar a fidedignidade de cada inferência feita com base na amostra. Antes de começar a estudar os métodos estatísticos que permitirá analisar dados, sejam eles qualitativos ou quantitativos, é importante introduzir alguns conceitos preliminares a fim não apenas de dar nomes aos instrumentos, mas também adequar e equalizar a terminologia a ser utilizada ao longo do curso. Na terminologia estatística, o grande conjunto de dados que contém a característica que temos interesse recebe o nome de população. Esse termo refere- se não somente a uma coleção de indivíduos, mas também ao alvo sobre o qual reside nosso interesse. Assim, nossa população pode ser tanto todos os habitantes de Londrina como todas as lâmpadas produzidas por uma fábrica em certo período de tempo. Algumas vezes podemos acessar toda a população para estudarmos características de interesse, mas, em muitas situações, tal procedimento não pode ser realizado. Em geral, razões econômicas são determinantes dessas situações. Por exemplo, uma empresa, usualmente, não dispõe de verba suficiente para saber o que pensam todos os consumidores de seus produtos. Há ainda razões éticas, quando, por exemplo, os experimentos de laboratório que envolvem o uso de seres vivos. Além disso, existem casos em que a impossibilidade de se acessar toda a população de interesse é incontornável. Por exemplo, em um experimento para determinar o tempo de funcionamento das lâmpadas produzidas por uma indústria, não podemos observar toda a população de interesse. Laps & Notes Text Box 3 Análise Exploratória de Dados - Prof. Dr. Waldir Medri 4 Tendo em vista as dificuldades de várias naturezas para se observar todos os elementos da população, tomaremos alguns deles para formar um grupo a ser estudado. Este subconjunto da população, em geral com dimensão menor, é denominado amostra. 3 POPULAÇÃO E AMOSTRA 3.1 POPULAÇÃO População é o conjunto constituído por todos os indivíduos que representam pelo menos uma característica comum, cujo comportamento interessa analisar (inferir). Assim sendo, o objetivo das generalizações estatísticas está em dizer se algo acerca de diversas características da população estudada, com base em fatos conhecidos. 3.2 AMOSTRA Amostra pode ser definida como um subconjunto, uma parte selecionada da totalidade de observações abrangidas pela população, através da qual se faz inferência sobre as características da população. Uma amostra tem que ser representativa, a tomada de uma amostra bem como seu manuseio requer cuidados especiais para que os resultados não sejam distorcidos. • Parâmetro é uma medida numérica que descreve uma característica de uma população. São valores fixos, geralmente desconhecidos e usualmente representadospor caracteres gregos. Por exemplo, µ (média populacional), p (proporção populacional), σ (desvio-padrão populacional), σ2 (variância populacional). • Estatística é uma estatística numérica que descreve uma característica de uma amostra. Representada por caracteres latinos. Por exemplo, x (média amostral), pˆ (proporção amostral), s (desvio-padrão amostral), s2 (variância amostral). • Unidade Observável é a portadora da(s) característica(s), ou propriedade(s), que se deseja investigar. Laps & Notes Text Box 4 Resumão Estatística Básica VARIÁVEL CONTÍNUA: Resulta normalmente de uma mensuração, e a escala numérica de seus possíveis valores corresponde ao conjunto R dos números Reais, ou seja, podem assumir, teoricamente, qualquer valor entre dois limites. Ex.: Quando você vai medir a temperatura de seu corpo com um termômetro de mercúrio o que ocorre é o seguinte: O filete de mercúrio, ao dilatar-se, passará por todas as temperaturas intermediárias até chegar na temperatura atual do seu corpo. Exemplos - . Cor dos olhos das alunas: qualitativa . Índice de liquidez nas indústrias capixabas: quantitativa contínua . Produção de café no Brasil: quantitativa contínua . Número de defeitos em aparelhos de TV: quantitativa discreta . Comprimento dos pregos produzidos por uma empresa: quantitativa contínua . O ponto obtido em cada jogada de um dado: quantitativa discreta AMOSTRAGEM MÉTODOS PROBABILÍSTICOS Î Exige que cada elemento da população possua determinada probabilidade de ser selecionado. Normalmente possuem a mesma probabilidade. Assim, se N for o tamanho da população, a probabilidade de cada elemento ser selecionado será 1/N. Trata-se do método que garante cientificamente a aplicação das técnicas estatísticas de inferências. Somente com base em amostragens probabilísticas é que se podem realizar inferências ou induções sobre a população a partir do conhecimento da amostra. É uma técnica especial para recolher amostras, que garantem, tanto quanto possível, o acaso na escolha. . AMOSTRAGEM CASUAL ou ALEATÓRIA SIMPLES Î É o processo mais elementar e freqüentemente utilizado. É equivalente a um sorteio lotérico. Pode ser realizada numerando-se a população de 1 a n e sorteando-se, a seguir, por meio de um dispositivo aleatório qualquer, x números dessa seqüência, os quais corresponderão aos elementos pertencentes à amostra. Ex: Vamos obter uma amostra, de 10%, representativa para a pesquisa da estatura de 90 alunos de uma escola: 1º - numeramos os alunos de 1 a 90. 2º - escrevemos os números dos alunos, de 1 a 90, em pedaços iguais de papel, colocamos na urna e após mistura retiramos, um a um, nove números que formarão a amostra. OBS: quando o número de elementos da amostra é muito grande, esse tipo de sorteio torna-se muito trabalhoso. Neste caso utiliza-se uma Tabela de números aleatórios, construída de modo que os algarismos de 0 a 9 são distribuídos ao acaso nas linhas e colunas. . .AMOSTRAGEM PROPORCIONAL ESTRATIFICADA: 5 Î Quando a população se divide em estratos (sub-populações), convém que o sorteio dos elementos da amostra leve em consideração tais estratos, daí obtemos os elementos da amostra proporcional ao número de elementos desses estratos. Laps & Notes Text Box 5 Resumão Estatística Básica Ex: Vamos obter uma amostra proporcional estratificada, de 10%, do exemplo anterior, supondo, que, dos 90 alunos, 54 sejam meninos e 36 sejam meninas. São portanto dois estratos (sexo masculino e sexo feminino). Logo, temos: SEXO POPULACÃO 10 % AMOSTR A MASC. 54 5,4 5 FEMIN. 36 3,6 4 Total 90 9,0 9 Numeramos então os alunos de 01 a 90, sendo 01 a 54 meninos e 55 a 90, meninas e procedemos o sorteio casual com urna ou tabela de números aleatórios. . AMOSTRAGEM SISTEMÁTICA: Î Quando os elementos da população já se acham ordenados, não há necessidade de construir o sistema de referência. São exemplos os prontuários médicos de um hospital, os prédios de uma rua, etc. Nestes casos, a seleção dos elementos que constituirão a amostra pode ser feita por um sistema imposto pelo pesquisador. Ex: Suponhamos uma rua com 900 casas, das quais desejamos obter uma amostra formada por 50 casas para uma pesquisa de opinião. Podemos, neste caso, usar o seguinte procedimento: como 900/50 = 18, escolhemos por sorteio casual um número de 01 a 18, o qual indicaria o primeiro elemento sorteado para a amostra; os demais elementos seriam periodicamente considerados de 18 em 18. Assim, suponhamos que o número sorteado fosse 4 a amostra seria: 4ª casa, 22ª casa, 40ª casa, 58ª casa, 76ª casa, etc. AMOSTRAGEM POR CONGLOMERADOS (ou AGRUPAMENTOS) Î Algumas populações não permitem, ou tornam extremamente difícil que se identifiquem seus elementos. Não obstante isso, pode ser relativamente fácil identificar alguns subgrupos da população. Em tais casos, uma amostra aleatória simples desses subgrupos (conglomerados) pode se colhida, e uma contagem completa deve ser feita para o conglomerado sorteado. Agrupamentos típicos são quarteirões, famílias, organizações, agências, edifícios etc. Ex: Num levantamento da população de determinada cidade, podemos dispor do mapa indicando cada quarteirão e não dispor de uma relação atualizada dos seus moradores. Pode-se, então, colher uma amostra dos quarteirões e fazer a contagem completa de todos os que residem naqueles quarteirões sorteados. MÉTODOS NÃO PROBABILÍSITCOS Î São amostragens em que há uma escolha deliberada dos elementos da amostra. Não é possível generalizar os resultados das pesquisas para a população, pois as amostras não-probabilísticas não garantem a representatividade da população. AMOSTRAGEM ACIDENTAL Î Trata-se de uma amostra formada por aqueles elementos que vão aparecendo, que são possíveis de se obter até completar o número de elementos da amostra. Geralmente utilizada em pesquisas de opinião, em que os entrevistados são acidentalmente escolhidos. Ex: Pesquisas de opinião em praças públicas, ruas de grandes cidades; 6 Laps & Notes Text Box 6 Resumão Estatística Básica AMOSTRAGEM INTENCIONAL Î De acordo com determinado critério, é escolhido intencionalmente um grupo de elementos que irão compor a amostra. O investigador se dirige intencionalmente a grupos de elementos dos quais deseja saber a opinião. Ex: Numa pesquisa sobre preferência por determinado cosmético, o pesquisador se dirige a um grande salão de beleza e entrevista as pessoas que ali se encontram. AMOSTRAGEM POR QUOTAS Î Um dos métodos de amostragem mais comumente usados em levantamentos de mercado e em prévias eleitorais. Ele abrange três fases: 1ª - classificação da população em termos de propriedades que se sabe, ou presume, serem relevantes para a característica a ser estudada; 2ª - determinação da proporção da população para cada característica, com base na constituição conhecida, presumida ou estimada, da população; 3ª - fixação de quotas para cada entrevistador a quem tocará a responsabilidade de selecionar entrevistados, de modo que a amostra total observada ou entrevistada contenha a proporção e cada classe tal como determinada na 2ª fase. Ex: Numa pesquisa sobre o "trabalho das mulheres na atualidade", provavelmente se terá interesse em considerar: a divisão cidade e campo, a habitação, o número de filhos, a idade dos filhos, a renda média, as faixas etárias etc. A primeira tarefa é descobrir as proporções (porcentagens) dessas característicasna população. Imagina-se que haja 47% de homens e 53% de mulheres na população. Logo, uma amostra de 50 pessoas deverá ter 23 homens e 27 mulheres. Então o pesquisador receberá uma "quota" para entrevistar 27 mulheres. A consideração de várias categorias exigirá uma composição amostral que atenda ao n determinado e às proporções populacionais estipuladas. . SÉRIES ESTATÍSTICAS TABELA: É um quadro que resume um conjunto de dados dispostos segundo linhas e colunas de maneira sistemática. • De acordo com a Resolução 886 do IBGE, nas casas ou células da tabela devemos colocar : um traço horizontal ( - ) quando o valor é zero; três pontos ( ... ) quando não temos os dados; zero ( 0 ) quando o valor é muito pequeno para ser expresso pela unidade utilizada; um ponto de interrogação ( ? ) quando temos dúvida quanto à exatidão de determinado valor. Obs: O lado direito e esquerdo de uma tabela oficial deve ser aberto.. SÉRIE ESTATÍSTICA: É qualquer tabela que apresenta a distribuição de um conjunto de dados estatísticos em função da época, do local ou da espécie. 7 Laps & Notes Rectangle Laps & Notes Text Box 7 Análise Exploratória de Dados - Prof. Dr. Waldir Medri 5 A seleção da amostra pode ser feita de várias maneiras, dependendo, entre outros fatores, do grau de conhecimento que temos da população, da quantidade de recursos disponíveis a assim por diante. Cabe ressaltar que este item será apresentado mais para frente. 4 VARIÁVEIS Ao se fazer um estudo estatístico de um determinado fato ou grupo, tem-se que considerar o tipo de variável. Pode ter variáveis qualitativas ou variáveis quantitativas. 4.1 VARIÁVEIS QUALITATIVAS Variáveis qualitativas são aquelas em que a variável assume “valores” em categorias, classes ou rótulos. São, portanto, por natureza, dados não numéricos. Apesar de ser considerada de baixo nível de mensuração, do ponto de vista da aplicação de instrumental estatístico, a variável qualitativa oferece um vasto espectro de aplicação nas ciências sociais e do comportamento. Variáveis qualitativas denotam características individuais das unidades sob análise, tais como sexo, estado civil, naturalidade, raça, grau de instrução, dentre outras, permitindo estratificar as unidades para serem analisadas de acordo com outras variáveis. 4.2 VARIÁVEIS QUANTITATIVAS Variáveis quantitativas são aquelas expressas pelas variáveis com níveis de mensuração intervalar ou de razão. Ou seja, são aqueles nas quais as variáveis assumem valores numa escala métrica definida por uma origem e uma unidade, por exemplo: idade, salário, peso, etc. As variáveis qualitativas podem ser, também, classificadas como nominal e ordinal. Por outro lado, as variáveis quantitativas podem ser classificadas como discretas, quando assumem um número finito de valores, ou contínuas, quando assume um número infinito de valores, geralmente em intervalos, como apresentam na Tabela 1. Laps & Notes Text Box 8 Análise Exploratória de Dados - Prof. Dr. Waldir Medri 6 Tabela 1: Classificação das variáveis qualitativas e quantitativas Variáveis Tipos Descrição Exemplos Nominal Não existe nenhuma ordenação Cor dos olhos, sexo, estado civil, tipo sangüíneo. Qualitativas ou Categóricas Ordinal Existe uma ordenação I, II, III Nível de escolaridade, estágio da doença, colocação de concurso. Discretas Valor pertence a um conjunto enumerável Número de filhos por casal, quantidade de leitos Quantitativas Contínuas Quando o valor pertence a um intervalo real Medidas de altura e peso, taxa de glicose, nível de colesterol. Em algumas situações podem-se atribuir valores numéricos às várias qualidades ou atributos e depois proceder à análise como esta variável como se fosse quantitativa, desde que o procedimento seja passível de interpretação. Uma vez obtidos os dados referentes às variáveis qualitativas, a tarefa seguinte é representá-los através de uma tabela e de um gráfico. Posteriormente, poderá ser útil calcular as frequências, simples, acumuladas e as relativas. Para os dados quantitativos, quando o número de observações cresce e os valores são diferenciados entre si, há que se representá-los de modo resumido. Para isso a melhor forma de representação tabular é através de distribuições de frequência por classes de valores. Como exemplo: Suponha que um médico está interessado em fazer um levantamento sobre algumas características de pacientes atendidos em sua clínica neurológica: sexo peso, tipo de tratamento, número de convulsões e classificação da doença (leve, moderada e severa). Os dados podem ser organizados em uma tabela. Usualmente os indivíduos são representados nas linhas e as variáveis nas colunas. Este formato é utilizado pela maioria do programas computacionais. Note através da Tabela 2 que cada indivíduo é uma unidade de observação na qual são feitas várias medidas e/ou anotados vários atributos, referentes às variáveis. Laps & Notes Text Box 9 10 Para resumir as informações levantadas durante uma pesquisa usaremos a técnica e a representação mais apropriada, a depender do tipo de variável que estamos analisando. 2.4 Apresentação dos Dados 2.4.1 Séries Estatísticas Quando realizamos um levantamento de dados sobre um fenômeno ou variável, o que obtemos como resultado é chamado de série estatística. O modo de condensação ou apresentação das informações pode ser na forma de tabelas ou de gráficos que facilitam a visualização do fenômeno, permitem a comparação com outros elementos ou, ainda, fazer previsões. Para fazermos a diferenciação de uma série estatística para outra, devemos levar em consideração os elementos que a compõe: • A época (fator temporal ou cronológico) a que se refere o fenômeno observado; • O local (fator espacial ou geográfico) onde o fenômeno acontece; • O fenômeno (espécie do fato ou fator especificativo) que é descrito. TABELA: É um quadro que resume um conjunto de dados dispostos segundo linhas e colunas de maneira sistemática. Corpo Ö Fonte: De acordo com a Resolução 886/66 do IBGE, nas casas ou células da tabela devemos colocar: • um traço horizontal ( - ) quando o valor é zero; • três pontos ( ... ) quando não temos os dados; • zero ( 0 ) quando o valor é muito pequeno para ser expresso pela unidade utilizada; • um ponto de interrogação ( ? ) quando temos dúvida quanto à exatidão de determinado valor. Obs: O lado direito e esquerdo de uma tabela oficial deve ser aberto. Uma tabela e mesmo um gráfico devem apresentar o título; o corpo; e o rodapé. O título deve conter o suficiente para que sejam respondidas as seguintes questões: • O quê? (referente ao fato); • Onde? (relativo ao lugar); • Quando?(corresponde à época) O corpo é representado por colunas e subcolunas dentro das quais serão registrados os dados numéricos e informações. O rodapé é reservado para as observações pertinentes, bem como a identificação da fonte dos dados. TÍTULO Variação Freqüência Laps & Notes Rectangle 11 PRODUÇAO DE CAFÉ Título BRASIL 1991-1995 (Conjunto de informações respondendo as perguntas: O que?, Quando?, Onde?) Fonte: IBGERodapé Conforme varie um dos elementos da série, podemos classificá-la em temporal, geográfica e específica respectivamente. a) Série histórica, cronológica ou temporal: Identifica-se pelo caráter variável do fator cronológico. O local e a variável (fenômeno) são elementos fixos. Esta série também é chamada de histórica ou evolutiva. Evolução da demanda de vestibulandos para o 3º grau- Brasil Fonte: Ministério da Educação b) Série geográfica, espacial ou de localização: Apresenta como elemento variável o fator geográfico. A época e o fato (espécie) são elementos fixos. Também é chamada de espacial, territorial ou de localização. População dos países que formam o MERCOSUL-1992 Fonte: IBGE ANOS PRODUÇÃO (1.000 t) 1991 2.535 1992 2.666 1993 2.122 1994 3.750 1995 2.007 EPECIFICA O CONTEÚDO DA COLUNA EPECIFICA O CONTEÚDO DA COLUNA INDICA O CONTEÚDO DAS LINHAS (variáveis) VALORES (n° de dados coletados das variáveis) Anos Quantidade 1980 1.803.567 1982 1.735.457 1983 1.689.249 Países População Brasil 147.000.000 Argentina 32.300.000 Uruguai 3.100.000 Paraguai 4.300.000 Total 186.700.000 12 b) Série específica ou categórica: O caráter variável é apenas o fato ou espécie. Também é chamada de série categórica. Produção Agrícola no Brasil – 1974 Fonte: Revista Comércio e Mercado, março/76 * Séries conjugadas, tabela de dupla entrada (Tabela cruzada): Também chamadas de tabelas de dupla entrada. São apropriadas à apresentação de duas ou mais séries de maneira conjugada, havendo duas ordens de classificação: uma horizontal e outra vertical. Desembarque mensal de Camarão na Região Estuarina da Lagoa dos Patos/R.S. – 1994-1996 Fonte: IBAMA Exercícios: 1. Classifique as séries estatísticas em temporal ou histórica, geográfica, específica ou conjugada: a) ...................................................... b) ............................................................. Temperatura no Campo Inflação no Brasil (Índice Geral de Preços) Período de 04 a 10 de dezembro de 2000 Período 1977 - 1983 Fonte: Instituto Agronômico de Campinas (IAC). Fonte: Ipea, 1983 Especificação Produção em 1.000 t. Cacau 165 Café 3220 Fumo em folha 304 Quantidade Ano Fevereiro Março Abril 1994 96,8 120,3 9,1 1995 308,2 1164,2 1012,7 1996 562,3 1332,9 746,9 Ano Taxa inflacionária (em %) 1997 38,8 1978 40,8 1979 77,2 1980 110,2 1981 95,2 1982 99,7 1983 211,0 Cidades Temperatura média °C Adamantina 26,9 Assis 24,3 Campinas 24,2 Jaú 25,3 Mococa 25,1 Ribeirão Preto 25,3 13 c) ............................................................. d) ................................................................... Países mais Populosos do Mundo Avicultura brasileira Ano – 1999 Ano - 1992 Fonte: IBGE Fonte: IBGE e) ................................................................... f) ............................................................ Exportação Brasileira Evolução do Preço do Barril de Petróleo 1985-1990-1995 Período: Novembro de 2000 Fonte: MIC e SECEX Fonte: Bradcast. g) ...................................................................... Os Números do País Período: 1992-1999 Fonte: IBGE Correspondência entre as séries estatísticas e a representação gráfica TIPO DE SÉRIE ESTATÍSTICA FATOR VARIANTE GRÁFICO MAIS INDICADO Temporal Época Curvas, excepcionalmente Colunas Especificativas Fenômeno Barras, Colunas ou Setores Geográficas Local Cartogramas, Colunas, Barras ou Setores Distribuição de freqüências Intensidade do fenômeno Histograma (contínua), Bastão (discreta), Barras, Colunas ou Setores (qualitativa ) Países População (em milhões) China 1.280 Ìndia 1.010 EUA 275 Indonésia 225 Brasil 170 Espécies Número (em milhões) Galinhas 204.160 Galos, Frangos (as) e pintos 435.465 Codornas 2.488 Importadores 1985 % 1990 % 1995 % América Latina 13,0 13,4 25,6 EUA 28,2 26,3 22,2 Europa 33,9 35,2 20,7 Ásia e Oceania 10,9 17,7 15,4 África e Oriente Médio 14,0 8,8 5,5 Dia Preço Médio ( US$) 1º 30,51 14 33,17 29 32,68 Variável 1992 1999 Taxa de mortalidade infantil 44,4% 34,6% Proporção de pessoas com 60 anos ou mais 7,9% 9,1% Taxa de analfabetismo (acima de 15 anos) 17,2% 13,3% Índice de escolarização (crianças de 7 a 14 anos) 86,6% 95,7% 14 2.4.2 Distribuição de freqüências Neste tipo de série estatística o tempo, o local e o fenômeno permanecem fixos. O fenômeno considerado é uma variável qualitativa ou quantitativa (discreta ou contínua) e seus valores observados são descritos considerando o número de vezes que ocorreram na série (freqüência). Algumas definições: Tabela primitiva ou dados brutos: É uma tabela ou relação de elementos que não foram numericamente organizados. É difícil formarmos uma idéia exata do comportamento do grupo como um todo, a partir de dados não ordenados. Freqüência simples absoluta: é o número de ocorrências ou repetições de um valor individual ou um intervalo de valores. Notação: Fi Freqüência simples relativa: é a razão entre a freqüência simples absoluta e o número total de dados (soma de todas as freqüências simples absolutas). Notação: fri Freqüência Acumulada: é a soma da freqüência da classe e de todas as classes que a antecedem. Agora vamos exemplificar distribuições de freqüência e suas respectivas tabelas para cada tipo de variável. Notação: Faci 1ª) Dados qualitativos Os dados qualitativos obtidos em uma pesquisa podem ser organizados em formas de tabelas para facilitar a visualização e análise dos dados. Exemplo: Considere as respostas de 30 pessoas que foram entrevistadas sobre as bebidas preferidas durante a refeição. Os resultados foram os seguintes: Água Suco Refrigerante Suco Suco Cerveja Suco Refrigerante Suco Água Refrigerante Água Água Refrigerante Outras Suco Suco Suco Suco Outras Refrigerante Suco Refrigerante Outras Refrigerante Suco Refrigerante Cerveja Refrigerante Suco Tabela de Freqüências Bebida preferida Freqüência simples absoluta Freqüência simples acumulada Freqüência simples relativa Água Cerveja Refrigerante Suco Outras Total Fonte: Dados fictícios 15 2ª) Dados quantitativos discretos Exemplo 4: Foi observado o número de defeitos apresentados por uma máquina industrial durante o período de 30 dias. Os resultados foram os seguintes: Distribuição de freqüência sem intervalos de classe:É a simples condensação dos dados conforme as repetições de seus valores. Tabela de Freqüência Simples De forma genérica temos: Exercícios: 1) Abaixo temos o quadro que compõe os dados brutos. Tempo de produção, em horas diárias, de óleo de soja, em várias indústrias. 6 10 9 8 7 4 9 11 5 7 8 10 8 5 9 7 11 8 9 10 9 11 8 6 7 8 10 8 7 8 11 6 10 11 10 10 9 4 9 8 8 11 4 10 7 6 9 8 10 5 10 9 8 8 6 7 8 6 10 11 a) Organize os dados em ordem crescente (Rol): 1 1 1 0 1 1 1 1 1 2 0 1 2 2 1 0 2 1 3 1 0 1 1 4 1 0 3 1 0 1 Número de defeitos Freqüência simples absoluta 0 6 1 17 2 4 3 2 4 1 Total 30 Onde: i = Posição que cada variável ocupa Xi = Variável Σ = Somatório Fi = Freqüência das variáveis Σ Fi = Somatório de todas as freqüências n = Quantidade de valores da amostra N = Quantidade de valores da população Σ Fi = n → Tamanho da amostra i Xi Fi 1 2 3 . . . K X1 X2 X3 . . . XK F1 F2 F3 . . . FK Σ Σ Fi = n 16 b) Monte uma distribuição de freqüências simples, para o tempo de produção, em horas diárias, de óleo de soja, das várias indústrias. c) Responda: 1) Quantas indústrias foram investigadas?__________________ 2) Qual a menor tempo de produção registrado?_______________ 3) Qual a maior tempo de produção registrado? ________________ 4) Qual o tempo de produção diária que detém o maior número de indústrias? _____________ 5) Identifique: X2 = _______ F5 = _______ Σ Fi = _______ X8 = _____ n = _______ F7 = _______ 3 ª) Dados quantitativos contínuos: Para um certo conjunto de dados, vamos adotar a seguinte nomenclatura: 1. Máximo (max): maior valor do conjunto. 2. Mínimo (min): menor valor do conjunto. 3. Amplitude total (AT): é a diferença entre o valor máximo e mínimo. AT = MAX – MIN 4. Classe: é cada um dos intervalos em que se subdivide a amplitude total 5. Representação: k = número de classes 6. Limite superior (Li): é a cota superior para os valores da classe. 7. Limite inferior ( li): é a cota inferior para os valores da classe. 8. Amplitude do intervalo de classe ( hi ): é o comprimento da classe, definida como a diferença entre o limite superior e inferior. Determinação do número de classes e amplitude do intervalo de classes: Não existem regras gerais, universalmente aceitas, para a determinação do número de classes. Existem, no entanto, algumas regras propostas por diferentes autores, que dão idéia aproximada do número de classes em função do número de dados. Um dos métodos utilizado é chamado de regra de Sturges ou regra do logaritmo. Ele estabelece que onde k é o número de classes e n é o número de dados. Uma vez encontrado o número de classes, determina-se a amplitude do intervalo de classes através da fórmula: Tempo (horas) Nº de indústrias Total . k ATh = ,log3,31 10 nk +≅ 17 Ex.: Estaturas dos alunos de Probabilidade e Estatística. Aplicada.à Administração Turma “A” – 2001 166 160 161 150 162 160 165 167 164 160 162 161 168 163 156 173 160 155 164 168 155 152 163 160 155 155 169 151 170 164 154 161 156 172 153 157 156 158 158 161 Rol: É a tabela obtida após a ordenação dos dados (crescente ou decrescente). Ex.: Estaturas dos alunos - Turma “A” – 2001 (Rol em ordem crescente) 150 154 155 157 160 161 162 164 166 169 151 155 156 158 160 161 162 164 167 170 152 155 156 158 160 161 163 164 168 172 153 155 156 160 160 161 163 165 168 173 Distribuição de freqüência com intervalos de classe: Quando o tamanho da amostra é elevado e o número de variáveis é muito grande (acima de 12 valores diferentes), é mais racional efetuar o agrupamento dos valores em vários intervalos de classe. • Ponto médio de classe: é o ponto que divide o intervalo de classe em duas partes iguais. Ex: em 158├— 162 o ponto médio x3 = (158 + 162)/2 = 160, ou seja x3 = (l3 + L3) / 2. MÉTODO PRÁTICO PARA CONSTRUÇÃO DE UMA DISTRIBUIÇÃO DE FREQÜÊNCIAS COM CLASSE: 1ª passo: Ordenar os dados brutos em ordem crescente, indicando a freqüência simples de cada elemento. 2º passo: Determinar a amplitude amostral ou total e o número de intervalos de classe. AT = Vmáx – Vmín → AT = 173 – 150 = 23 Estaturas (cm) Freqüência 150├— 154 4 154├— 158 9 158├— 162 11 162├— 166 8 166├— 170 5 170├— 174 3 Total 40 Classes l i ├── Li Fi (Freqüência absoluta) Xi = 2 ii Ll + (Ponto Médio) l 1├── L1 F1 X1 l 2├── L2 F2 X2 l 3├── L3 . . . F3 . . . X3 . . . l K ├── LK FK XK Σ Σ Fi = n 18 Número de intervalos de classe (Regra de Sturges) K = 1 + 3,22 log n onde K Ö número de classes n Ö número total de observações No nosso exemplo: n = 40 dados, então , a princípio, a regra sugere a adoção de 6 classes. K = 6 (Consultar Tabela de sugestão abaixo) 3º passo: Determinar a amplitude do intervalo de classe. *** O arredondamento será feito pelo valor mais próximo. h = K AT = 23/6.= 3,8 Utilizaremos então h = 4 Obs. h > K AT (h deve ser um valor ligeiramente superior para haver folga na última classe). 4º passo: Devemos escolher os limites de classe e o intervalo de classe. Temos então: • o menor nº da amostra = 150 • o nº de classes = 6 • a amplitude do intervalo h = 4. Podemos montar a tabela. No nosso exemplo: o menor nº da amostra = 150 + h = 154, logo a primeira classe será representada por 150├— 154. As classes seguintes respeitarão o mesmo procedimento. O primeiro elemento das classes seguintes sempre será formado pelo último elemento da classe anterior. Na tabela anterior k = 6 e 158├— 162 é a 3ª classe, onde i = 3. Limites de classe: são os extremos de cada classe. O menor número é o limite inferior de classe (li) e o maior número, limite superior de classe (Li). Ex: em 158├— 162. l3 = 158 e L3= 162. O símbolo ├— representa um intervalo fechado à esquerda e aberto à direita. O dado 162 do ROL não pertence a classe 3 e sim a classe 4 representada por 162├— 166. Obs: Quando o último valor coincide com o limite superior da última classe, então o intervalo desta classe é fechado nos extremos. liK |——| LiK Tabela de sugestão para o número de classe pela regra de “Sturges” Obs: Qualquer regra para determinação do nº de classes da tabela não nos leva a uma decisão final; esta vai depender, na realidade de um julgamento pessoal, que deve estar ligado à natureza dos dados. n = casos observados K = nº de classes a usar 47 |——| 90 7 91 |——| 181 8 182 |——| 362 9 363 |——|724 10 725 |——|1448 11 1.449 |——|2.896 12 .... ... n = casos observados k = nº de classes a usar 1 1 2 2 3 |——| 5 3 6 |——| 11 4 12 |——| 22 5 23 |——| 46 6 23 d) o ponto médio da sétima classe; e) a amplitude do intervalo da segunda classe; f) a freqüência da quarta classe; g) a freqüência relativa da sexta classe; h) a freqüência acumulada da quinta classe; i) o nº de lotes cuja área não atinge 700 m2; j) o nº de lotes cuja área atinge e ultrapassa 800 m2; k) a percentagemdos lotes cuja área não atinge 600 m2; l) a percentagem de lotes cuja área seja maior ou igual a 900 m2; m) a percentagem de lotes cuja área é de 500 m2, no mínimo, mas inferior a 1.000 m2; n) a classe do 72º lote; o) até que classe estão incluídos 60% dos lotes. GRÁFICOS ESTATÍSTICOS Os principais tipos de gráficos são: os diagramas, os cartogramas e os pictogramas. - Diagramas: são gráficos geométricos de, no máximo, duas dimensões, e para sua construção, em geral, faremos uso do sistema cartesiano. - Cartograma: é a representação sobre uma carta geográfica. - Pictograma: apresentação de uma série estatística por meio de símbolos representativos do fenômeno. Entre os principais tipos de diagramas podemos destacar: Gráfico em colunas: é representado por retângulos dispostos verticalmente. Os retângulos tem a mesma base e as alturas são proporcionais aos respectivos dados. São utilizados quando as legendas forem curtas. Embora possam representar qualquer série estatística, geralmente são empregados para representar as séries específicas. TABELA 1-Produção Brasileira de Carvão Mineral Bruto Período de 1989-1997 O gráfico estatístico é uma outra forma de apresentação dos dados estatísticos, cujo objetivo é o de produzir, ao público em geral, uma percepção rápida do fenômeno em estudo. A representação gráfica de um fenômeno deve obedecer a certos requisitos fundamentais, para ser realmente útil: - simplicidade Ö o gráfico deve ser destituído de detalhes e traços desnecessários; - clareza Ö o gráfico deve possuir uma correta interpretação dos valores representativos do fenômeno em estudo; - veracidadeÖ o gráfico deve expressar a verdade sobre o fenômeno em estudo. Anos Quantidade Produzida (1.000 t) 1989 18.196 1990 11.168 1991 10.468 1992 9.241 Laps & Notes Rectangle Laps & Notes Text Box 19 24 Fonte: Ministério da Agricultura GRÁFICO 1-Produção Brasileira de Carvão Mineral Bruto Período de 1989-1997 0 5.000 10.000 15.000 20.000 1989 1990 1991 1992 Anos M il to ne la da s Fonte: Ministério da Agricultura Gráfico em barras: é representado por retângulos dispostos horizontalmente, prevalecendo os mesmos critérios adotados na elaboração de gráfico em coluna, sendo usado quando a legenda for extensa. TABELA 2- Exportações Brasileiras Março – 1995 Fonte: SECEX GRÁFICO 2- Exportações Brasileiras Março-1995 0 200 400 600 800 1.000 1.200 1.400 1.600 São Paulo Minas Gerais Rio Grande do Sul Espírito Santo Paraná Santa Catarina Estados Milhões de dólares Fonte: SECEX Gráfico em linha ou curva: este tipo de gráfico é utilizado para representar fenômenos contínuos, como por exemplo, no caso das séries temporais. As linhas são mais eficientes do que as colunas, Estados Valor (US$ milhões) São Paulo 1.344 Minas Gerais 542 Rio Grande do Sul 332 Espírito Santo 285 Paraná 250 Santa Catarina 202 Laps & Notes Text Box 20 25 quando existem intensas flutuações (tendências de aumento ou diminuições) nos valores numéricos de uma dada informação. TABELA 3-Inflação no Brasil (Índice Geral de Preços) Período 1977 - 1983 Fonte: Ipea, 1983 GRÁFICO 3-Inflação no Brasil (Índice Geral de Preços) Período 1977 – 1983 0 50 100 150 200 250 1977 1978 1979 1980 1981 1982 1983 Ano Ta xa in fla ci on ár ia % Fonte: Ipea, 1983 Gráfico em colunas múltiplas TABELA 4- Balança Comercial do Brasil Período de 1989 a 1993 Fonte: Ministério da Fazenda GRÁFICO 4. 1- Balança Comercial do Brasil Período de 1989 a 1993 Ano Taxa inflacionária (em %) 1977 38,8 1978 40,8 1979 77,2 1980 110,2 1981 95,2 1982 99,7 1983 211,0 Valor (US$ 1.000.000) Especificações 1989 1990 1991 1992 1993 Exportação 34.383 31.414 31.620 35.793 38.783 Importação 18.263 20.041 21.041 20.554 25.711 Laps & Notes Text Box 21 26 0 5.000 10.000 15.000 20.000 25.000 30.000 35.000 40.000 1989 1990 1991 1992 1993 U S $ m ilh ão Exportação Importação Fonte: Ministério da Fazenda Gráfico em linhas múltiplas: GRÁFICO 4.2 - Balança Comercial do Brasil Período de 1989 a 1993 0 5.000 10.000 15.000 20.000 25.000 30.000 35.000 40.000 1989 1990 1991 1992 1993 Ano M ilh õe s de U S$ Exportação Importação Fonte: Ministério da Fazenda Gráfico de setores: Tem por finalidade comparar a parte com o todo. O total é representado pelo círculo que fica dividido em tantos setores quantas são as partes. São utilizados para representar séries estatísticas geográficas, temporais e específicas. Os setores são tais que suas áreas são respectivamente proporcionais aos dados da série. Obtemos cada setor por meio de uma regra de três simples e direta, lembrando que o total da série corresponde a 360º. O gráfico em setores só deve ser empregado quando há, no máximo, sete dados. TABELA 5- Levantamento Demográfico Censo 2000 Fonte:IBGE Sexo Nº de Habitantes Homens 83.423.553 Mulheres 86.120.890 População total 169.544.443 Laps & Notes Text Box 22 27 169.544.443 360° 169.544.443 360° 83.423.553 X 86.120.890 Y X = 177° (corresponde 49%) Y = 183° (corresponde a 51%) GRÁFICO 5- Levantamento Demográfico Censo 2000 49% 51% Homens Mulheres Fonte:IBGE Histograma Este gráfico é utilizado para dados agrupados em intervalos de classes. No caso de classes de mesma amplitude, é construído um retângulo para cada classe, com base igual à amplitude do intervalo classe e altura proporcional a freqüência da classe. Neste caso, altura ~ freqüência (absoluta ou relativa) Estaturas dos alunos da Turma “A” – 2001 4 9 11 8 5 3 0 2 4 6 8 10 12 150 I— 154 I— 158 I— 162 I— 166 I— 170 I— 174 Estatura em cm N º d e al un os Fonte: Fictícia Polígono de freqüência: é um gráfico em linha, sendo as freqüências marcadas sobre perpendiculares ao eixo horizontal, levantadas pelo ponto médio dos intervalos de classe. Para realmente obtermos um polígono (linha fechada), devemos completar a figura, ligando os extremos da linha obtida aos pontos médios da classe anterior à primeira e da posterior à última, da distribuição. Estaturas dos alunos da Turma “A” – 2001 0 5 10 15 150 a 154 154 a 158 158 a 162 162 a 166 166 a 170 170 a 174 Estatura em cm N º d e al un os Laps & Notes Text Box 23 Análise Exploratória de Dados - Prof. Dr. Waldir Medri 30 6 MEDIDAS ESTATÍSTICAS Além da construção de tabelas e gráficos, a análise exploratória de dados, consiste também de cálculos de medidas estatísticas que resumem as informações obtidas dando uma visão global dos dados. Essasmedidas, também conhecidas como medidas descritivas, recebem o nome genérico de estatísticas quando calculada com os dados da amostra, e de parâmetros quando calculadas com dados populacionais. Dentre as medidas estatísticas as mais utilizadas são as de tendência central (ou de posição) e as de dispersão (ou de variabilidade). Destacam-se, ainda, as separatrizes, as assimetrias e os box plot. 6.1 MEDIDAS TENDÊNCIA CENTRAL (POSIÇÃO) As medidas de tendência central são aquelas que produzem um valor em torno do qual os dados observados se distribuem, e que visam sintetizar em um único número o conjunto de dados. As medidas de tendência central são: média aritmética, mediana e moda. 6.1.1 Média Uma das medidas estatísticas mais utilizadas na representação de uma distribuição de dados é a média aritmética, na sua forma simples, ou ponderada. No primeiro caso divide-se a soma de todos os valores da série pelo número de observações, enquanto no segundo, mais utilizado em distribuições de frequências, os valores são ponderados pelas frequências com que ocorrem e depois dividem-se pelo total das frequências (este segundo caso será visto em distribuição de frequências): Simples: n x n xxxX i n in 121 .... = Σ = +++ = ou simplesmente n x X i∑= Exemplo: Foram levantados os diâmetros de 10 peças (cm) da Empresa AA Ltda. As medidas foram as seguintes: 13,1 – 13,5 – 13,9 – 13,3 – 13,7 – 13,1 – 13,1 – 13,7 – 13,2 – 13,5. Portanto, diâmetro médio é 13,41 cm. Laps & Notes Text Box 24 Análise Exploratória de Dados - Prof. Dr. Waldir Medri 31 A média aritmética possui algumas propriedades desejáveis e não desejáveis e são as seguintes: i. Unicidade. Para um conjunto de dados existe somente uma média aritmética. ii. Simplicidade. A média aritmética é fácil de ser interpretada e de ser calculada. iii. Todos os valores entram para o cálculo da média aritmética, porém, os valores extremos afetam no valor calculado, e em alguns casos pode haver uma grande distorção, tornando, neste caso, a média aritmética indesejável como medida de tendência central. Como a média é influenciada por valores extremos da distribuição, ela só deve ser utilizada em distribuições simétricas, ou levemente assimétricas, e em distribuições não heterogêneas. Sua aplicação nos dois casos acima é precária e de pouca utilidade prática, pois perde sentido prático e capacidade de representar a distribuição que a originou. Também nos casos de série em que o fenômeno tem uma evolução não linear, como as séries de valores financeiros no tempo, de acordo com uma capitalização composta, a média mais recomendada seria a geométrica. Finalmente, não se recomenda à aplicação da média aritmética nas séries cujos valores representem relações recíprocas, como por exemplo, velocidades, expressas através da relação entre o espaço e o tempo. Neste último caso recomenda-se a utilização da média harmônica. 6.1.2 Mediana A mediana é o valor que ocupa a posição central de um conjunto de valores ordenados, ou seja, medida divide a distribuição de valores em duas partes iguais: 50% acima e 50% abaixo do seu valor. Quando o conjunto possui quantidade par de valores, há dois valores centrais, neste caso, a mediana é o valor médio dos dois valores centrais do conjunto de dados ordenados. Exemplo: Com os dados do exemplo anterior, calcular a mediana. 13,1 – 13,1 – 13,1 – 13,2 – 13,3 – 13,5 – 13,5 – 13,7 – 13,7 – 13,8 Nesta série tem-se número par de observações logo, têm-se dois valores centrais e são 13,3 e 13,5. Logo, a mediana é 13,4 cm. Laps & Notes Text Box 25 Análise Exploratória de Dados - Prof. Dr. Waldir Medri 32 Suponha, neste mesmo exemplo que se acrescente o valor 14,0 tornando um rol de número ímpar, 13,1 – 13,1 – 13,1 – 13,2 – 13,3 – 13,5 – 13,5 – 13,7 – 13,7 – 13,8 – 14,0 Neste caso, a série possui apenas um valor central logo, a mediana é igual a 13,5 cm. Propriedades da mediana i. Unicidade. Existe somente uma mediana para um conjunto de dados. ii. Simplicidade. A mediana é fácil de ser calculada. iii. A mediana não é tão afetada pelos valores extremos como a média aritmética, por isso, se diz que a mediana é uma medida robusta. Conceito de resistência de uma medida Diz-se que uma medida de centralidade ou de dispersão é resistente quando ela é pouco afetada pela presença de observações discrepantes. Entre as medidas de centralidade, a média é bem menos resistente que a mediana. Por outro lado, entre as medidas de dispersão, o desvio padrão é bem menos resistente do que o desvio inter-quartílico. 6.1.3 Moda Moda de um conjunto de valores é o valor que ocorre com maior frequência, sua aplicação não depende do nível de mensuração da variável, sendo aplicada tanto a fenômenos qualitativos quanto quantitativos. Se todos os valores forem diferentes não há moda, por outro lado, um conjunto pode ter mais do que uma moda: bimodal, trimodal ou multimodal. Exemplo: Para os dados dos exemplos anteriores a moda é igual a 13,1 cm. A moda pode ser utilizada para descrever dados qualitativos. Por exemplo, suponha que os pacientes vistos em uma clínica de saúde mental durante um determinado ano receberam um dos seguintes diagnósticos: retardo mental, psicose, Laps & Notes Text Box 26 Análise Exploratória de Dados - Prof. Dr. Waldir Medri 33 neurose e mudança de personalidade. O diagnóstico que ocorre com maior frequência no grupo de pacientes pode ser chamado de diagnóstico modal. 6.2 MEDIDAS DE DISPERSÃO A dispersão de conjunto de dados é a variabilidade que os dados apresentam entre si. Se todos os valores forem iguais, não há dispersão; se os dados não são iguais, existe dispersão entre os dados. A dispersão é pequena quando os valores são próximos uns dos outros. Se os valores são muito diferentes entre si, a dispersão é grande, assim, as medidas de dispersão apresentam o grau de agregação dos dados. Veja como exemplo a Tabela 14. Tabela 14: Valores das séries A, B e C Repetição Série A Série B Série C 1 45 41 25 2 45 42 30 3 45 43 35 4 45 44 40 5 45 45 45 6 45 46 50 7 45 47 55 8 45 48 60 9 45 49 65 Média 45 45 45 Mediana 45 45 45 Nota-se que a série “A” não apresenta dispersão, já os valores da série “B” apresentam certa dispersão em torno da média 45, e os valores da série “C” apresentam uma dispersão em torno da média e maior do que a da série B. As medidas descritivas mais comuns para quantificar a dispersão são: amplitude, desvio médio, variância, desvio-padrão e coeficiente de variação. 6.2.1 Amplitude Uma maneira de medir a variação em um conjunto de valores é calcular a amplitude. A amplitude é a diferença entre o maior e o menor valor de um conjunto de observações. At = no maior – no menor Laps & Notes Text Box 27 Análise Exploratória de Dados - Prof. Dr. Waldir Medri 34 Exemplo: Determinar amplitude total da série: A, B e C. A utilidade da amplitude total como medida de dispersão é muito limitada, pois depende apenas dos valores extremos. A maior vantagem em usá-la é a simplicidade do seu cálculo. 6.2.2 Desvio Médio Uma vez que se deseja medir a dispersão ou grau de concentração dos valores em torno da média, nada mais interessante do que analisar o comportamento dos desvios de cada valor em relação à média, isto é: )( xxd ii −= Porém, para qualquer conjunto de dados, a soma de todos os desvios é igual a zero, isto é: 0)( =−= ∑∑ xxd ii Neste caso, considera-se o módulo de cada desvio xxi − , evitando com isso que 0=∑ id . Dessa forma, o desvio de um conjunto de n valores é dado por:n xx DM n i i∑ = − = 1 Exemplo: Determinar desvio médio da série B. 6.2.3 Variância Embora o desvio médio seja uma medida melhor do que a Amplitude, ainda não é uma medida ideal, pois não discrimina pequenos dos grandes afastamentos em relação à média. Se para eliminar o problema dos sinais, ao invés de considerarmos os valores absolutos elevarmos os afastamentos ao quadrado, estaremos não apenas eliminando o problema dos sinais como também potencializando os afastamentos, enfatizando os grandes desvios em relação às Laps & Notes Text Box 28 Análise Exploratória de Dados - Prof. Dr. Waldir Medri 35 observações mais próximas da média. Como resultado define a medida de variação, denominada de variância, como: 1 )( 1 2 2 − − = ∑ = n XX s n i i ou 1 )( 1 1 2 2 2 − − = ∑ ∑ = = n n X X s n i n i i i Exemplo: Determinar as variâncias das séries A, B e C. Esta estatística isolada tem difícil interpretação por apresentar unidade de medida igual ao quadrado da unidade de medida dos dados. 6.2.4 Desvio Padrão Devido à dificuldade de interpretação da variância, por ter sua unidade de medida ao quadrado, na prática usa-se o desvio padrão que é a raiz quadrada da variância, ou seja: 2ss = Exemplo: Determinar os desvios-padrão das séries A, B e C. 6.2.5 Erro Padrão Diferentes amostras retiradas de uma mesma população podem apresentar médias diferentes. A variação existente entre este conjunto de médias é estimada através do erro padrão, que corresponde ao desvio padrão das médias, sendo representado por x s e calculado pela fórmula: x s s n = 6.2.6 Coeficiente de Variação Uma pergunta que pode surgir é se um desvio-padrão é grande ou pequeno; questão relevante, por exemplo, na avaliação da precisão de métodos. Um desvio- padrão pode ser considerado grande ou pequeno dependendo da ordem de grandeza da variável. Por exemplo, um desvio-padrão de 10 pode ser insignificante Laps & Notes Text Box 29 Análise Exploratória de Dados - Prof. Dr. Waldir Medri 36 se a observação típica for 10.000, mas será um valor bastante significativo para um conjunto de dados cuja observação típica é 100. O coeficiente de variação é uma medida relativa de dispersão, utilizada para comparar, em termos relativos, o grau de concentração em torno da média. É representada por: X sCV = O CV é uma medida adimensional, isto é, sem unidade de medida, podendo ser expressa em termos decimais ou percentuais (multiplicando por 100). Dizemos que uma distribuição é homogênea quando a variabilidade relativa expressa pelo coeficiente de variação, não ultrapassar a 20% . Obviamente a distribuição não deixa de ser homogênea para valores maiores do que 20% mas vai perdendo o grau de homogeneidade na medida em que o coeficiente aumenta. Exemplo: Determinar o erro padrão e o coeficiente de variação das séries A, B e C. Esta medida pode ser bastante útil na comparação de duas variáveis ou dois grupos que a princípio não são comparáveis (por exemplo, com ordens de grandeza das variáveis diferentes). Exemplo: Comparação dos depósitos bancários de duas Empresas (milhares R$). A Empresa X depositou, em média mensal, 2,0 (milhares R$) e um desvio- padrão de 0,5 (milhares R$). A Empresa Y depositou média mensal, 2,3 (milhares R$) e um desvio-padrão de 0,8 (milhares R$). A Empresa Y apresenta não só uma média mensal mais alta como também maior variabilidade em torno da média. O coeficiente de variação capta esta diferença. Neste caso, o coeficiente de variação é 25% para a Empresa X e 34,8% para a Empresa Y. Alguns especialistas consideram: • Baixa dispersão: CV ≤ 15% • Média dispersão: 15% < CV < 30% • Alta dispersão: CV ≥ 30%. Laps & Notes Text Box 30 Análise Exploratória de Dados - Prof. Dr. Waldir Medri 37 6.3 SEPARATRIZES: QUARTIS, DECIS E PERCENTIS Os quartis, decis e percentis são muito similares à mediana, uma vez que também subdividem a distribuição de medidas de acordo com a proporção das frequências observadas. Os quartis dividem um conjunto de dados em quatro partes iguais, isto é, 25% por parte. 0% 25% 50% 75% 100% Q1 Q2 Q3 onde: Q1 = 10 quartil, deixa 25% dos elementos. Q2 = 20 quartil, deixa 50% dos elementos (coincide com a mediana). Q3 = 30 quartil, deixa 75% dos elementos. Os decis dividem um conjunto de dados em dez partes iguais, isto é, 10% por parte. 0 10% 20% . . . 90% 100% D1 D2 . . . D9 onde: D1 = 10 decil, deixa 10% dos elementos. D2 = 20 decil, deixa 20% dos elementos. ............................................................. D9 = 90 decil, deixa 90% dos elementos. Já, os percentis permitem dividir o conjunto de dados em 100 partes, sendo e 1% em cada parte. 0% 1% 2% . . . 50% . . . 98% 99% 100% P1 P2 . . . P50 . . . P98 P99 onde: P1 = 10 percentil, deixa 1% dos elementos. P2 = 20 percentil, deixa 2% dos elementos. ............................................................. P99 = 990 percentil, deixa 99% dos elementos. Laps & Notes Text Box 31 Análise Exploratória de Dados - Prof. Dr. Waldir Medri 41 Para verificar o tipo de curva (da distribuição) e o grau de curtose utiliza-se a medida estatística adimensional denominada de Coeficiente de Curtose definido como: )(2 1090 13 PP QQ C − − = Para uma curva relativamente à normal, tem-se que C = 0,263. Isto é: Se C = 0,263 � curva mesocúrtica C < 0,263 � curva leptocúrtica C > 0,263 � curva platicúrtica 6.6 BOX PLOT O box plot introduzido pelo estatístico americano John Tukey em 1977 é a forma de representar graficamente os dados da distribuição de uma variável quantitativa em função de seus parâmetros. Os cinco itens ou valores: o menor valor (x1), os quartis (Q1, Q2 e Q3) e o maior valor (xn), são importantes para se ter uma idéia da posição, dispersão e assimetria da distribuição dos dados. Na sua construção são considerados os quartis e os limites da distribuição, permitindo uma visualização do posicionamento da distribuição na escala da variável. Para melhor compreensão deste box plot, a Figura 18 apresenta um esquema sintetizado: Figura 18: Esquema para construção do box plot Q1 Md Q3 Ponto extremo * 0 Outliers 1,5DQ DQ 1,5DQ Valores LI LS Valores típicos 3,0DQ Limite inferior Limite superior Laps & Notes Rectangle Laps & Notes Text Box 32 Análise Exploratória de Dados - Prof. Dr. Waldir Medri 42 A escala de medida da variável encontra-se na linha horizontal do quadro onde está inserida a figura. Na caixa retangular da figura são fornecidos os quartis Q1, na parte esquerda, e Q3 na parte direita da caixa. Entre eles encontra-se a Mediana da distribuição. Observe que 50% da distribuição têm valores dentro da caixa. As linhas horizontais que saem da caixa terminam nos limites inferior (LI) e superior (LS) da distribuição. Entre esses limites encontram-se os valores considerados como típicos da distribuição. Esses limites são determinados em função da distância entre os dois quartis (Q3 e Q1), isto é, do desvio inter-quartílico: DQ = Q3 – Q1. Observaçõescom afastamento superior a 1,5 desvio inter-quartílico, para cima ou para baixo, são consideradas atípicas, ou possíveis outliers. Os pontos que estão mais de 1,5 DQ e menos que 3,0 DQ, são chamados de outliers, aparecendo (o). Valores com afastamento superior a 3,0 DQ, para cima ou para baixo são considerados como pontos extremos, aparecendo na figura com (*). Quanto maior for o valor do desvio inter-quartílico, maior a variabilidade da distribuição. Obs. Muitos livros e softwares apenas comentam sobre os pontos atípicos chamando-os de outliers (pontos discrepantes). O box plot também fornece informações importantes sobre o comportamento do conjunto de dados, como simetria e variabilidade. Se a amplitude for muito maior que à distância interquartílica e a mediana estiver mais próxima do 1o quartil do que do 3o quartil, há forte indicação de assimetria positiva e de grande dispersão das observações. Exemplo: O objetivo da administração é lucrar o máximo possível com o capital investido em sua empresa. Uma medida de bom desempenho é o retorno sobre os investimentos. A seguir são apresentados os mais recentes retornos em milhares (R$). 2.210 2.255 2.350 2.380 2.380 2.390 2.420 2.440 2.450 2.550 2.630 2.825 Laps & Notes Text Box 33 Análise Exploratória de Dados - Prof. Dr. Waldir Medri 43 A mediana é 2.405 e os quartis Q1 = 2.365 e Q3 = 2.500. A resenha dos dados mostra um menor valor 2.210 e um maior valor de 2.825. Assim, a regra de cinco itens (números) para os dados de pesos dos recém nascidos é 2.210; 2.365; 2.405; 2.500; 2.825. Além desses valores, têm-se os limites, inferior que é dado por LI = Q1–1,5DQ e superior LS = Q3 + 1,5DQ. No caso, LI = 2.162,5 e LS = 2.702,5. Os dados fora destes limites são considerados pontos fora da curva. Neste caso, “o” = 2.825 é um outliers. A Figura 19 apresenta um esquema do box plot com esses resultados: Mediana = 2405 Q1=2365 e Q3 = 2500 X1 = 2210 X11 = 2630 Outliers = 2825 Retorno 2100 2200 2300 2400 2500 2600 2700 2800 2900 Figura 19: Resultados do desempenho de retorno de investimento da empresa Observações atípicas (outlier) É muito comum aparecerem entre os dados coletados, observações atípicas (outliers), isto é, valores muito grande ou muito pequeno em relação aos demais. Um conjunto de dados pode apresentar apenas um ou vários outliers. Observações atípicas alteram enormemente as médias e variabilidade dos grupos a que pertencem e podem até mesmo distorcer as conclusões obtidas através de uma análise estatística padrão. Portanto, é de fundamental importância detectar e dar um tratamento adequado a elas. É sempre boa a prática fazer-se uma Laps & Notes Text Box 34 Análise Exploratória de Dados - Prof. Dr. Waldir Medri 44 inspeção dos dados no início da análise estatística. Técnicas descritivas de dados têm um papel importante nesta fase. Causas do aparecimento de outliers Dentre as possíveis causas do aparecimento de outliers, pode citar as seguintes: • Leitura, anotação ou transição incorreta dos dados. • Erro na execução do experimento ou na tomada da medida. • Mudanças não controláveis nas condições experimentais ou dos pacientes. Como detectar outliers As questões básicas são quais observações devem ser consideradas como outliers e como detectá-los. Existem procedimentos para responder a essas perguntas. Os outliers podem ser detectados simplesmente por uma verificação lógica dos dados, através de gráficos específicos ou ainda através de teste apropriados. Uma forma gráfica usual é o box plot. As plotagens de retângulos são outras maneiras de identificar os pontos fora da curva. Mas eles não necessariamente identificam os mesmos valores que aqueles com uma contagem-z menor que -3 ou maior que +3. No entanto, o objetivo de ambas as abordagens é simplesmente identificar os valores de dados extremos que devem ser revisados para assegurar a validade dos dados. Pontos fora da curva identificados pelos dois métodos devem ser revisados. Laps & Notes Text Box 35 Análise Exploratória de Dados - Prof. Dr. Waldir Medri 45 6.7 MEDIDAS DE POSIÇÃO E DISPERSÃO DE UMA DISTRIBUIÇÃO DE FREQUÊNCIA Quando existe uma grande quantidade de dados, estes podem ser agrupados. A finalidade em agrupar os dados é para facilitar os cálculos. Exemplo: Um novo medicamento para cicatrização está sendo testado e um experimento é feito para estudar o tempo (em dias) de completo fechamento em cortes provenientes de cirurgia. Uma amostra em trinta cobaias forneceu os valores: 15, 17, 16, 15, 17, 14, 17, 16, 16, 17, 15, 18, 14, 17, 15, 14, 15, 16, 17, 18, 18, 17, 15, 16, 14, 18, 18, 16, 15 e 14. a) Organize uma tabela de frequência. b) Obter as frequências relativas de cada classe. c) Calcular a média. d) Que porcentagem das observações está abaixo de 16 dias? e) Classifique como rápida as cicatrizações iguais ou inferior a 15 dias e como lenta as demais. Quais as porcentagens para cada classificação. Solução: a e b Cicatrização 14 15 16 17 18 total Frequência 5 7 6 7 5 30 Frequência relativa 0,167 0,233 0,200 0,233 0,167 1,000 xi. fi 70 105 96 119 90 480 Média 16 30 480. === ∑ n fx x ii A determinação das medidas de posição e de dispersão para uma variável quantitativa contínua, através de sua distribuição de frequências, exige aproximações, já que perde a informação dos valores observados. Por exemplo, com as quantidades de depósitos bancários (milhares R$), a distribuição de frequência está representada na Tabela 15. Laps & Notes Text Box 36 Análise Exploratória de Dados - Prof. Dr. Waldir Medri 46 Tabela 15: Nível de ruído, em decibéis, de tráfego em certo cruzamento Nível de ruído (em db) Quantidade ( if ) Ponto médio )( ix Freq. Acum. ( acF ) ( ii fx . ) ( ii fx . 2 ) 58,0 |-- 60,0 5 59 5 295 17.405 60,0 |-- 62,0 5 61 10 305 18.605 62,0 |-- 64,0 6 63 16 378 23.814 64,0 |-- 66,0 9 65 25 585 38.025 66,0 |-- 68,0 15 67 40 1.005 67.335 68,0 |-- 70,0 5 69 45 345 23.805 70,0 |-- 72,0 5 71 50 355 25.205 Total 50 3.268 214.194 Como foi dito, no agrupamento dos dados acarreta alguma perda de informação. Cada elemento perde sua identidade, por isso, sabem apenas quantos elementos há em cada classe. Uma aproximação razoável é supor que todos os valores dentro de cada classe tenham seus valores iguais ao ponto médio desta classe. 6.7.1 Média Para o cálculo da média, em geral, obtém-se uma boa aproximação atribuindo a cada elemento que se enquadra em uma classe o valor médio correspondente. Esse processo em geral é satisfatório, pois os erros introduzidos nos cálculos tendem a compensar-se. A fórmula para a média de uma distribuição de frequências, onde x1, x2, ..., xn são os valores médios das classes, ponderados pelas frequências correspondentes f1, f2, ..., fn é dada por: n fx x n i ii∑ = = 1 . , assim 3.268 65,36 50 x = = 6.7.2 Mediana A mediana divide um conjunto de dados ordenados em duas partes iguais. A expressão para determinar a mediana de uma distribuição de frequências é dada por: Laps & Notes Rectangle Laps & Notes Text Box 37 Análise Exploratória de Dados - Prof. Dr. Waldir Medri 50 6.7.6 Desvio Médio O desvio médio para dados agrupados, isto é, de uma distribuição de frequências é calculado da seguinte forma: n fxx DM n i ii∑ = − = 1 e n fx x ii∑ = onde: xi são os pontos médios das classes e os fi as respectivas frequências. 6.7.7 Variância A expressãopara o cálculo da variância amostral de uma distribuição de frequências é: 1 )( 1 1 2 2 2 − − = ∑ ∑ = = n n fx fx s n i n i ii ii Obter a variância referenta a tabela 20. 2 2 (3268)214194 50 12,19 50 1 s − = = − 6.7.8 Desvio Padrão O desvio padrão é obtido extraindo a raiz quadrada da variância, isto é: 49,394,12 ====>= sss 6.7.9 Erro Padrão 49,0 50 49,3 === n s s x Laps & Notes Text Box 38 39 ANÁLISE BIDIMENSIONAL É comum haver interesse em saber se duas variáveis quaisquer estão relacionadas, e o quanto estão relacionadas, seja na vida prática, seja em trabalhos de pesquisa, por exemplo: - se o sexo dos funcionários de uma empresa está relacionado com a função exercida; - o quanto o a temperatura ambiente em uma região influencia as vendas de refrigerante; - se o nível de escolaridade de um grupo de empreendedores está relacionado com o grau de sucesso por eles alcançado. Muitas vezes queremos verificar se há uma relação de causa e efeito entre as duas variáveis (se as variáveis são dependentes ou não), se é possível estudar uma das variáveis através da outra (que é mais fácil de medir) - prever os valores de uma através dos valores da outra, ou calcular uma medida de correlação ou de dependência entre as variáveis. A Análise Bidimensional propõe-se a tentar responder as perguntas do parágrafo anterior. As duas variáveis abordadas podem ser qualitativas ou quantitativas, e para cada tipo haverá técnicas apropriadas. Para variáveis qualitativas vamos estudar: tabelas de contingência, estatística qui-quadrado e o coeficiente de contingência modificado. Para variáveis quantitativas vamos abordar: diagramas de dispersão e análise de correlação. ANÁLISE BIDIMENSIONAL DE VARIÁVEIS QUALITATIVAS Variáveis qualitativas são as variáveis cujas realizações são atributos, categorias. Como exemplo de variáveis qualitativas tem-se: sexo de uma pessoa (duas categorias, masculino e feminino), grau de instrução (analfabeto, ensino fundamental incompleto, etc.), opinião sobre um assunto (favorável, desfavorável, indiferente), etc. Em estudos sobre variáveis qualitativas é extremamente comum registrar as frequências de ocorrência de cada valor que as variáveis podem assumir, e quando há duas variáveis envolvidas é comum registrar-se a frequência de ocorrência dos cruzamentos entre valores: por exemplo, quantas pessoas do sexo masculino são favoráveis a certa proposta de lei, quantas são desfavoráveis, quantas pessoas do sexo feminino são favoráveis, etc. E, para facilitar a análise dos resultados estes resultados costumam ser dispostos em uma tabela de contingência (fazendo uma dupla classificação). A tabela de contingência relaciona os possíveis valores de uma variável qualitativa com os possíveis valores da outra, registrando quantas ocorrências foram verificadas de cada cruzamento. 40 Exemplo: Vamos analisar a tabela de contingência para as variáveis Sexo e Função. Sexo Função Total Escritório Serviços gerais Gerência Masculino 157 27 74 258 Feminino 206 0 10 216 Total 363 27 84 474 Podemos apresentar os percentuais calculados em relação aos totais das colunas: Sexo Função Total Escritório Serviços gerais Gerência Masculino 43,25% 100% 88,10% 54% Feminino 56,75% 0% 11,90% 46% Total 100% 100% 100% 100% Seria interessante saber se as duas variáveis são estatisticamente dependentes, e o quão forte é esta associação. Repare que os percentuais de homens e mulheres em cada função são diferentes dos percentuais marginais (de homens e mulheres no total de funcionários), sendo que em duas funções as diferenças são bem grandes. A tabela de contingência também é chamada de distribuição conjunta das duas variáveis. Permite descrever o grau de associação existente entre as duas variáveis: é possível avaliar a “força” do relacionamento, e caso haja uma associação forte pode-se prever os valores de uma variável através dos da outra. Se as variáveis forem independentes (ou seja, a associação entre elas for fraca), as frequências na tabela de contingência devem distribuir-se de forma aleatória, seguindo o padrão dos totais marginais. Se, porém, houver uma associação entre as variáveis, elas forem dependentes, as frequências deverão seguir algum padrão, diferente daquele apresentado pelos totais marginais. Precisamos de uma estatística que relacione as frequências OBSERVADAS na tabela de contingência com as frequências ESPERADAS se as duas variáveis fossem independentes (se as frequências nos cruzamentos dos valores das variáveis seguissem os padrões dos totais marginais). E quais serão os valores das frequências esperadas? Exemplo: Calcule as frequências esperadas sob a condição de independência entre Sexo e Função para a tabela de contingência do exemplo. Se as variáveis são independentes as frequências de homens e mulheres em cada função devem ter a mesma proporção que homens e mulheres têm no total de funcionários. Lembrando que há 54% de homens e 46% de mulheres, esperamos que esses percentuais mantenham-se em cada função, se as variáveis são independentes. - Em Escritório, há 363 pessoas nesta função, sob a condição de independência deveria haver: 41 Homens => 54% de 363 = 197,58 Mulheres => 46% de 363 = 165,42 - Em Serviços Gerais, há 27 pessoas, sob a condição de independência deveria haver: Homens => 54% de 27 = 14,70 Mulheres => 46% de 27 = 12,30 - Em Gerência, há 84 pessoas, sob a condição de independência deveria haver: Homens => 54% de 84 = 45,72 Mulheres => 46% de 84 = 38,28 Como as frequências observadas estão razoavelmente distantes das esperadas sob a condição de independência, há indícios de que as duas variáveis estão relacionadas. Podemos calcular as frequências esperadas para todas as células da tabela de contingência diretamente, utilizando a seguinte fórmula: Eij = Total da linha i x total da coluna j Total geral Onde Eij é a frequência esperada, sob a condição de independência entre as variáveis, em uma célula qualquer da tabela de contingência. As frequências esperadas são necessárias para que possamos compará-las com as observadas, sendo essa comparação materializada em uma estatística, chamada de qui-quadrado (2). A expressão está descrita abaixo: Onde L é o número total de linhas da tabela de contingência (número de valores que uma das variáveis pode assumir), C é o número total de colunas da tabela (número de valores que a outra variável pode assumir), e Oij é a frequência observada em uma célula qualquer da tabela de contingência. Então, para cada célula da tabela de contingência calcula-se a diferença entre a frequência observada e a esperada. Para evitar que as diferenças positivas anulem as negativas as diferenças são elevadas ao quadrado. E para evitar que uma diferença grande em termos absolutos, mas pequena em termos relativos, “inflacione” a estatística, ou que uma diferença pequena em termos absolutos, mas grande em termos relativos, tenha sua influência reduzida, divide-se o quadrado da diferença pela frequência esperada. Somam-se os valores de todas as células e obtêm-se o valor da estatística. Exemplo: Calcule a estatística qui-quadrado para a tabela de contingência do exemplo anterior. Sexo Função Total Escritório Serviços gerais Gerência Masculino 157 27 74 258 Feminino 206 0 10 216 Total 363 27 84 474 Calculando as frequências esperadas de acordo com a fórmula vista anteriormente:
Compartilhar