Baixe o app para aproveitar ainda mais
Prévia do material em texto
Prof. José Francisco professorjfmp@hotmail.com Estatística descritiva A Estatística é a disciplina interessada na coleta, organização, resumo, análise e interpretação de dados para a obtenção de informações úteis aos processos de tomada de decisão. A estatística pode ser dividida em duas partes: 1) estatística descritiva: organização e descrição dos dados coletados por meio de representações numéricas em tabelas e gráficos. 2) estatística indutiva: análise e interpretação dos dados, visa a formulação de conclusões para uma população a partir de uma amostra de dados extraída da população, estimação, teste de hipóteses, indução de leis a que fenômenos obedecem, previsão. Estatística População: conjunto de indivíduos sobre o qual iremos realizar a coleta e análise dos dados. Amostra: é um subconjunto da população População e Amostra População Amostra Amostragem População Amostra Amostragem Estamos interessados em fazer afirmações (inferência) sobre uma população a partir de uma amostra de indivíduos da população investigada. Método indutivo produz conclusões gerais sobre uma população (todo), a partir da análise de uma amostra (parte) dos elementos da população. Inferência Dados, casos, variáveis e informação Considere os dados de 36 funcionários da seção de orçamento da companhia Milsa (BUSSAB & MORETTIN, 1997). Dados são apresentados para diferentes casos (indivíduos ou objetos) descritos por um conjunto de variáveis. Neste exemplo, os casos são os funcionários. As variáveis que descrevem os casos são: estado civil, grau de instrução, número de filhos, salário, idade, região de porcedência. Os casos costumam ser representados nas linhas e as variáveis nas colunas. Dados, casos, variáveis e informação Variável 1 Variável 2 Variável 3 Caso 1 Caso 2 Caso 3 Dados ... Caso 4 Bases de dados Dados, casos, variáveis e informação Classificação das variáveis: quantitativa qualitativa contínua discreta nominal ordinal variável Expressam qualidades ou atributos Expressam números de uma contagem ou mensuração Qualidades ou atributos não são ordenáveis (estaco civil, procedência) Qualidades ou atributos são ordenáveis (grau de instrução) Conjunto enumerável de números – contagens (nº de filhos, idade) Valores de um intervao de números - mensurações (salário) Dados, casos, variáveis e informação A informação contida em uma variável aumenta na direção da variável qualitativa para a variável quantitativa (a) Você usa a internet durante a asemana ? (1) Sim (2) Não (b) Qual a sua intensidade de uso da internet durante a semana ? (1) Nenhuma (2) Pequena (3) Média (4) Grande (c) Quantas vezes você usa a internet durante a semana ? (_____) vezes por semana (d) Por quantas horas você usa a internet durante a semana ? (_____) horas por semana Variável qualitativa nominal Variável qualitativa ordinal Variável quantittiva discreta Variável quantittiva contínua Dados, casos, variáveis e informação Variáveis qualitativas ordinais são bastante comuns em pesquisas socioeconômicas. Por exemplo, a obtenção dos valores dos rendimentos domiciliares é uma tarefa complexa, pois em geral os entrevistados raramente informam seus rendimentos verdadeiros. Para se chegar a uma estimativa confiável do rendimento domiciliar pode-se elaborar um conjunto de perguntas, cujas respostas permitem obter uma estimativa do rendimento domiciliar. Por exemplo, o Critério de Classificação Econômica do Brasil. Dados primários x Dados secundários Dados primários são levantados pelo próprio pesquisador com o objetivo de atender às necessidades específicas de uma pesquisa. Dados secundários são provenientes de outras fontes São dados que já foram coletados, tabulados, ordenados e, às vezes, até analisados, com outros propósitos. Uso combinado das fontes Corte transversal, Séries de tempo, Painel Corte transversal: observações para um conjunto de indivíduos (casos), tomadas em um determinado ponto no tempo (retrato de um conjunto de indivíduos em um ponto do tempo). Séries de tempo: observações sobre uma ou mais variáveis ao longo do tempo. Cortes transversais agrupados: um mesmo conjunto de variáveis é coletado em diferentes períodos do tempo, em distintas amostras aleatórias (casos diferentes) de uma mesma população (Exemplo, Pesquisa Nacional por Amostra de Domicílios – PNAD) Painel (dados longitudinais): observações de um mesmo conjunto de indivíduos (casos) acompanhados ao longo do tempo. Corte transversal, Séries de tempo, Painel Corte transversal Amostra de 526 trabalhadores no ano de 1976 Fonte: Wooldridge, J. M. Introdução à econometria: uma abordagem moderna. Cengage Learning, São Paulo, 2008. Corte transversal, Séries de tempo, Painel Corte transversal Regiões administrativas da cidade do Rio em 1991 Fonte: Anuário Estatístico da Cidade do Rio de Janeiro ANOESC4: percentual de chefes de família com até quatro anos de escolaridade ANOESC15: percentual de chefes de família com mais de quinze anos de escolaridade RMSM : renda média em salários mínimos MENOS1SM: percentual de famílias com renda de até um salário mínimo MAIS20SM: percentual de famílias com renda superior a 20 salários mínimos FAV91: percentual de população favelada em 1991 DOMFAV91: percentual de domicílios localizados em favelas no ano de 1991 AREAHAB: área residencial construída (m2 ) por habitante da R.A. Corte transversal, Séries de tempo, Painel Séries de tempo Conjunto de séries de tempo em Porto Rico Fonte: Wooldridge, J. M. Introdução à econometria: uma abordagem moderna. Cengage Learning, São Paulo, 2008. Corte transversal, Séries de tempo, Painel Série de tempo 1980 1985 1990 1995 2000 300 400 500 600 700 800 900 1000 1100 1200 GWh Série mensal de jan/79 a mar/03 Demanda de energia elétrica na classe residencial da região Sul racionalização jul/01 a fev/02 racionamento fev/86 a mai/86 Corte transversal, Séries de tempo, Painel Série de tempo Corte transversal, Séries de tempo, Painel Cortes transversais agrupados Dados sobre os preços das moradias em 1993 e 1995 nos EUA Fonte: Wooldridge, J. M. Introdução à econometria: uma abordagem moderna. Cengage Learning, São Paulo, 2008. Corte transversal, Séries de tempo, Painel Painel Dados sobre crime e estatísticas relacionadas em 1986 e 1990 em 150 cidades nos EUA Fonte: Wooldridge, J. M. Introdução à econometria: uma abordagem moderna. Cengage Learning, São Paulo, 2008. Estatística Descritiva & Análise Exploratória de Dados distribuição de frequências, histograma média, moda, mediana, quartis, proporção amplitude, distância interquartílica variância, desvio-padrão coeficiente de variação coeficiente de assimetria coeficiente de curtose boxplot Estatística descritiva & análise exploratória de dados Grandes quantidades de dados tendem a confundir, ao invés de esclarecer, simplesmente porque nossa mente não é capaz de abranger a variedade e os detalhes comuns em grandes conjunto de dados. Para interpretar grandes conjuntos de dados corretamente é precisoprimeiro organizá-los e sumarizá-los em gráficos, tabelas ou em poucos números capazes de transmitir a sua essência. O processamento dos dados visa reduzir a quantidade de detalhes para tornar possível a visualização e compreensão dos aspectos mais importantes. A estatística descritiva e a análise exploratória de dados abrangem um conjunto de métodos que visam sumarizar e descrever os atributos mais proeminentes nos dados, ou seja, resumir os dados brutos em poucos números e fornecer representações gráficas que permitam um melhor entendimento de um conjunto de dados. Dados brutos Considere os dados de 36 funcionários da seção de orçamento da companhia Milsa (BUSSAB & MORETTIN, 1997). Distribuição de freqüências Informa os valores assumidos por uma variável e com que frequência assume esses valores Distribuição do grau de escolaridade, uma variável qualitativa ordinal Distribuição dos salários, uma variável quantitativa contínua (classes de salários) Frequência absoluta n Frequência relativa f Tabela contendo classes ou categorias e o número de ocorrências (ou frequência) em cada categoria Bussab & Morettin, 1997 Bussab & Morettin, 1997 Distribuição de freqüências no Excel 2007 Calcula a freqüência absoluta =CONT.SE($E$2:$E$37;"<8") =CONT.SE($E$2:$E$37;"<12") =CONT.SE($E$2:$E$37;"<16") =CONT.SE($E$2:$E$37;"<20") =CONT.SE($E$2:$E$37;"<24") Calcula a freqüência absoluta =N2 =N3 - N2 =N4 - N3 =N5 - N4 =N6 - N5 Cálculo da distribuição dos salários no Excel Gráfico de frequências e Histograma Fornecem uma visão rápida e concisa da distribuição de uma variável quantitativa Variável quantitativa discreta Variável quantitativa contínua Histograma • Bases dos setores definidos pelos limites das classes •Alturas dos setores proporcionais a frequência relativa •Área total do histograma é 1 ou 100% Gráfico de frequências Histograma: representação gráfica da distribuição de freqüências das variáveis quantitativas O histograma reflete a forma da distribuição de frequências da amostra ou a estrutura da população de onde foi retirada a amostra. O histograma fornece uma visão rápida e concisa da distribuição de uma variável quantitativa Para construir um histograma é necessário primeiro repartir os dados por classes e depois calcular as respectivas frequências. O histograma é um gráfico construído a partir da tabela com a distribuição de frequências (por classes). Histograma: representação gráfica da distribuição de freqüências das variáveis quantitativas A apresentação do histograma depende muito do número de classes considerado. Um número muito grande de classes produz um histograma com demasiada irregularidade, enquanto um histograma com um número demasiado reduzido de classes oculta a forma da distribuição (perde-se demasiada informação). Se N é o total de indivíduos no conjunto de dados, podemos considerar a raiz quadrada de N como o número de classes. Poucas classes Muitas classes Histograma no Excel 2007 =CONCATENAR(K2;" a ";L2) =CONCATENAR(K3;" a ";L3) =CONCATENAR(K4;" a ";L4) =CONCATENAR(K5;" a ";L5) =CONCATENAR(K6;" a ";L6) 1)Criar rótulos das categoria (procedimento válido para classes de tamanhos iguais) Histograma no Excel 2007 2) Selecionar gráfico de barras Histograma no Excel 2007 3) Elimine os espaços entre as barras Histograma no Excel 2007 4) Adicione rótulos ao histograma Histograma no Excel 2007 5) Elimine grade, legenda e marcação do eixo vertical Representação gráfica da distribuição de freqüências das variáveis quantitativas Gráfico de setores dos salários dos empregados Exemplo domcílio consumo anual (kWh) aquecedor de água condicionador de ar iluminação refrigrador freezer forno elétrico secador de roupa lavadora de roupa lavadora de louça outros 1 18.055 1 1 1 1 0 1 1 0 0 1 2 12.232 0 1 1 1 0 0 0 0 1 0 3 18.195 0 1 1 1 1 1 1 1 0 0 4 12.295 1 0 1 0 0 0 0 0 1 1 5 11.450 1 1 1 1 0 0 0 1 1 0 6 23.450 1 1 1 1 0 0 0 0 0 1 7 20.951 1 1 1 1 1 1 1 1 1 1 8 16.457 0 0 1 1 0 0 1 1 1 1 9 17.100 1 1 1 1 1 0 0 1 0 0 10 23.627 1 1 1 1 0 1 1 0 1 0 11 16.440 0 1 1 1 1 0 1 1 0 1 12 23.524 1 1 1 1 1 1 1 1 1 1 13 18.510 1 1 1 1 0 0 1 1 1 1 14 10.824 0 0 1 1 0 0 0 1 1 1 15 17.382 1 1 1 0 0 1 0 1 0 0 16 21.369 0 1 1 1 1 0 1 0 1 1 17 11.912 1 1 1 0 0 1 1 0 1 0 18 28.446 1 1 1 1 1 1 1 1 1 1 19 23.501 1 1 1 0 0 1 1 1 1 1 20 13.536 1 0 1 1 1 1 0 1 0 0 21 31.265 1 1 1 1 1 1 1 1 1 1 22 10.703 1 0 1 1 0 0 0 1 1 0 23 14.528 0 0 1 1 1 0 1 0 1 1 24 12.335 0 1 1 1 0 1 0 1 0 0 25 20.877 1 0 1 1 0 1 1 1 1 1 26 6.530 0 1 1 1 0 0 0 0 1 0 27 24.868 1 1 1 1 1 1 1 1 1 1 28 13.394 0 0 1 0 0 1 1 1 1 1 29 18.953 1 1 1 1 0 1 1 1 1 0 30 16.805 0 0 1 1 1 0 1 1 1 1 Dados brutos: Respostas de 30 unidades consumidoras residenciais a um questionário Cada domicílio investigado é descrito por 10 variáveis: 1 variável quantitativa: o consumo de energia elétrica no último ano 9 variáveis categóricas: presença ou ausência de eletrodomésticos no domicílio Fonte: Schrock, D.W. Load Shape Development, Pennwell Books, 1997 Exemplo domcílio consumo anual (kWh) aquecedor de água condicionador de ar iluminação refrigrador freezer forno elétrico secador de roupa lavadora de roupa lavadora de louça outros 1 18.055 1 1 1 1 0 1 1 0 0 1 2 12.232 0 1 1 1 0 0 0 0 1 0 3 18.195 0 1 1 1 1 1 1 1 0 0 4 12.295 1 0 1 0 0 0 0 0 1 1 5 11.450 1 1 1 1 0 0 0 1 1 0 6 23.450 1 1 1 1 0 0 0 0 0 1 7 20.951 1 1 1 1 1 1 1 1 1 1 8 16.457 0 0 1 1 0 0 1 1 1 1 9 17.100 1 1 1 1 1 0 0 1 0 0 10 23.627 1 1 1 1 0 1 1 0 1 0 11 16.440 0 1 1 1 1 0 1 1 0 1 12 23.524 1 1 1 1 1 1 1 1 1 1 13 18.510 1 1 1 1 0 0 1 1 1 1 14 10.824 0 0 1 1 0 0 0 1 1 1 15 17.382 1 1 1 0 0 1 0 1 0 0 16 21.369 0 1 1 1 1 0 1 0 1 1 17 11.912 1 1 1 0 0 1 1 0 1 0 18 28.446 1 1 1 1 1 1 1 1 1 1 19 23.501 1 1 1 0 0 1 1 1 1 1 20 13.536 1 0 1 1 1 1 0 1 0 0 21 31.265 1 1 1 1 1 1 1 1 1 1 22 10.703 1 0 1 1 0 0 0 1 1 0 23 14.528 0 0 1 1 1 0 1 0 1 1 24 12.335 0 1 1 1 0 1 0 1 0 0 25 20.877 1 0 1 1 0 1 1 1 1 1 26 6.530 0 1 1 1 0 0 0 0 1 0 27 24.868 1 1 1 1 1 1 1 1 1 1 28 13.394 0 0 1 0 0 1 1 1 1 1 29 18.953 1 1 1 1 0 1 1 1 1 0 30 16.805 0 0 1 1 1 0 1 1 1 1 Cada coluna da matriz de dados guarda as observações de uma variável Cada linha da matriz guarda o perfil de um caso (domicílio) variáveis C a s o s Exemplo domcílio consumo anual (kWh) aquecedor de água condicionador de ar iluminação refrigrador freezer forno elétrico secador de roupa lavadora de roupa lavadora de louça outros 1 18.055 1 1 1 1 0 1 1 0 0 1 2 12.232 0 1 1 1 0 0 0 0 1 0 3 18.195 0 1 1 1 1 1 1 1 0 0 4 12.295 1 0 1 0 0 0 0 0 1 1 5 11.450 1 1 1 1 0 0 0 1 1 0 6 23.450 1 1 1 1 0 0 0 0 0 1 7 20.951 1 1 1 1 1 1 1 1 1 1 8 16.457 0 0 1 1 0 0 1 1 1 1 9 17.100 1 1 1 1 1 0 0 1 0 0 10 23.627 1 1 1 1 0 1 1 0 1 0 11 16.4400 1 1 1 1 0 1 1 0 1 12 23.524 1 1 1 1 1 1 1 1 1 1 13 18.510 1 1 1 1 0 0 1 1 1 1 14 10.824 0 0 1 1 0 0 0 1 1 1 15 17.382 1 1 1 0 0 1 0 1 0 0 16 21.369 0 1 1 1 1 0 1 0 1 1 17 11.912 1 1 1 0 0 1 1 0 1 0 18 28.446 1 1 1 1 1 1 1 1 1 1 19 23.501 1 1 1 0 0 1 1 1 1 1 20 13.536 1 0 1 1 1 1 0 1 0 0 21 31.265 1 1 1 1 1 1 1 1 1 1 22 10.703 1 0 1 1 0 0 0 1 1 0 23 14.528 0 0 1 1 1 0 1 0 1 1 24 12.335 0 1 1 1 0 1 0 1 0 0 25 20.877 1 0 1 1 0 1 1 1 1 1 26 6.530 0 1 1 1 0 0 0 0 1 0 27 24.868 1 1 1 1 1 1 1 1 1 1 28 13.394 0 0 1 0 0 1 1 1 1 1 29 18.953 1 1 1 1 0 1 1 1 1 0 30 16.805 0 0 1 1 1 0 1 1 1 1 Histograma 0% 5% 10% 15% 20% 25% 30% 35% 40% 45% 6530 11530 16530 21530 26530 Fr eq uê nc ia re la tiv a A informação é o resultado da análise e interpretação dos dados. Antes é preciso organizar e sumarizar os dados em gráficos, tabelas ou em poucos números capazes de transmitir a essência dos dados. consumo anual (kWh) Número de observações 30,000 Mínimo 6.530,000 Mediana 17.241,000 Máximo 31.265,000 Amplitude 24.735,000 Média 17.650,467 Variância (N) 31.835.957,716 Variância amostral (N-1) 32.933.749,361 Desvio-padrão (N) 5.642,336 Desvio-padrão amostral (N-1) 5.738,793 Dados brutos Distribuição de freqüência do consumo Estatísticas Consumo é uma variável quantitativa Exemplo A distribuição de uma variável informa os valores que ela assume e com que frequencia assume esses valores. Histograma 0% 5% 10% 15% 20% 25% 30% 35% 40% 45% 6530 11530 16530 21530 26530 Fr eq uê nc ia re la tiv a Frequência absoluta Frequência Relativa 6530 11477 4 13% 11477 16424 7 23% 16424 21371 12 40% 21371 26318 5 17% 26318 31265 2 7% Faixas de consumo anual kWh Uma distribuição qualquer é caracterizada, minimamente, por duas dimensões, uma medida de posição (por exemplo, média ou mediana) e uma medida de dispersão (amplitude e desvio padrão, por exemplo) Histograma consumo anual (kWh) Número de observações 30,000 Mínimo 6.530,000 Mediana 17.241,000 Máximo 31.265,000 Amplitude 24.735,000 Média 17.650,467 Variância (N) 31.835.957,716 Variância amostral (N-1) 32.933.749,361 Desvio-padrão (N) 5.642,336 Desvio-padrão amostral (N-1) 5.738,793 Algumas medidas associadas a variáveis quantitativas Medidas de posição: Apontam um determinado valor da dstribuição, por exemplo, máximo, mínimo, média, mediana, moda, quartis, decis, percentis. Apresentam-se de várias formas dependendo daquilo de que se deseja conhecer a respeito dos dados. Fornecem uma descrição compacta dos dados. A média e a mediana estabelecem o centro de uma distribuição e são denominadas medidas de tendência central. Caracterizam o elementos típico de um grupo. Os quartis e medianas são denominadas como medidas de ordenamento, pois fornecem uma ideia da distribuição dos dados ordenados. Medidas de dispersão: Quantificam a variabilidade dos valores de uma distribuição, por exemplo, a amplitude, a variância e o desvio padrão. Medidas de assimetria: Quantificam o grau de simetria de uma distribuição. Medidas de curtose: Quantificam o grau de achatamento de uma distribuição. Estatísticas amostrais vs Parâmetros Estatísticas amostrais: Medida numérica que descreve alguma característica de uma amostra. Calculada com base em uma amostra extraída de uma população Representada por letras latinas Média S2 Variância S Desvio padrão Parâmetros: Medida numérica que descreve alguma característica de uma população Calulada com base em todos os elementos de uma população Representada por letras gregas Média 2 Variância Desvio padrão X Medidas de posição Medidas de posição: valores representativos do conjunto de dados Moda: observação mais frequente no conjunto de dados, no exemplo 2 filhos Mediana: observação que ocupa a posição central no conjunto de dados ordenados por exemplo, no conjunto de 5 dados 3, 4, 7, 8, 9 a mediana é 7 já no conjunto de 6 dados 3, 4, 7, 8, 9 e 10, a mediana é (7+8)/2 =7,5 Média aritmética: soma das observações dividida pelo número de observações por exemplo, no conjunto de dados 3, 4, 7, 8, 8 a média é (3 + 4 + 7 + 8 + 8)/5 = 30/5 = 6 Observação mais frequente Moda, mediana e média aritmética são medidas de posição central Bussab & Morettin, 1997 Medidas de posição - Média A média é o valor representativo do centro geométrico de um conjunto de dados. Seja xi o valor de uma variável quantitativa x no i-ésimo caso em um conjunto de dados com n casos. A média aritimética da variável x é a soma dos valores de x em todos os casos dividida por n. A média é sensível aos valores discrepantes, ou seja, demasiadamente extremos em relação ao conjunto de dados analisados: Conjunto de dados 1, 2, 3, 4, 5 Média = (1+2+3+4+5) / 5 = 3 Conjunto de dados 1, 2, 3, 4, 50 Média = (1+2+3+4+50) / 5 = 12 n x n xxxx X n i i n 1321 n x n xxxx n i i n 1321 Média amostral calculada com todos os n elementos de uma amostra Média populacional calculada com todos os n elementos de uma população Medidas de posição - Média A média pode ser pensada como o centro de gravidade dos valores de um conjunto de dados, ou seja, o ponto de equilíbrio após dispormos as observações sobre uma régua. Observações discrepantes afetam a média Medidas de posição - Mediana Medida de tendência central cujo valor localiza–se no centro exato de uma série de dados ordenados. Em ums série ordenada, 50% dos casos estão abaixo da mediana e os outros 50% estão acima dela. O valor da mediana depende da quantidade de casos n. Se o número de casos é ímpar, então a mediana é igual ao elemento central da série ordenada Se o número de casos é pas, então a mediana é a média aritimética dos dois elementos centrais A mediana é uma medida resistente, ou seja, é pouco afetada por valores discrepantes em relação ao conjunto de dados analisados: Conjunto de dados 1, 2, 3, 4, 5 Mediana = 3 Conjunto de dados 1, 2, 3, 4, 50 Mediana = 3 Medidas de posição - Mediana A seguir são listadas as comissões de uma amostra de 15 corretores no último mês (Stevenson, 2001): $2,038 $1,758 $1,721 $1,637 $2,097 $2,047 $2,205 $1,787 $2,287 $1,940 $2,311 $2,054 $2,406 $1,471 $1,460 Localize a mediana das comissões Primeiro é necessário ordenar os valores em ordem crescente $1,460 $1,471 $1,637 $1,721$1,758 $1,787 $1,940 $2,038 $2,047 $2,054 $2,097 $2,205 $2,287 $2,311 $2,406 Mediana Medidas de posição - Moda É o valor mais frequente em um conjunto de dados Ao contrário do que acontece com a média e a mediana, pode haver mais de uma moda em um conjunto de dados. É a única medida de localização central que pode ser utilizada em variáveis nominais A moda pode não ter significado, especialmente em dados de natureza contínua ou em dados discretos com poucas observações repetidas! Quando os dados estão agrupados em classes podemos falar da classe modal, ou seja, da classe com maior frequência. Moda unimodal bimodal Medidas de posição - Quartis Os quartis dividem um conjunto de dados ordenados em quatros partes iguais: 25% das observações estão abaixo do 1º quartil (Q1) 50% das observações estão abaixo do 2º quartil, a mediana (M) 75% das observações estão abaixo do 3º quartil (Q3) O 1º quartil é a mediana da metade das observações abaixo do 2º quartil: Q1 = 12.335 kWh No Excel = PERCENTIL(A1:A30;0,25) = 12.599,75 O 3º quartil é a mediana da metade das observações acima do 2º quartil: Q3 = 21.369 kWh No Excel = PERCENTIL(A1:A30;0,75) = 21.264,5 Q3 Q1 Medidas de posição - Quartis A seguir são listadas as comissões de uma amostra de 15 corretores no último mês: $2,038 $1,758 $1,721 $1,637 $2,097 $2,047 $2,205 $1,787 $2,287 $1,940 $2,311 $2,054 $2,406 $1,471 $1,460 Localize o primeiro e o terceiro quartis Primeiro é necessário ordenar os valores em ordem crescente $1,460 $1,471 $1,637 $1,721 $1,758 $1,787 $1,940 $2,038 $2,047 $2,054 $2,097 $2,205 $2,287 $2,311 $2,406 Mediana 1º Quartil 3º Quartil Medidas de posição - Decis e Percentis Os decis correspondem aos valores que dividem um conjunto de dados ordenados em 10 partes iguais Os percentis correspondem aos valores que dividem um conjunto de dados ordenados em 100 partes iguais Exemplo: Medidas de posição do consumo de energia elétrica em uma amostra de 30 domicílios Considere os consumos anuais (kWh) de 30 domicílios A mediana é um valor no meio do conjunto de dados ordenados. Metade dos consumos observados estão acima e metade abaixo da mediana Como neste caso N é par não há uma observação central. Neste caso a mediana é a média das observações nas posições 15 (30/2) e 16 (15+1) Mediana = (17382+17100)/2 = 17241 kWh No Excel = MED(A1:A30) Média = MÉDIA(A1:A30) = = 17.650,47 kWh Classe modal = [16424 kWh , 21371 kWh] Proximidade da média e da mediana, ambas na classe modal, indica que neste caso a distribuição do consumo é simétrica 30 30 1 i ikWh X Histograma 0% 5% 10% 15% 20% 25% 30% 35% 40% 45% 6530 11530 16530 21530 26530 Fr eq uê nc ia re la tiv a Proporção domcílio consumo anual (kWh) aquecedor de água condicionador de ar iluminação refrigrador freezer forno elétrico secador de roupa lavadora de roupa lavadora de louça outros 1 18.055 1 1 1 1 0 1 1 0 0 1 2 12.232 0 1 1 1 0 0 0 0 1 0 3 18.195 0 1 1 1 1 1 1 1 0 0 4 12.295 1 0 1 0 0 0 0 0 1 1 5 11.450 1 1 1 1 0 0 0 1 1 0 6 23.450 1 1 1 1 0 0 0 0 0 1 7 20.951 1 1 1 1 1 1 1 1 1 1 8 16.457 0 0 1 1 0 0 1 1 1 1 9 17.100 1 1 1 1 1 0 0 1 0 0 10 23.627 1 1 1 1 0 1 1 0 1 0 11 16.440 0 1 1 1 1 0 1 1 0 1 12 23.524 1 1 1 1 1 1 1 1 1 1 13 18.510 1 1 1 1 0 0 1 1 1 1 14 10.824 0 0 1 1 0 0 0 1 1 1 15 17.382 1 1 1 0 0 1 0 1 0 0 16 21.369 0 1 1 1 1 0 1 0 1 1 17 11.912 1 1 1 0 0 1 1 0 1 0 18 28.446 1 1 1 1 1 1 1 1 1 1 19 23.501 1 1 1 0 0 1 1 1 1 1 20 13.536 1 0 1 1 1 1 0 1 0 0 21 31.265 1 1 1 1 1 1 1 1 1 1 22 10.703 1 0 1 1 0 0 0 1 1 0 23 14.528 0 0 1 1 1 0 1 0 1 1 24 12.335 0 1 1 1 0 1 0 1 0 0 25 20.877 1 0 1 1 0 1 1 1 1 1 26 6.530 0 1 1 1 0 0 0 0 1 0 27 24.868 1 1 1 1 1 1 1 1 1 1 28 13.394 0 0 1 0 0 1 1 1 1 1 29 18.953 1 1 1 1 0 1 1 1 1 0 30 16.805 0 0 1 1 1 0 1 1 1 1 30 25 proporção 83,0proporção Medida aplicável em variáveis qualitativas Expressa a fração ou percentagem de itens de determinado grupo ou classe. Proporção de domicílios com refrigerador N x proporção Número de itens que apresentam determinada característica Número total de observações 83% Medidas de dispersão Indicam se os valores estão próximos uns dos outros ou separados Pequena dispersão Grande dispersão Quanto maior a dispersão, maior o afastamento entre os dados, logo menos informativa são a média e a mediana As medidas mais usadas são a amplitude, a distância interquartílica, a variância, o desvio padrão e o coeficiente de variação Medidas de dispersão - Amplitude A amplitude é a diferença entre o maior e o menor valor do conjunto de dados Usa apenas os valores extremos, nada informando quanto aos outros valores. Mesma amplitude, mas dispersões diferentes Fonte: Stevenson, W.J. Estatística Aplicada a Administração, Harbra, 2001 Medidas de dispersão – Distância Interquartílica A distância interquartílica é a diferença entre o terceiro e o primeiro quartis 25% das observações estão abaixo do 1º quartil (Q1) 75% das observações estão abaixo do 3º quartil (Q3) Distância interquartílica = Q3 – Q1 50 % das observações estão no intervalo entre Q3 e Q1 Quanto maior a distância interquartílica, maior a dispersão do conjunto de dados Medidas de dispersão - Variância 11 1 1 2 1 2 2 11 2 1 2 2 n Xnx n x N x n Xx S n i i n i i n i i n i i X A variância é a média dos quadrados dos desvios dos n valores de uma variável x em relação a média da variável no conjunto de dados. Funções do Excel VAR e VARA calculam a variância amostral VARP calcula a variância populacional n nx n x n x n x n i i n i i n i i n i i X 2 1 2 2 11 2 1 2 2 1 Variância populacional Variância amostral Medidas de dispersão - Variância 15 4645444342 151 22222 5 1 2 1 2 2 i i n i i X Xx n Xx S Considere o conjunto de dados amostrais: 2, 3, 4, 5, 6 n=5 X1 = 2 X2 = 3 X3 = 4 X4 = 5 X5 = 6 variância amostral 4 5 20 5 65432 5 5 11 i i n i i x n x X média amostral 5,2 4 10 4 8090 4 16536251694 15 4565432 1 222222 2 1 2 2 n Xnx S n i i X 5,2 4 10 4 41014 4 21012 222222 XS Modo alternativo para o cálculo da variância Medidas de dispersão– Desvio Padrão 1 2 1 2 2 n Xnx SS n i i XX O desvio padrão é a raiz quadrada positiva da variância O desvio padrão tem a mesma unidade das observações. No exemplo, o desvio padrão é expresso em kWh Funções no Excel DESVPAD e DESVPADA calculam o desvio padrão com base em uma amostra DESVPADP calcula o desvio padrão com base em uma população 1 2 1 2 2 n nx n i i XX Desvio padrão populacional Desvio padrão amostral Medida de dispersão - Coeficiente de Variação %100 _ média padrãodesvio CV O coeficiente de variação (CV) é outra medida de dispersão Quanto menor o CV mais homogêneo é o conjunto de dados Medida relativa de variabilidade, é adimensional. Útil na comparação das dispersões de duas distribuições diferentes Medida de dispersão - Coeficiente de Variação Exemplo: Um gerente de vendas está interessado em saber quanto há de homogeneidade no desempenho de seus vendedores entre regiões. Para tanto, recebeu os dados anuais sobre as vendas médias por vendedor das quatro regiões sobre sua responsabilidade (Mattar, 2006). O coeficiente de variação permite concluir que na região B está a equipe de vendas de desempenho mais homogêneo. Na região C a equipe com o desempenho menos homogêneo. Medidas de forma da distribuição Analisam o formato da distribuição dos dados em relação a distribuição Normal ou Curva de Gauss. Medida de assimetria: quantifica o grau de assimetria de uma distribuição de dados em relação a sua média. Medida de curtose: quantifica o grau de achatamento ou afunilamento de uma distribuição de dados. Curva Normal média = mediana = moda Variável Frequência Medidas de forma da distribuição – Medida de Assimetria Em uma distribuição simétrica a moda, a média e a mediana apresentam o mesmo valor. A medida de assimetria mede o grau de afastamento que uma distribuição apresenta do seu eixo de simetria. Distribuição simetrica Média = Mediana = Moda Eixo de simetria Variável Frequência Medidas de forma da distribuição – Medida de Assimetria Eixo de simetria Cauda desviada para a direita média mediana moda Distribuições assimétricas Cauda desviada para a esquerda média mediana moda Distribuição assimetrica positiva ou assimétrica à direita Exemplo: distribuição dos salários Distribuição assimetrica negativa ou assimétrica à esquerda Moda < Mediana < Média Moda > Mediana > Média Variável Variável Frequência Frequência Medidas de forma da distribuição – Medida de Assimetria Coeficiente de assimetria de Pearson: mede o grau de assimetria padrãodesvio ModaMédia AS _ 3 AS = 0 , distribuição simétrica AS > 0 , distribuição assimétrica positiva ou à direita AS < 0 , distribuição assimétrica negativa ou à esquerda No Excel, a função DISTORÇÃO calcula o coeficiente de assimetria Medidas de forma da distribuição - Curtose Diferentes classificações para curtoses: Platicúrtica: distribuição mais achatada que a curva Normal, com caudas gordas, maior dispersão ao redor da média (menor medida de curtose). Mesocúrtica: distribuição normal (nem achatada, nem afunilada) Leptocúrtica: distribuição mais afunilada que a curva normal, dados concetrados ao redor da média (alta curtose) mesocúrtica platicúrtica leptocúrtica Medidas de forma da distribuição - Curtose Coeficiente de curtose de Pearson: 3 4 1 2 1 4 n médiax n médiax C n i i n i i Platicúrtica: c<0 Mesocúrtica: c=0 Leptocúrtica: c>0 No Excel, a função CURT calcula o coeficiente de curtose Quadro Resumo Mattar, F.N. Pesquisa de Marketing, São Paulo: Editora Atlas,2006 Estatísticas descritivas com dados agrupados x = ponto médio do intervalo da classe de renda f = frequência absoluta em 100 unidades frel = frequência relativa fac = frequencia absoluta acumulada em 100 unidades frac = frequência relativa acumulada Uma pesquisa sobre a renda familiar realizada com uma amostra de 1000 pessoas resultou na seguinte tabela de distribuição de frequências (Mattar, 2006): Classe modal é a classe com a maior frequência absoluta, ou seja, a classe 10 -20 Estatísticas descritivas com dados agrupados Mattar (2006) Média = média dos pontos médios das classes (x) ponderadas pelas respectivas frequências absolutas (f) Estatísticas descritivas com dados agrupados Mattar (2006) Quartis Qn = valor do quartil que se deseja calcular (Q1 1º quartil, Q2 2º quartil, Q3 3º quartil) Q = frequência relativa acumulada do quartila ser calculado (Q=0,25 para o 1º quartil, Q = 0,50 para o segundo quartil, Q =0,75 para o terceiro quartil) v = valor médio do intervalo de classe em que o quartil está situado frac = frequência relativa acumulada até a classe anterior à do quartil considerado frel = frequência relativa da classe em que o quartil está situado Exemplo para a mediana, o 2º quartil (Q2) Q = 0,5 v = 15 v = 15 frac = 0,25 v = 15 frel = 0,30 Estatísticas descritivas com dados agrupados Mattar (2006) Quartis Qn = valor do quartil que se deseja calcular (Q1 1º quartil, Q2 2º quartil, Q3 3º quartil) Q = frequência relativa acumulada do quartila ser calculado (Q=0,25 para o 1º quartil, Q = 0,50 para o segundo quartil, Q =0,75 para o terceiro quartil) v = valor médio do intervalo de classe em que o quartil está situado frac = frequência relativa acumulada até a classe anterior à do quartil considerado frel = frequência relativa da classe em que o quartil está situado Exemplo para o 1º quartil (Q1) Q = 0,25 v = 5 v = 5 frac = 0 v = 5 frel = 0,25 Estatísticas descritivas com dados agrupados Mattar (2006) Quartis Qn = valor do quartil que se deseja calcular (Q1 1º quartil, Q2 2º quartil, Q3 3º quartil) Q = frequência relativa acumulada do quartila ser calculado (Q=0,25 para o 1º quartil, Q = 0,50 para o segundo quartil, Q =0,75 para o terceiro quartil) v = valor médio do intervalo de classe em que o quartil está situado frac = frequência relativa acumulada até a classe anterior à do quartil considerado frel = frequência relativa da classe em que o quartil está situado Exemplo para o 3º quartil (Q3) Q = 0,75 v = 25 v = 25 frac = 0,55 v = 55 frel = 0,20 Estatísticas descritivas com dados agrupados Mattar (2006) Desvio padrão Estatísticas descritivas com dados agrupados Mattar (2006) Box plot A média e o desvio padrão fornecem uma visão bastante resumida de uma distribuição de frequencias Média e desvio padrão não são medidas resistentes e por esta razão são afetadas por valores extremos. Uma medida resistente é pouco afetada por pequenas mudanças em alguns dados A mediana é uma medida resistente Por exemplo, considere os seguintes conjuntos de dados 5, 7, 8, 10, 12, 15 (média = 9,5 e mediana = 9,0 e desvio padrão = 3,62). 5, 7, 8, 10, 12, 150 (média = 32 e mediana = 9,0 e desvio padrão = 57,86). Para contornar estas deficiências Tukey propôs a construção deum gráfico chamado Box Plot John Tukey Box plot Considere os consumos anuais (kWh) de 30 domicílios A mediana é um valor no meio do conjunto de dados ordenados. Metade dos consumos observados estão acima e metade abaixo da mediana Como neste caso N é par não há uma observação central. Neste caso a mediana é a média das observações nas posições 15 (30/2) e 16 (15+1) Mediana = (17382+17100)/2 = 17241 kWh No Excel = MED(A1:A30) Box plot Quartis também são medidas de posição Separam o conjunto de dados em quartos: 25% das observações estão abaixo do 1º quartil (Q1) 50% das observações estão abaixo do 2º quartil, a mediana 75% das observações estão abaixo do 3º quartil (Q3) O 3º quartil é a mediana da metade das observações acima da Mediana: Q3 = 21.369 kWh No Excel = PERCENTIL(A1:A30;0,75) = 21.264,5 O 1º quartil é a mediana da metade das observações abaixo da Mediana: Q1 = 12.335 kWh No Excel = PERCENTIL(A1:A30;0,25) = 12.599,75 Q3 Q1 Box plot * Q1 Q3 M Menor valor observado acima da cerca inferior Maior valor observado abaixo da cerca superior Cerca inferior (CI) Cerca superior (CS) Distância interquartílica (DEQ) DEQ = Q3 - Q1 50% dos dados encontram-se neste intervalo Q1 – 1,5 DEQ Q3 + 1,5 DEQ 0 * * Observações maiores que a cerca superior são representadas por asteriscos (pontos atípicos ou outliers) Observações menores que a cerca inferior são representadas por asteriscos (pontos atípicos ou outliers) X O boxplot é uma representação gráfica de algumas medidas de posição Box plot * A caixa que ocupa o espaço entre o primeiro quartil (Q1) e o terceiro quartil (Q3) compreende 50% das observações, inclusive a mediana. A medida que uma observação se afasta desta caixa seguindo a linha vertical, para baixo ou para cima, mais distante a observação está do comportamento típico, representado pela mediana. Assim, considera-se como atípica qualquer observação localizada abaixo da cerca inferior (CI) ou acima da cerca superior (CS), O box plot é um procedimento exploratório bastante usual na identificação de dados atípicos Q1 Q3 M * * X Box plot Um boxplot informa: A localização central (mediana), o 1º e 3º quartis, o mínimo e o máximo. A dispersão dos dados: amplitude e distância inter-quartil A assimetria: posição relativa da mediana na caixa que ocupa o espaço entre o primeiro quartil (Q1) e o terceiro quartil (Q3). Boxplots são úteis para comparar várias amostras num mesmo gráfico. Box plot Número Município Renda per Capita 2000 15 Boa Vista (RR) 299,46 14 Mucajaí (RR) 170,89 13 Caracaraí (RR) 159,41 12 Iracema (RR) 159,14 11 São João da Baliza (RR) 149,88 10 São Luiz (RR) 149,49 9 Pacaraima (RR) 147,87 8 Caroebe (RR) 138,19 7 Rorainópolis (RR) 136,32 6 Cantá (RR) 115,78 5 Amajari (RR) 93,41 4 Bonfim (RR) 91,85 3 Alto Alegre (RR) 79,21 2 Normandia (RR) 66,13 1 Uiramutã (RR) 49,08 Município Renda per Capita 2000 Alto Alegre (RR) 79,21 Amajari (RR) 93,41 Boa Vista (RR) 299,46 Bonfim (RR) 91,85 Cantá (RR) 115,78 Caracaraí (RR) 159,41 Caroebe (RR) 138,19 Iracema (RR) 159,14 Mucajaí (RR) 170,89 Normandia (RR) 66,13 Pacaraima (RR) 147,87 Rorainópolis (RR) 136,32 São João da Baliza (RR) 149,88 São Luiz (RR) 149,49 Uiramutã (RR) 49,08 Considere a Renda per capita nos municípios de Roraima avaliada no Censo 2000 Primeiro, organizamos os dados na ordem decrescente da renda per capita e depois calculamos os quartis Neste caso N é ímpar (15 municípios), logo a mediana (M) é a observação central (município de Caroebe na posição 8 = (15+1)/2): Mediana = 138,19 O 1º quartil (Q1) é a mediana das 7 observações abaixo de 138,19: Q1 = 91,85 O 3º quartil (Q3) é a mediana das 7 observações acima de 138,19: Q3 = 159,14 M Q1 Q3 Box plot 0 50 100 150 200 250 300 350 Boa vista Mediana = 138,19 Q1 = 91,85 Q3 = 159,14 Maior valor observado que não supera a cerca superior (Mucajaí) Menor valor observado que supera a cerca inferior (Uiramutã) Box plot Número Município Renda per Capita 2000 15 Boa Vista (RR) 299,46 14 Mucajaí (RR) 170,89 13 Caracaraí (RR) 159,41 12 Iracema (RR) 159,14 11 São João da Baliza (RR) 149,88 10 São Luiz (RR) 149,49 9 Pacaraima (RR) 147,87 8 Caroebe (RR) 138,19 7 Rorainópolis (RR) 136,32 6 Cantá (RR) 115,78 5 Amajari (RR) 93,41 4 Bonfim (RR) 91,85 3 Alto Alegre (RR) 79,21 2 Normandia (RR) 66,13 1 Uiramutã (RR) 49,08 Distância interquartílica (DEQ) Q3 – Q1 = 159,14 – 91,85 = 67,290 Cerca superior (CS) = Q3 + 1,5 DEQ = 260,08 Cerca inferior (CI) = Q1 - 1,5 DEQ = -9,09 Box plot Número Município Renda per Capita 2000 16 Oiapoque (AP) 257,93 15 Macapá (AP) 253,69 14 Santana (AP) 162,39 13 Laranjal do Jari (AP) 157,43 12 Porto Grande (AP) 146,45 11 Serra do Navio (AP) 146,38 10 Calçoene (AP) 136,15 9 Amapá (AP) 135,43 8 Vitória do Jari (AP) 115,85 7 Ferreira Gomes (AP) 107,19 6 Pracuúba (AP) 91,45 5 Tartarugalzinho (AP) 89,98 4 Pedra Branca do Amapari (AP) 88,37 3 Mazagão (AP) 87,18 2 Itaubal (AP) 83,04 1 Cutias (AP) 77,43 Município Renda per Capita 2000 Amapá (AP) 135,43 Calçoene (AP) 136,15 Cutias (AP) 77,43 Ferreira Gomes (AP) 107,19 Itaubal (AP) 83,04 Laranjal do Jari (AP) 157,43 Macapá (AP) 253,69 Mazagão (AP) 87,18 Oiapoque (AP) 257,93 Pedra Branca do Amapari (AP) 88,37 Porto Grande (AP) 146,45 Pracuúba (AP) 91,45 Santana (AP) 162,39 Serra do Navio (AP) 146,38 Tartarugalzinho (AP) 89,98 Vitória do Jari (AP) 115,85 Considere a Renda per capita nos municípios do Amapá avaliada no Censo 2000 Neste caso N é par (16 municípios), logo a mediana (M) é a média das duas observações centrais nas posições 8 e 9: Mediana = (115,85 + 135,43)/2 = 125,64 O 1º quartil (Q1) é a mediana das 8 observações abaixo de 125,64: Q1 = (88,37 + 89,98)/2 = 89,17 O 3º quartil (Q3) é a mediana das 8 observações acima de 125,64: Q3 = (145,45 + 157,43)/2 = 151,94 M Q1 Q3 Primeiro, organizamos os dados na ordem decrescente da renda per capita e depois calculamos os quartis Box plot 0 50 100 150 200 250 300 OIapoque Macapá Mediana = 125,64 Q1 = 89,17 Q3 = 151,94 Número Município Renda per Capita 2000 16 Oiapoque (AP) 257,93 15 Macapá (AP) 253,69 14 Santana (AP) 162,39 13 Laranjal do Jari (AP) 157,43 12 Porto Grande (AP) 146,45 11 Serra do Navio (AP) 146,38 10 Calçoene (AP) 136,15 9 Amapá (AP) 135,43 8 Vitória do Jari (AP) 115,85 7 Ferreira Gomes (AP) 107,19 6 Pracuúba (AP) 91,45 5 Tartarugalzinho (AP) 89,98 4 Pedra Branca do Amapari (AP) 88,37 3 Mazagão (AP) 87,18 2 Itaubal (AP) 83,04 1 Cutias (AP) 77,43 Maior valor observado que não supera a cerca superior (Santana) Menor valor observado que supera a cerca inferior (Cutias) Box plot Distância interquartílica (DEQ) Q3 – Q1 = 151,94 – 89,17 = 62,77 Cerca superior (CS) = Q3 + 1,5 DEQ = 246,09 Cerca inferior (CI) = Q1 - 1,5 DEQ = -4,97 Box plot 0 50 100 150 200 250 300 350 OIapoque Macapá Boa vista Amapá Roraima As distribuições da renda per capita são semelhantes Box plotdo IDHM dos municípios do RJ em 1991 e 2000 20001991 ID HM 1,0 ,9 ,8 ,7 ,6 ,5 Niterói Cardoso MoreiraSão Francisco de Ita Rio de Janeiro Niterói São Francisco de Itabapoana Cardoso Moreira Niterói Rio de Janeiro Niterói Comparação entre dois momentos no tempo Box plot das taxas de retorno semanais das ações de cinco empresas negociadas na bolsa 1 2 3 4 5 -0.1 -0.05 0 0.05 0.1 Ta xa de re tor no se ma na l Column Number Allied Chemical Du Point Union Carbide Exxon Texaco A mediana de cada caixa indica o retorno esperado (nível) A altura de cada caixa indica a volatilidade da taxa de retorno Exercício Procure uma base de dados com pelo menos 30 casos e 5 variáveis. Identifique os tipos de variáveis existentes na base Faça a análise descritiva dos dados. Indique o software utilizado. Interprete os resultados obtidos. Que conclusões podem ser alcançadas? Prepare um relatório sobre o estudo. Bussab, W.O., Morettin, P.A. Estatística Básica, São Paulo: Atual Editora, 1997. Mattar, F.N. Pesquisa de Marketing, São Paulo: Editora Atlas,2006 Stevenson, W.J. Estatística Aplicada a Administração, Harbra, 2001 Referências bibliiograficas
Compartilhar