Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística – ferramentas para coleta e análise de dados Parte 1: Descrição e Apresentação de dados � Variáveis � População e Amostra � Distribuições de freqüência: Tabelas e gráficos � Medidas resumo de um conjunto de dados Medidas de posição: média, mediana, moda, quantis Medidas de variação: variância, desvio padrão, coeficiente de variação � Outros gráficos: gráficos de linha, boxplot Informações sobre estado civil, escolaridade, número de filhos,salários (em salários mínimos), idade (anos) e região de origem dos empregados de uma empresa. Número do Indivíduo Estado Civil Escolaridade Número de Filhos Salário (em SM) Idade (anos) Região origem 1 solteiro 1º grau * 4,00 26 Interior 2 casado 1o. grau 1 4,56 32 capital 3 casado 1o. grau 2 5,25 36 capital 4 solteiro 2o. grau * 5,73 20 outro 5 solteiro 1o. grau * 6,26 40 outro 6 casado 1o. grau 0 6,66 28 interior 7 solteiro 1o. grau * 6,86 41 interior 8 solteiro 1o. grau * 7,39 43 capital 9 casado 2o. grau 1 7,59 34 capital 10 solteiro 2o. grau * 7,44 23 outro 11 casado 2o. grau 2 8,12 33 interior 12 solteiro 1o. grau * 8,46 27 capital 13 solteiro 2o. grau * 8,74 37 outro 14 casado 1o. grau 3 8,95 44 outro 15 casado 2o. grau 0 9,13 30 interior Número do Indivíduo Estado Civil Escolaridade Número de Filhos Salário (em SM) Idade (anos) Região origem 16 solteiro 2o. grau * 9,35 38 outro 17 casado 2o. grau 1 9,77 31 capital 18 casado 1o. grau 2 9,80 39 outro 19 solteiro superior * 10,53 25 interior 20 solteiro 2o. grau * 10,76 37 interior 21 casado 2o. grau 1 11,06 30 outro 22 solteiro 2o. grau * 11,59 34 capital 23 solteiro 1o. grau * 12,00 41 outro 24 casado superior 0 12,79 26 outro 25 casado 2o. grau 2 13,23 32 interior 26 casado 2o. grau 2 13,60 35 outro 27 solteiro 1o. grau * 13,85 46 outro 28 casado 2o. grau 0 14,69 29 interior 29 casado 2o. grau 5 14,71 40 interior 30 casado 2o. grau 2 15,99 35 capital 31 solteiro superior * 16,22 31 outro 32 casado 2o. grau 1 16,61 36 interior 33 casado superior 3 17,26 43 capital 34 solteiro superior * 18,75 33 capital 35 casado 2o. grau 2 19,40 48 capital 36 casado superior 3 23,30 42 interior * informação faltante Organização padrão de um conjunto de dados Linha – indivíduos Colunas – variáveis Classificação das variáveis: Quantitativas � Discreta – assume um conjunto enumerável de valores (número de filhos) � Contínuas – assume um conjunto não enumerável de valores (salário, idade) Qualitativas � ordinais (escolaridade) � nominais (sexo, região de origem) Outras classificações existem mas não serão consideradas. Para responder perguntas sobre as variáveis precisamos conhecer como elas se comportam – precisamos conhecer a sua distribuição Como fazemos isto? A partir da observação de um conjunto de dados da variável de interesse Este conjunto de dados pode ser uma população ou uma amostra População: conjunto de indivíduos para os quais desejamos fazer inferências. Amostra: Sub-conjunto da população que é observado e a partir do qual desejamos fazer inferências para a população Nesta primeira parte do curso, sobre descrição e apresentação de dados, não vamos fazer distinção entre população e amostra. Descrição de uma variável qualitativa �Tabelas de Freqüências � Diagramas de barras �Diagrama de setores (ou diagrama de pizza) Tabela 1: Distribuição empregados da empresa segundo grau de escolaridade Grau de escolaridade Frequência ni Proporção fi 1º grau 2º grau 3º grau 12 18 06 0,3333 0,5000 0,1667 Total 36 1,0000 Figura 1: Distribuição dos empregados da empresa MB segundo grau de instrução 0 5 10 15 20 1o. Grau 2o. Grau superior Grau de Instrução F r e q u ê n c i a Figura 2: D istr ibuiç ão dos empregados da empresa MB segundo grau de instrução 2o. Grau 50% superior 17% 1o. Grau 33% � Podem ser construídos com freqüências absolutas relativas �Diagrama de setores não é recomendado para variáveis ordinais � Quando for fazer comparações entre grupos utilize sempre freqüências relativas Tabela 2: Distribuição dos empregados da empresa segundo o salário Salário Frequência (ni) Proporção(fi) 04|----08 08|----12 12|----16 16|----20 20|----24 10 12 8 5 1 0,2778 0,3333 0,2222 0,1389 0,0278 Total 36 1,00 Descrição de Variáveis Quantitativas � Tabelas de frequência � Histogramas 2420161284 30 20 10 0 Salario P e r c e n t Figura 5: Histograma para o salário dos empregados Histograma de densidade Densidade = freqüência relativa / largura do intervalo Deve ser utilizado sempre as classes do histograma tem larguras diferentes Salário Frequência (ni) Proporção(fi) Densidade 04|----08 08|----12 12|----16 16|----20 20|----24 10 12 8 5 1 0,2778 0,3333 0,2222 0,1389 0,0278 0,0695 0,0833 0,0556 0,0347 0,0069 Total 36 1,00 0,25 2420161284 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0.00 Salario D e n s i t y Figura 4: Histograma para o salário dos empregados 2420161284 30 20 10 0 Salario P e r c e n t Figura 5: Histograma para o salário dos empregados Tabela 4: Distribuição dos empregados da empresa segundo o salário Salário Frequência ni Proporção fi Densidade 04|----08 08|----12 12|----16 16|----24 10 12 8 6 0,2778 0,3333 0,2222 0,1667 0,06945 0,08336 0,05555 0,04167 Total 36 1,00 0,25 �Ultima classe tem tamanho diferente das demais 24161284 30 20 10 0 Salario P e r c e n t Figura 6: Histograma para o salário dos empregados 24161284 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0.00 Salario D e n s i t y Figura 7: Histograma para o salário dos empregados No histograma, as freqüências dos intervalos são representadas pelas áreas dos retângulos. Então as áreas dever ser iguais às freqüências ou devem guardar a mesma proporcionalidade com as freqüências, isto é area = k f(x). No primeiro grafico isto não acontece. Observe que no último intervalo a área = 8 f(x), diferente dos outros onde a área = 4 f(x). Portanto este gráfico não está correto. O segundo gráfico está correto. No eixo vertical colocamos a densidade (freqüência/largura do intervalo). Deste modo a área de cada retângulo é exatamente igual à freqüência do intervalo. Descrição de Variáveis Quantitativas Discretas Tabela 2: Distribuição dos empregados da empresa segundo o número de filhos Número de Filhos Frequência ni Proporção fi 0 1 2 3 4 5 4 5 7 3 0 1 0,20 0,25 0,35 0,15 0,00 0,05 Total 20 1,00 histograma para número de filhos número de filhos f r e q u ê n c i a 0 1 2 3 4 5 0 1 2 3 4 5 6 7 Freqüências Acumuladas Tabela 5: Frequências absolutas e relativas, simples e acumuladas, dos empregados da empresa segundo o salário ----------1,0036Total 0,2778 0,6111 0,8333 0,9722 1,0000 10 22 30 35 36 0,2778 0,3333 0,2222 0,1389 0,0278 10 12 8 5 1 04|----08 08|----12 12|----16 16|----20 20|----24 Proporção Acumulada (Fi) Frequência Acumulada (Ni) Proporção (fi)Frequência (ni)Salário F ig u r a 8 : G r á f ic o d e P r o p o r ç õ e s A c u m u la d a s p a r a S a lá r io s 0 0 ,5 1 0 4 8 1 2 1 6 2 0 2 4 S a lá r io s P r o p o r ç ã o a c u m u l a d a Salário Mediano Diagrama de ramo e folhas Útil para reapresentar a distribuiçãode freqüência para pequenos conjuntos de dados Diagrama de ramo e Folhas para IDADE 2 |034 2 |56789 3 |0011223344 3 |55667789 4 |00112334 4 |68 Diagrama de Ramo e Folhas para Salário 4|00 56 5|25 73 6|26 66 86 7|39 44 59 8|12 46 74 95 9|13 35 77 88 10|53 76 11|06 59 12|00 79 13|23 60 85 14|69 71 15|99 16|22 61 17|26 18|75 19|40 20| 21| 22| 23|30 Medidas Resumo de um Conjunto de Dados para variáveis quantitativas Medidas de Centro: média, mediana e moda Média Aritmética Simples n x x n i i∑ = = 1 xi é o valor observado da variável de interesse para o indivíduo i, n é o tamanho da amostra. Lê-se x barra Quando o conjunto de dados consiste da população é usual usar a notação N x N 1i i∑ = =µ onde N é o tamanho da população. 65,1 20 )53332222222111110000( x = +++++++++++++++++++ = k 5 1k kfx)20 1 x5() 20 3 x3() 20 7 x2() 20 5 x1() 20 4 x0( ∑ = =++++= Exemplo: Número de filhos k xk – No. de filhos frequência - fk 0| 0000 1 0 4/20 0| 11111 2 1 5/20 0| 2222222 3 2 7/20 0| 333 4 3 3/20 0| 5 4 0/20 0| 5 6 5 1/20 Esta forma de calcular a média será muito útil quando estudarmos as distribuições de probabilidade Diagrama de Ramo e Folhas para Salário 4|00 56 5|25 73 6|26 66 86 7|39 44 59 8|12 46 74 95 9|13 35 77 88 10|53 76 11|06 59 12|00 79 13|23 60 85 14|69 71 15|99 16|22 61 17|26 18|75 19|40 20| 21| 22| 23|30 12,11=x Como calcular aproximadamente a média a partir da tabela de freqüências? 1,667 3,333 3,111 2,500 0,612 0,2778 0,3333 0,2222 0,1389 0,0278 6 10 14 18 22 04|----08 08|----12 12|----16 16|----20 20|----24 Proporção (fk) 11,222 sk x fkPonto Médio (sk) Salário 22,11fsx k K 1k k =≈∑ = Mediana – valor que divide o conjunto de dados ao meio Pelo menos 50% dos valores são menores ou iguais a mediana Pelo menos 50% dos valores são maiores ou iguais a mediana Como calcular a mediana? Número de filhos 0 0 0 0 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 5 n = 20 20 x 0,50 = 10 pelo menos 10 observações menores ou iguais a mediana pelo menos 10 observações maiores ou iguais a mediana 0 0 0 0 1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 5 Mediana =(1+2)/2 = 1,5 (média das 2 observações centrais) Caso de n ímpar n = 21 21 x 0,50 = 10,5 pelo menos 10,5 (11) observações menores ou iguais a mediana pelo menos 10,5 (11) observações maiores ou iguais a mediana 0 0 0 0 1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 5 5 Mediana = 2 (observação central) 1) Para o cálculo da mediana é necessário que as observações estejam ordenadas 2) A média é mais sensível a ocorrência de valores extremos Exemplo: salários (em reais) de 10 pessoas: 200 200 250 260 285 300 320 330 350 3000 Mediana = 292,5 Excluindo a observação 3000 da amostra Mediana = 285 5,549=x 22,277=x Moda de uma distribuição – valor que ocorre com maior freqüência Número de filhos 0| 0000 0| 11111 0| 2222222 Moda = 2 0| 333 0| 0| 1 Distribuição Unimodal Distribuição Bimodal Pouco utilizada como medida descritiva Histogram of x x F r e q u e n c y 0 100 200 300 400 500 0 5 0 1 0 0 1 5 0 2 0 0 2 5 0 Histogram of x x F r e q u e n c y 50 100 150 0 5 0 0 1 0 0 0 1 5 0 0 2 0 0 0 Distribuição simétrica Distribuições Assimétricas Media = mediana = moda Média > mediana Média < mediana Histogram of x x F r e q u e n c y 200 300 400 500 600 0 5 0 1 0 0 1 5 0 2 0 0 2 5 0 3 0 0 Medidas de Variação Desvio Padrão Amostral : mede a distância média das observações em torno da média amostral. Considere as idades de 10 pessoas Se todas têm a mesma idade não existe variação nos dados Quanto mais diferentes as pessoas forem quanto à idade maior é a variação entre elas. Como medir a variação entre os indivíduos? 1 )( 1 2 − − = ∑ = n xx s n i i )( xx − 2)( xx − 28,40196SOMA 0,36(19 –19,6) = -0,61910 2,56(18 –19,6) = -1,6189 0,36(19 –19,6) = -0,6198 0,16(20 –19,6) = 0,4207 1,96(21 –19,6) = 1,4216 11,56(23 –19,6) = 3,4235 6,76(17 –19,6) = -2,6174 1,96(21 –19,6) = 1,4213 0,16(20 –19,6) = 0,4202 2,56(18 –19,6) = -1,6181 x - Idade (anos)Indivíduo anos 6,19x = anos 78,116,3 110 4,28 s == − = s2 = 3,16 anos2 é chamado de variância amostral. Quando o nosso conjunto de dados consiste de uma população utilizamos outra notação para o desvio padrão e a variância N )x( N 1i 2 i∑ = µ− =σ N )x( N 1i 2 i 2 ∑ = µ− =σ Para interpretar o desvio padrão � Quanto maior o desvio padrão, maior é a variação das observações em torno da média. � Para qualquer conjunto de dados temos pelo menos 75% dos dados dentro do intervalo (Média – 2 DP, Média + 2 DP) e pelo menos 89% dos dados dentro do Intervalo (Média – 3 DP, Média + 3 DP). � Para distribuições simétricas em forma de sino (distribuições normais) O intervalo (Média – 1 DP, Média + 1 DP) contém 68,3% dos dados O intervalo (Média – 2 DP, Média + 2 DP) contém 95,4% dos dados O intervalo (Média – 3 DP, Média + 3 DP) contém 99,7% dos dados Escores padronizados Mede a distância de um indivíduo em relação à média em desvios padrão Considere as notas de dois alunos na disciplina de Estatística, ambos com nota 25, mas oriundos de turmas diferentes. Qual deles teve melhor desempenho em relação ao grupo 3 5 Desvio Padrão 1,6720B 120A zMédiaTurma s xxZ )( −= O escore padronizado indica a posição do individuo dentro do grupo. A variável padronizada tem média zero e desvio padrão igual a 1. Geralmente a padronização de variáveis é feita para a construção de indicadores. Coeficiente de variação É uma medida de variação que independe da unidade de medida x sCV = Diz o quanto o desvio padrão representa em relação à média. È usualmente expresso como porcentagem. Um pesquisador, desejando estudar a qualidade de vida nos 120 bairros de uma cidade, mediu quatro variáveis em cada um. 10 100 100 1100 Maximo 50%010284Número de praças públicas 19,74%6040157076Porcentagem de casas com saneamento básico 10%604088080Porcentagem de casas com energia elétrica 28,57%1001000200350700Renda domiciliar per capita (em reais) CVMinimoAmplitudeD.P.MedianaMédiaVariáveis Com relação à qual variável os bairros são mais homogêneos? E mais heterogêneos? Quantis A mediana divide o conjunto de dados em duas partes de mesmo tamanho. Para dividirmos um conjunto de dados em 4 partes precisamos de 3 números – os quartis Para dividirmos um conjunto de dados em 10 partes precisamos de 9 números – os decis Para dividirmos um conjunto de dados em 100 partes precisamos de 99 números – os percentis De modo geral chamamos estas quantidade de quantis da distribuição de frequências. q(p) – quantil de ordem p pelo menos 100 p% dos valores são menores ou iguais a q(p) pelo menos 100 (1-p)% dos valores são maiores ou iguais a q(p) q(0,25), q(0,50), q(0,75) – (1º, 2º e 3º. Quartis) q(0,10), q(0,20), q(0,30),...., q(0,90) – decis q(0,01), q(0,02),........., q(0,99) – percentis Como calcular um quantil? q(0,75) = ? 36 x 0,75 = 27 36 x 0,25 = 09 pelo menos 27 observações menores ou iguais a q(0,75) pelo menos 09 observações maiores ou iguais a q(0,75)q(0,75) = (13,85+14,69)/2 = 14,27 Se o número resultante da multiplicação de n (tamanho do conjunto de dados) por p (ordem do quantil) for inteiro, o quantil será a média da observação de ordem np com a observação de ordem np +1 Diagrama de Ramo e Folhas para Salário 4|00 56 5|25 73 6|26 66 86 7|39 44 59 8|12 46 74 95 9|13 35 77 88 10|53 76 11|06 59 12|00 79 13|23 60 85 14|69 71 15|99 16|22 61 17|26 18|75 19|40 20| 21| 22| 23|30 Como calcular um quantil? q(0,20) = ? 36 x 0,20 = 7,2 36 x 0,25 = 28,8 pelo menos 7,2 observações ≤ a q(0,75) 8 pelo menos 28,8 observações ≥ a q(0,75) 29 q(0,20) = 7,39 Se o número resultante da multiplicação de n (tamanho do conjunto de dados) por p (ordem do quantil) for fracionário, o quantil será a observação cuja ordem ígual ao valor np arredondado para cima. Diagrama de Ramo e Folhas para Salário 4|00 56 5|25 73 6|26 66 86 7|39 44 59 8|12 46 74 95 9|13 35 77 88 10|53 76 11|06 59 12|00 79 13|23 60 85 14|69 71 15|99 16|22 61 17|26 18|75 19|40 20| 21| 22| 23|30 Os quartis junto com os valores mínimos e máximos podem ser usados para construir um gráfico esquemático da distribuição de freqüências chamado de diagrama de caixas ou boxplot 2422201816141210864 7 6 5 4 3 2 1 0 Salario F r e q u e n c y Histogram of Salario 25155 Salario Boxplot of Salario 25155 Salario Boxplot of Salario Min. Q1 Q2 Q3 Max. O tamanho da caixa é chamado de distância Interquartílica (DQ) é usado como medida de variação. Observações atípicas são observações destoantes no conjunto de dados encontradas nos extremos da distribuição. Todas observações que encontram- se a uma distância maior do que 1,5 DQ abaixo do primeiro quartil ou a uma distância maior do que 1,5 DQ acima do terceiro quartil são chamadas “outliers”. Observações além de 3 DQ são chamadas “outliers extremos” A regra acima pode ser incluída na construção do boxplot. Os asteriscos indicam os valores identificados como “outliers”. Considere os salários (em SM) de 30 homens e 30 mulheres 25.022.520.017.515.012.510.07.55.02.50.0 40 30 20 10 0 SalarioF P e r c e n t Histograma de salários - sexo feminino 454035302520151050 30 20 10 0 SalárioM P e r c e n t Histograma de salários - sexo masculino MF 40 30 20 10 0 SEXO S a l á r i o Média ponderada: Consiste numa média onde as observações possuem pesos diferentes. Um pesquisador deseja medir a variação nos preços do café da manha. Para isto ele pretendo construir um índice. Considerando que uma cesta de café da manha é composta por pães, café, leite e derivados. No último mês ele observou a seguinte variação nos preços. 1,07Leite e derivados 1,05Variação média 1,05pão 1,03café Variação mensal nos preços Preço atual/Preço anterior Produto Na média calculada acima todos os produtos tem o mesmo peso. As contribuições de cada um dos produtos no custo da cesta de cafés são diferentes. Assuma que do valor gasto com a cesta de café 10% é gasto com café, 40% com pães e 50% com leite e derivados. Então ao calcular a média das variações de preço devemos dar pesos diferentes aos produtos, isto é calcular uma média ponderada 058,1 10,04,010,0 1,07) x (0,50 1,05) x (0,40 1,03) x 10,0( xw =++ ++ = Para o exemplo ∑ ∑ = = = n 1i i n 1i ii w w xw x
Compartilhar