Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística – ferramentas para coleta e análise de dados Parte 1: Descrição e Apresentação de dados � Variáveis � População e Amostra � Distribuições de freqüência: Tabelas e gráficos � Medidas resumo de um conjunto de dados Medidas de posição: média, mediana, moda, quantis Medidas de variação: variância, desvio padrão, coeficiente de variação � Outros gráficos: gráficos de linha, boxplot � Associação entre variáveis: diagrama de dispersão, correlação Informações sobre estado civil, escolaridade, número de filhos,salários (em salários mínimos), idade (anos) e região de origem dos empregados de uma empresa. Número do Indivíduo Estado Civil Escolaridade Número de Filhos Salário (em SM) Idade (anos) Região origem 1 solteiro 1º grau * 4,00 26 Interior 2 casado 1o. grau 1 4,56 32 capital 3 casado 1o. grau 2 5,25 36 capital 4 solteiro 2o. grau * 5,73 20 outro 5 solteiro 1o. grau * 6,26 40 outro 6 casado 1o. grau 0 6,66 28 interior 7 solteiro 1o. grau * 6,86 41 interior 8 solteiro 1o. grau * 7,39 43 capital 9 casado 2o. grau 1 7,59 34 capital 10 solteiro 2o. grau * 7,44 23 outro 11 casado 2o. grau 2 8,12 33 interior 12 solteiro 1o. grau * 8,46 27 capital 13 solteiro 2o. grau * 8,74 37 outro 14 casado 1o. grau 3 8,95 44 outro 15 casado 2o. grau 0 9,13 30 interior Número do Indivíduo Estado Civil Escolaridade Número de Filhos Salário (em SM) Idade (anos) Região origem 16 solteiro 2o. grau * 9,35 38 outro 17 casado 2o. grau 1 9,77 31 capital 18 casado 1o. grau 2 9,80 39 outro 19 solteiro superior * 10,53 25 interior 20 solteiro 2o. grau * 10,76 37 interior 21 casado 2o. grau 1 11,06 30 outro 22 solteiro 2o. grau * 11,59 34 capital 23 solteiro 1o. grau * 12,00 41 outro 24 casado superior 0 12,79 26 outro 25 casado 2o. grau 2 13,23 32 interior 26 casado 2o. grau 2 13,60 35 outro 27 solteiro 1o. grau * 13,85 46 outro 28 casado 2o. grau 0 14,69 29 interior 29 casado 2o. grau 5 14,71 40 interior 30 casado 2o. grau 2 15,99 35 capital 31 solteiro superior * 16,22 31 outro 32 casado 2o. grau 1 16,61 36 interior 33 casado superior 3 17,26 43 capital 34 solteiro superior * 18,75 33 capital 35 casado 2o. grau 2 19,40 48 capital 36 casado superior 3 23,30 42 interior * informação faltante Organização padrão de um conjunto de dados Linha – indivíduos Colunas – variáveis Classificação das variáveis: Quantitativas � Discreta – assume um conjunto enumerável de valores (número de filhos) � Contínuas – assume um conjunto não enumerável de valores (salário, idade) Qualitativas � ordinais (escolaridade) � nominais (sexo, região de origem) Outras classificações existem mas não serão consideradas. Para responder perguntas sobre as variáveis precisamos conhecer como elas se comportam – precisamos conhecer a sua distribuição Como fazemos isto? A partir da observação de um conjunto de dados da variável de interesse Este conjunto de dados pode ser uma população ou uma amostra População: conjunto de indivíduos para os quais desejamos fazer inferências. Amostra: Sub-conjunto da população que é observado e a partir do qual desejamos fazer inferências para a população Nesta primeira parte do curso, sobre descrição e apresentação de dados, não vamos fazer distinção entre população e amostra. Descrição de uma variável qualitativa �Tabelas de Freqüências � Diagramas de barras �Diagrama de setores Tabela 1: Distribuição empregados da empresa segundo grau de escolaridade Grau de escolaridade Frequência ni Proporção fi 1º grau 2º grau 3º grau 12 18 06 0,3333 0,5000 0,1667 Total 36 1,0000 Figura 1: Distribuição dos empregados da empresa MB segundo grau de instrução 0 5 10 15 20 1o. Grau 2o. Grau superior Grau de Instrução Fr eq u ên ci a Figura 2: D istr ibuiç ão dos empregados da empresa MB segundo grau de instruç ão 2o. Grau 50% superior 17% 1o. Grau 33% � Podem ser construídos com freqüências absolutas relativas � Quando for fazer comparações entre grupos utilize sempre freqüências relativas Descrição de Variáveis Quantitativas � Distribuições de Freqüências � Histogramas Tabela 2: Distribuição dos empregados da empresa segundo o número de filhos Número de Filhos Frequência ni Proporção fi 0 1 2 3 4 5 4 5 7 3 0 1 0,20 0,25 0,35 0,15 0,00 0,05 Total 20 1,00 543210 30 20 10 0 No. Filhos Pe rc en t Figura 3: Histograma para o número de filhos histograma para número de filhos número de filhos fre qu ên ci a 0 1 2 3 4 5 0 1 2 3 4 5 6 7 Tabela 3: Distribuição dos empregados da empresa segundo o salário Salário Frequência (ni) Proporção(fi) 04|----08 08|----12 12|----16 16|----20 20|----24 10 12 8 5 1 0,2778 0,3333 0,2222 0,1389 0,0278 Total 36 1,00 2420161284 30 20 10 0 Salario Pe rc en t Figura 5: Histograma para o salário dos empregados Histograma de densidade Densidade = freqüência relativa / largura do intervalo Deve ser utilizado sempre as classes do histograma tem larguras diferentes Salário Frequência (ni) Proporção(fi) Densidade 04|----08 08|----12 12|----16 16|----20 20|----24 10 12 8 5 1 0,2778 0,3333 0,2222 0,1389 0,0278 0,0695 0,0833 0,0556 0,0347 0,0069 Total 36 1,00 0,25 2420161284 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0.00 Salario De ns ity Figura 4: Histograma para o salário dos empregados 2420161284 30 20 10 0 Salario Pe rc en t Figura 5: Histograma para o salário dos empregados Tabela 4: Distribuição dos empregados da empresa segundo o salário Salário Frequência ni Proporção fi Densidade 04|----08 08|----12 12|----16 16|----24 10 12 8 6 0,2778 0,3333 0,2222 0,1667 0,06945 0,08336 0,05555 0,04167 Total 36 1,00 0,25 24161284 30 20 10 0 Salario Pe rc en t Figura 6: Histograma para o salário dos empregados 24161284 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0.00 Salario De ns ity Figura 7: Histograma para o salário dos empregados No histograma as freqüências dos intervalos são representadas pelas áreas dos retângulos. Então as áreas dever ser iguais às freqüências ou devem guardar a mesma proporcionalidade com as freqüências, isto é area = k f(x). No primeiro grafico isto não acontece. Observe que no último intervalo a área = 8 f(x), diferente dos outros onde a área = 4 f(x). Portanto este gráfico não está correto. O segundo gráfico está correto. No eixo vertical colocamos a densidade (freqüência/largura do intervalo). Deste modo a área de cada retângulo é exatamente igual à freqüência do intervalo. Freqüências Acumuladas Tabela 5: Frequências absolutas e relativas, simples e acumuladas, dos empregados da empresa segundo o salário ----------1,0036Total 0,2778 0,6111 0,8333 0,9722 1,0000 10 22 30 35 36 0,2778 0,3333 0,2222 0,1389 0,0278 10 12 8 5 1 04|----08 08|----12 12|----16 16|----20 20|----24 Proporção Acumulada (Fi) Frequência Acumulada (Ni) Proporção (fi)Frequência (ni)Salário F ig u r a 8 : G r á f ic o d e P r o p o r ç õ e s A c u m u la d a s p a r a S a lá r io s 0 0 ,5 1 0 4 8 1 2 1 6 2 0 2 4 S a lá r io s Pr op or ção ac um ula da Salário Mediano Diagrama de ramo e folhas Útil para reapresentar a distribuição de freqüência para pequenos conjuntos de dados Diagrama de ramo e Folhas para IDADE 2 |034 2 |56789 3 |0011223344 3 |55667789 4 |00112334 4 |68 Diagrama de Ramo e Folhas para Salário 4|00 56 5|25 73 6|26 66 86 7|39 44 59 8|12 46 74 959|13 35 77 88 10|53 76 11|06 59 12|00 79 13|23 60 85 14|69 71 15|99 16|22 61 17|26 18|75 19|40 20| 21| 22| 23|30 Medidas Resumo de um Conjunto de Dados para variáveis quantitativas Medidas de Centro: média, mediana e moda Média Aritmética Simples n x x n i i∑ = = 1 xi é o valor observado da variável de interesse para o indivíduo i, n é o tamanho da amostra. Lê-se x barra Quando o conjunto de dados consiste da população é usual usar a notação N x N 1i i∑ = =µ onde N é o tamanho da população. 65,1 20 )53332222222111110000( x = +++++++++++++++++++ = k 5 1k kfx)20 1 x5() 20 3 x3() 20 7 x2() 20 5 x1() 20 4 x0( ∑ = =++++= Exemplo: Número de filhos k xk – No. de filhos frequência - fk 0| 0000 1 0 4/20 0| 11111 2 1 5/20 0| 2222222 3 2 7/20 0| 333 4 3 3/20 0| 5 4 0/20 0| 5 6 5 1/20 Esta forma de calcular a média será muito útil quando estudarmos as distribuições de probabilidade Diagrama de Ramo e Folhas para Salário 4|00 56 5|25 73 6|26 66 86 7|39 44 59 8|12 46 74 95 9|13 35 77 88 10|53 76 11|06 59 12|00 79 13|23 60 85 14|69 71 15|99 16|22 61 17|26 18|75 19|40 20| 21| 22| 23|30 12,11=x Como calcular aproximadamente a média a partir da tabela de freqüências? 1,667 3,333 3,111 2,500 0,612 0,2778 0,3333 0,2222 0,1389 0,0278 6 10 14 18 22 04|----08 08|----12 12|----16 16|----20 20|----24 Proporção (fk) 11,222 sk x fkPonto Médio (sk) Salário 22,11fsx k K 1k k =≈ ∑ = Mediana – valor que divide o conjunto de dados ao meio Pelo menos 50% dos valores são menores ou iguais a mediana Pelo menos 50% dos valores são maiores ou iguais a mediana Como calcular a mediana? Número de filhos 0 0 0 0 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 5 n = 20 20 x 0,50 = 10 pelo menos 10 observações menores ou iguais a mediana pelo menos 10 observações maiores ou iguais a mediana 0 0 0 0 1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 5 Mediana =(1+2)/2 = 1,5 (média das 2 observações centrais) Caso de n ímpar n = 21 21 x 0,50 = 10,5 pelo menos 10,5 (11) observações menores ou iguais a mediana pelo menos 10,5 (11) observações maiores ou iguais a mediana 0 0 0 0 1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 5 5 Mediana = 2 (observação central) 1) Para o cálculo da mediana é necessário que as observações estejam ordenadas 2) A média é mais sensível a ocorrência de valores extremos Exemplo: salários (em reais) de 10 pessoas: 200 200 250 260 285 300 320 330 350 3000 Mediana = 292,5 Excluindo a observação 3000 da amostra Mediana = 285 5,549=x 22,277=x Moda de uma distribuição – valor que ocorre com maior freqüência Número de filhos 0| 0000 0| 11111 0| 2222222 Moda = 2 0| 333 0| 0| 1 Distribuição Unimodal Distribuição Bimodal Pouco utilizada como medida descritiva Histogram of x x Fr e qu e nc y 0 100 200 300 400 500 0 50 10 0 15 0 20 0 25 0 Histogram of x x Fr eq u en cy 50 100 150 0 50 0 10 00 15 00 20 00 Distribuição simétrica Distribuições Assimétricas Media = mediana = moda Média > mediana Média < mediana Histogram of x x Fr eq u en cy 200 300 400 500 600 0 50 10 0 15 0 20 0 25 0 30 0 Medidas de Variação Desvio Padrão Amostral : mede a distância média das observações em torno da média amostral. Considere as idades de 10 pessoas Se todas têm a mesma idade não existe variação nos dados Quanto mais diferentes as pessoas forem quanto à idade maior é a variação entre elas. Como medir a variação entre os indivíduos? 1 )( 1 2 − − = ∑ = n xx s n i i )( xx − 2)( xx − 28,40196SOMA 0,36(19 –19,6) = -0,61910 2,56(18 –19,6) = -1,6189 0,36(19 –19,6) = -0,6198 0,16(20 –19,6) = 0,4207 1,96(21 –19,6) = 1,4216 11,56(23 –19,6) = 3,4235 6,76(17 –19,6) = -2,6174 1,96(21 –19,6) = 1,4213 0,16(20 –19,6) = 0,4202 2,56(18 –19,6) = -1,6181 x - Idade (anos)Indivíduo anos 6,19x = anos 78,116,3 110 4,28 s == − = s2 = 3,16 anos2 é chamado de variância amostral. Quando o nosso conjunto de dados consiste de uma população utilizamos outra notação para o desvio padrão e a variância N )x( N 1i 2 i∑ = µ− =σ N )x( N 1i 2 i 2 ∑ = µ− =σ Para interpretar o desvio padrão � Quanto maior o desvio padrão, maior é a variação das observações em torno da média. � Para qualquer conjunto de dados temos pelo menos 75% dos dados dentro do intervalo (Média – 2 DP, Média + 2 DP) e pelo menos 89% dos dados dentro do Intervalo (Média – 3 DP, Média + 3 DP). � Para distribuições simétricas em forma de sino (distribuições normais) O intervalo (Média – 1 DP, Média + 1 DP) contém 68,3% dos dados O intervalo (Média – 2 DP, Média + 2 DP) contém 95,4% dos dados O intervalo (Média – 3 DP, Média + 3 DP) contém 99,7% dos dados Escores padronizados Mede a distância de um indivíduo em relação à média em desvios padrão Considere as notas de dois alunos na disciplina de Estatística, ambos com nota 25, mas oriundos de turmas diferentes. Qual deles teve melhor desempenho em relação ao grupo 3 5 Desvio Padrão 1,6720B 120A zMédiaTurma s xxZ )( −= O escore padronizado indica a posição do individuo dentro do grupo. Coeficiente de variação É uma medida de variação que independe da unidade de medida x sCV = Diz o quanto o desvio padrão representa em relação à média. È usualmente expresso como porcentagem. Um pesquisador, desejando estudar a qualidade de vida nos 120 bairros de uma cidade, mediu quatro variáveis em cada um. 10 100 100 1100 Maximo 50%010284Número de praças públicas 19,74%6040157076Porcentagem de casas com saneamento básico 10%604088080Porcentagem de casas com energia elétrica 28,57%1001000200350700Renda domiciliar per capita (em reais) CVMinimoAmplitudeD.P.MedianaMédiaVariáveis Com relação à qual variável os bairros são mais homogêneos? E mais heterogêneos?
Compartilhar