Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 1 1 Introdução à Estatística Prof. Elmar Alves Peixoto Conceitos Básicos Dados Planejamentos de Experimentos Métodos de Amostragem Estatísticas Medidas de Tendência Central Análise Exploratória de Dados Medidas de Variação Medidas de Posição Fevereiro/2012 2 2 Conceitos Básicos Estatística: É um conjunto de métodos para planejar experimentos, obter dados e organizá-los, resumi-los, analisá-los, interpretá-los e deles extrair conclusões,(TRÌOLA, Mário F.) É um conjunto de métodos adequados para coleta, a exploração e descrição e para a interpretação de conjuntos de dados numéricos. População: É um conjunto de todos os elementos que estamos dispostos a estudá-los e que possuem pelo menos uma característica em comum. Ex.: População brasileira. Todos eleitores de um país. Censo: É um conjunto de dados relativos a todos elementos de uma população. Ex.: Censo do IBGE sobre a população brasileira. Censo sobre o nível reprovação em escolas de públicas de uma determinada região, município, estado ou país. Parâmetro: È um valor que representa uma característica de uma população. Ex.: 35% da população brasileira tem menos de 30 anos. Amostra: É um subconjunto de elementos de uma população. Ex.1 : Toma-se um conjunto(amostra) de 2000 eleitores para verificar tendência de voto numa eleição, dentro de uma população de 2.000.000 eleitores. Ex.2 : Amostra de variação de preços em determinadas supermercados para apurar a média da variação de preços em uma determinadas região como um todo. 3 3 Estatística: É um valor que representa uma característica de uma amostra. Ex.: 53% dos eleitores pesquisados têm preferência por um candidato TAL. Dados Quantitativos: São dados numéricos que representam medidas ou contagens. Qualitativos: Representam categorias, marcas, atributos. Ex.1.: A quantidade de um produto é um dado quantitativo, mas sua marca representa um dado qualitativo. Ex.2 : A quantidade de nicotina em uma determinada marca de cigarro é um dado quantitativo mais a marca Camel é um dado qualitativo. Ex.3 : O número de crianças na faixa etária entre 14 e 15 anos que concluíram o 1º grau é um dado quantitativo. Já o nível de qualidade do ensino público de um país ser ótimo, bom, regular ou ruim é um dado qualitativo. Discretos: Representam um número finito de valores possíveis. Podem ser enumeráveis. Contínuos: são dados que resultam de um número infinito de valores. Geralmente representam medidas, pesos. Ex1.: O número de alunos de uma sala é um dado discreto. já a quantidade de mel produzido por uma comédia é um dado continuo. Ex2. Quantidade litros de leite diários de uma vaca é um dado contínuo. Mas a quantidade de vacas de um curral é um dado discreto. Ex3. A idade de uma pessoa é um dado discreto, já sua altura é um dado contínuo. 4 4 Dados de Seção Transversal: são dados que foram coletados simultaneamente ou dentro de um mesmo período do tempo. Ex. Se formos comparar o IDH (o índice de desenvolvimento humano) de determinadas regiões, é bom que as pesquisas sejam feitas no mesmo período de tempo em todas regiões que queremos comparar. Não devemos comparar índices de uma região tomadas há 10 anos atrás com dados coletados atualmente em outras regiões. Dados de série histórica: São dados coletados através de um período de tempo considerável para aquela pesquisa. Ex.1 : Podemos acompanhar o IDH de uma determinada região através de um período do tempo, para estudarmos se os efeitos de uma política social de um determinado governo vem fazendo efeito sobre a qualidade de vida de um povo. Ex.2 : Estudo de evolução de uma carteira de fundo de investimento ou uma empresa específica, para podermos avaliar o risco ou sua variação em torno de uma média através do tempo. É preciso ficar claro que os dados estatísticos são muitas vezes indicadores e não determinantes de um estudo que deve ser acompanhado de outras variáveis, dentro de um sistema como um todo. 5 5 Nível de Mensuração Uma outra maneira de classificar os dados que podemos utilizar é considerá-los quanto ao se nível de mensuração. Nominal: São dados que representam marcas, categorias, sexo... Ordinal: São dados que podem dispostos em uma ordem, porém não podemos quantificar a diferença entre duas ordens quaisquer. Exemplo1: Ótimo, bom, regular, ruim e péssimo. Exemplo2: 1º e 3º lugares Intervalar: Podemos até quantificar uma diferença numérica entre eles, mas não há um ponto de partida que possamos considerar como zero, e também não há uma razão entre duas medidas. O exemplo clássico é a escala Fahrenheit, pois o ºF não implica e ausência de calor e 30º F não é o dobro de 60º F. °F = °C × 1.8 + 32 Ex.2: Número de inscrição de seu CPF. Razão: É um nível intervalar que considera ausência de quantidade como zero e há significado entre diferença e razão entre medidas. Exemplos: Medidas e Pesos. 6 6 Planejamento de Experimentos O planejamento de estudos que envolvem métodos estatísticos devem ser bem elaborados afim de evitarem erros e custos desnecessários, perdas de tempo e/ou conclusões errôneas. Para isto devemos seguir princípios básicos conforme abaixo: 1. Saber a questão a ser respondida e a população de interesse; 2. Pesquisa de dados bem definida inclusive a população; 3. Cuidados na coleta de dados; 4. Análise correta dos dados para uma conclusão dentro do objetivo da pesquisa. Métodos de Amostragem Amostra Aleatória : É uma amostra onde cada elemento de uma população concorre com a mesma chance de ser escolhido ou figurar na amostra. Há vários métodos para amostra aleatória. Uma delas seria a geração através de computadores. Amostra Aleatória Simples: Ocorre quando toda amostra de n elementos possui a mesma chance de ser escolhida. Amostra Estratificada: Divide-se uma população em duas ou mais sub-populações, que possuem características diferentes (como sexo) e em seguida retiramos uma amostra de cada sub-população ou estrato. Dentro de cada sub-população podemos utilizar um método para extração de uma amostra aleatória. Amostra Sistemática: É extraído de uma população, a partir de uma seqüência, um elemento a cada intervalo preestabelecido. Exemplo: o 10o elemento de cada lista de chamada de uma escola. 7 7 Amostra por Conglomerado: Dividi-se uma área populacional em conglomerados/seções. Escolhe–se aleatoriamente algumas dessas seções, e utiliza todos os seus elementos das seções escolhidas. Estatísticas Estatística Descritiva: Usamos para descrever ou resumir características importantes de um conjunto de dados amostral ou populacional. Inferência Estatística: Quando utilizamos de dados amostrais para fazer inferência ou generalizações sobre uma população. Exemplo 1: Quando calculamos a nota média de uma turma, estamos usando a estatística descritiva se considerarmos a turma como uma população, mas será uma inferência se usada a média para inferir sobra os alunos do UNI-BH como um todo. Estudo Observacional: Não há interferência ou manipulação dos dados ou elementos a serem estudados. Experimento:Quando adotamos um tratamento ou manipulamos os dados para estudar os efeitos sobre uma amostra. Confundimento: Ocorre o confundimento quando os efeitos de duas ou mais variáveis não podem distinguir-se uns dos outros. 8 8 Medidas de Tendência Central Uma medida de tendência central representa o valor do centro ou do meio de um conjunto de dados. Antes de defini-las, serão introduzidos os símbolos utilizados para melhor estudo e compreensão. = sigma = denota somatório de um conjunto. x = variável utilizada para representa um elemento/valor de uma amostra ou conjunto. xi = o índice i indica a posição do elemento num conjunto de dados ordenado. n = número de elementos de uma amostra N = número de elementos de uma população. = N x n i 1 = média de todos os valores de uma população. x = n x n i 1 = média de um conjunto de valores amostrais. Média Simples ou média aritmética – x ou = consiste do somatório dos valores dos elementos de um conjunto de dados dividido pela número de elementos deste conjunto. É a medida de tendência central mais utilizada em estatística, porém, o valor da média é extremamente sensível à ocorrência de valores muito extremos num conjunto de dados. Veremos isto com exemplos mais adiante. Se o conjunto representa uma amostra a média é representada pelo símbolo x ; se representa uma população a média é representada pelo símbolo . 9 9 Ex.1 – Dado o conjunto abaixo sobre os salários incentivos dos executivos de algumas empresas, calculemos a média salarial de dos incentivos. Empresa Salário em R$ Incentivos em R$ A 20.000,00 8.000,00 B 30.000,00 5.000,00 C 25.000,00 7.000,00 D 18.000,00 5.000,00 E 20.000,00 6.000,00 F 22.000,00 5.000,00 G 28.000,00 6.000,00 H 20.000,00 6.000,00 I 25.000,00 4.000,00 Tabela 1 x s n x n i 1 = 9 ,000.25,000.20,000.28,000.22,000.20,000.18,000.25,000.30,000.20 = = 11,111.23$ 9 ,000.208 R x i n x n i 1 = 78,777.5$ 9 ,000.4,000.6,000.6,000.5,000.6,000.5,000.7,000.5,000.8 R Mediana (Md) – É o valor localizado no centro da distribuição dos dados ordenados, de tal maneira que a metade dos dados se localiza abaixo e a outra metade se localiza acima desse valor. Ao contrário da média, a mediana é menos sensível a valores extremos (outliers). Outliers são valores que são considerados discrepantes em relação a um conjunto de dados. Ex. homens ou mulheres com altura muito superior a média de uma população. Devido ao fato da mediana ser menos sensível aos valores extremos, deve-se preferi-la como medida central quando a distribuição de valores é fortemente assimétrica ou considerar a média, excluindo os valores discrepantes do conjunto de dados a ser analisados. 10 1 0 Cálculo da mediana: se o conjunto possuir um número ímpar de valores, a mediana será o valor xi, onde i representa sua posição iésima, e é encontrado conforme formula a seguir: i = 2 1n . ou se for par através da média simples dos dois valores xi e xi+1 que estão nas posições do meio, onde i = 2 n . Vejamos o exemplo a seguir. Ex1. A = { 7 , 8 , 8 , 9 , 9, 9 ). ; O conjunto A está ordenado e contém um número par de elementos, portanto a mediana é a média dos elementos das posições i = 2 n = 2 6 = 3 ; e posição i+1 = 13 = 3 + 1 = 4 , temos então que a mediana 5,8 2 98 2 43 ~ xx x Ex.2 – Considerando os valores dos salários e incentivos dos executivos, de nossa tabela 1 anterior, encontramos após ordenação dos dados: Tabela 2 Como o número de elementos é impar, igual a 9, temos que a mediana são os valores Empresa Salário em R$ Incentivos R$ Empresa Salário em R$ Incentivos em R$ 1 D 18.000,00 5.000,00 I 25.000,00 4.000,00 2 A 20.000,00 8.000,00 D 18.000,00 5.000,00 3 E 20.000,00 6.000,00 F 22.000,00 5.000,00 4 H 20.000,00 6.000,00 B 30.000,00 5.000,00 5 F 22.000,00 5.000,00 E 20.000,00 6.000,00 6 C 25.000,00 7.000,00 H 20.000,00 6.000,00 7 I 25.000,00 4.000,00 G 28.000,00 6.000,00 8 G 28.000,00 6.000,00 C 25.000,00 7.000,00 9 B 30.000,00 5.000,00 A 20.000,00 8.000,00 11 1 1 nas posições da linha 5 2 19 2 1 n , do conjunto de dados ordenados, correspondentes às colunas 3 e 7 da tabela 2 acima. Ou seja, a mediana dos salários é R$22.000,00 e dos incentivos é R$6.000,00. Moda - M = É o valor que ocorre com maior freqüência em um conjunto de dados. Se ocorrer de uma amostra possuir 2 valores com a mesma freqüência, dizemos que o conjunto é bimodal; ocorrendo mais de dois valores com um número maior de freqüência, dizemos que o conjunto é multimodal. Considerando nossa tabela 2 anterior, temos que a moda salarial é R$20.000,00 e para os incentivos temos um conjunto bimodal de R$5.000,00 e R$6.000,00. Ponto médio = É a média da soma do menor e do maior valor de um conjunto de dados. Ex. Dado o conjunto A = { 7 , 8 , 8 , 9 , 9, 9 ), temos como ponto médio o valor: 8 2 97 PontoMédio Considerando a tabela 2 anterior, sobre salários e incentivos, temos: Ponto médio salarial = 00,000.24$ 2 ,000.30,000.18 R Ponto médio de incentivo = 00,000.6$ 2 ,000.8,000.4 R 12 1 2 MÉDIA PONDERADA Dado um conjunto de valores A = (xi, x2, x3, ... , xn), onde é atribuído a cada valor xi um valor pi correspondente, definido como peso. Denominaremos P = (p1, p2, p3, ...,pn) o conjunto dos valores pi . Definimos como Média Ponderada o valor Xw = i n i ii p px 1 Exemplo 1: Dois alunos prestaram vestibular para vagas em distintos cursos. A universidade avalia o resultado final de acordo com a nota específica de cada matéria, atribuindo um peso de acordo com o curso escolhido pelo aluno. Veja a tabela abaixo: Aluno A Curso A Aluno B Curso B MATÉRIA NOTA PESO MATÉRIA NOTA PESO Matemática 7,0 4 Matemática 6,0 1 Física 8,0 4 Física 5,0 1 Química 7,5 2 Química 8,0 3 Biologia 6,0 1 Biologia 9,0 4 Inglês 7,0 2 Inglês 8,0 3 Qual aluno obteve o melhor desempenho? Usando o conceito de média ponderada, calculemos a média do aluno A, conforme abaixo: Xa= 19 20,710,625,740,840,7 xxxxx = 7,3 Agora façamos o mesmo para o aluno B: Xb = 12 30,840,930,810,510,6 xxxxx = 7,9 13 1 3 Exercícios Ex.1: Dado um conjunto A = 30,29,29,29,28,25,25,22,20 , encontrar a Moda, Média, Mediana e Ponto Médio. Ex.2: Dado oconjunto M = 20.000, 800, 750, 850, 900, 2.400, 3.000, 1.500, 1.000, 850, 300, , referente a uma amostra de salários de uma empresa. Calcular a média, a mediana, a moda e o ponto médio. Compare os dois exemplos acima, faça uma crítica e diga qual melhor valor que representa uma medida central de cada conjunto. Como lidar com valores discrepantes? Ex.3: Dois investidores obtiveram os seguintes rendimentos em seus investimentos: Qual obteve o melhor rendimento financeiro? Quem obteve a melhor taxa média? Investimento Taxa Investidor A Rendimento Investidor B Rendimento Poupança 0,7% R$ 30.000,00 R$ 210,00 R$ 5.000,00 R$ 35,00 RDB 1,2% R$ 8.000,00 R$ 96,00 R$ 7.000,00 R$ 84,00 Dólar / F.Cambial -2,0% R$ 15.000,00 (R$300,00) R$ 10.000,00 (R$ 200,00) Ações 3,0% R$ 20.000,00 R$ 600,00 R$ 15.000,00 R$ 450,00 Ouro 2,5% R$ 5.000,00 R$ 125,00 R$ 10.000,00 R$ 250,00 Total R$ 78.000,00 R$ 731,00 R$ 47.000,00 R$ 619,00 Ex.4: Em uma determinada região, contém 5 países que apresentam os seguintes índices de mortalidade infantil: Qual a média do índice de mortalidade infantil considerando a região como um todo? País População ìndice A 100.000.000 0,02 B 40.000.000 0,90 C 65.000.000 0,30 D 25.000.000 0,85 E 96.000.000 0,16 14 1 4 Outras medidas de tendência central: Média Geométrica: Muito utilizada na Economia e no Mercado Financeiro para taxas médias, envolvendo juro composto. Mas em geral é a raiz enésima de um conjunto de n elementos. Ex.1 : Calcular a raiz geométrica dos seguintes números do conjunto A= { 5, 8, 12, 13 } x 4 131285 xxx 8,888 Exemplo 2: Calcular a taxa média de um Fundo de Investimento que rendeu respectivamente, 4% ; 5% e 2% nos três últimos períodos. Primeiro devemos aprender que a taxa está sempre vinculada, a fator de correção representado por 1 + i . No exemplo dado, os fatores de correção de cada taxa, são respectivamente: 1 + 4% ; 1 + 5% e 1 + 2%. Na prática o valor x da nossa média é: x = )02,01()05,01()04,01(3 xx 1,036951 O valor encontrado representa o fator de correção médio, para achar a taxa percentual, devemos subtrair 1 e multiplicar por 100. x = (1,036951 –1 ) x 100 = 3,6951% por período. Média Harmônica = Muito utilizada em conjunto de dados que representação taxa de variação. Como exemplo velocidade. x = x n 1 A média harmônica é utilizada quando estamos trabalhando com grandezas inversamente proporcionais. 15 1 5 Exemplo1. Calcule a média harmônica de 5, 6 , 7 e 8. X = 8 1 7 1 6 1 5 1 4 6,3 Exemplo 2. Um automóvel desloca com uma velocidade de 60 km/h em um percurso de 1200 km e volta com uma velocidade de 40 km/h, qual sua velocidade média? Use a média harmônica e veja o resultado como é diferente do que esperávamos? Obs.: o resultado do cálculo deverá apresentar sempre uma casa decimal a mais do que apresentado pelo conjunto de dados original. Durante os cálculos utilizar o maior número de casas decimais possíveis. MEDIDAS DE VARIAÇÃO São medidas mostram como os valores podem diferir(distanciar) entre si e de quanto diferem de um valor específico, geralmente a média de conjunto de valores. Os números relativamente próximos uns dos outros têm baixa medidas de variação em relação aos que são mais dispersos. Quando estamos estudando um conjunto de valores em estatística, além de um valor de tendência central, é razoável que queiramos saber como que os outros valores estão situados em relação a este. Esta dispersão é de grande importância para a análise do problema ou situação que nos apresenta quanto a sua interpretação. Vamos iniciar estudando um exemplo retirado do nosso livro texto, pág. 38. A tabela abaixo mostra tempo de espera em minutos de dois bancos, sendo que o Banco 1 utiliza fila única e outro Banco 2 que utiliza fila múltipla. 16 1 6 Banco 1 6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7 Banco 2 4,2 5,4 5,8 6,2 6,7 7,7 7,7 8,5 9,3 10,0 Encontremos primeiro a média, a moda, a mediana e o ponto médio do tempo de espera de cada Banco. ( O Aluno deverá fazer ). Podemos constatar que os valores são os mesmos, então perguntamos o que levou a maioria dos Bancos a fazerem opção pela fila única. É ISTO QUE AS MEDIDAS DE VARIAÇÃO IRÃO NOS RESPONDER. Amplitude È a diferença entre o maior e o menor valor de um conjunto de dados. A amplitude pode nos dar a princípio uma idéia de quão estão dispersos os números, mas tem o inconveniente de utilizar apenas dois elementos. Banco 1 A = 7,7 – 6,5 = 1,2 minutos Banco 2 A = 10,0 – 4,2 = 5,8 minutos Pode-se observar que os clientes do Banco 1 tem uma expectativa de variação de espera menor que o Banco 2, . Mas esta expectativa, considerando apenas a amplitude sem conhecer o restante dos dados pode nos levar a uma interpretação errônea. Iremos mostrar mais adiante após falarmos de desvio-padrão. 17 1 7 Desvio-padrão: É uma medida de variação de valores de um conjunto em relação à média. É mais útil e mais importante medida de variação. 1 )( 1 2 n xx S x i i = fórmula do desvio-padrão de uma amostra . )1( )]([][ 22 amostralpadrãodesviooparaabreviadaformula nn xxn S s = )1( )].([].[ 22 nn xfxfn cc = fórmula de cálculo do desvio-padrão para uma tabela de freqüência. onde x é o ponto médio da classe e fc a freqüência de classe.. N x n i i 1 2)( = fórmula do desvio-padrão de uma população Variância = s2 = 1 )( 1 2 n x n i i x = variância de uma amostra Variância = N x n i i 1 2 2 )( = variância de uma população. Vamos calcular os desvios-padrão do exemplo anterior, sobre as filas dos Bancos 1 e 2, comparar e analisá-los. - Agora, vamos ao exemplo abaixo que relaciona as notas da AIA dos alunos de um 18 1 8 curso de graduação da UNI-BH. Vamos calcular o valor da média, desvio- padrão e Amplitude, fazermos nova análise para conclusão dos nossos estudos. Turma 1 = { 3, 20, 20, 20, 20, 21, 21, 21 , 21, 21, 22, 23} Turma 2 = { 4, 5, 5, 6 , 6, 7, 8 , 10, 17, 18, 19, 19} A1 = 23 - 3 = 20 , x =19,4 s1 = 5,2 ; A2 = 19 – 4 = 15 , x = 10,3 , s2 = 6,1 Refaça os valores da turma 1, retirando o(s) valor(es) outlier(s). Coeficiente de variação: Indica uma dispersão relativa dos dados considerando o desvio padrão e a média de um conjunto de dados. _ x s CV (amostra) ou CV (população) Ex. 1 – Calcule o coeficiente de variação dos exemplos referente as notas da AIA dados acima. 19 1 9 Análise Exploratória de Dados Permite um estudo bastante formal dos dados e nos leva rapidamente aoconhecimento de estruturas existentes no conjunto de dados, principalmente com uma estrutura gráfica. Três características importantes que proporcionam uma visão satisfatória sobre os dados: 1. A natureza ou forma da distribuição de dados, como forma de sino, uniforme ou assimétrica. 2. Um valor representativo como média. 3. Uma medida de dispersão ou variação. Tabela de freqüência: È uma tabela que visa organizar os valores de um conjunto de dados em classes ou categorias, de maneira a proporcionar ao estudante uma visão quantitativa da sua distribuição.. Para melhor entender, vamos analisar os dos conjuntos de valores da tabela 1, coletados pelos alunos do curso de GRH, 2º semestre de 2005, do UNI-BH. Referem-se a peso, altura e idade. Devemos organizar o conjunto em classes, de modo que cada classe contenha apenas os valores, limitados pelos limite inferior de classe(inclusive) e o limite superior de classe(inclusive). Bom, vamos definir então esses novos termos para melhor compreensão. Amplitude – A - de um conjunto de dados é a diferença entre o maior e menor valor entre os elementos deste conjunto de dados. Ex.1 : Calcular a amplitude da idade e peso dos alunos do curso 20 2 0 Classes: São os intervalos onde serão distribuídos os dados de uma amostra ou população. Ex.1 : O quadro abaixo, tabela 3, mostra uma distribuição de dados em 6 classes. Tabela 3 Números de Classes – K : após o cálculo do valor de A, podemos agora dividi-lo de modo que cada subdivisão, represente uma classe de valores. Para isto devemos definir o número de classes que iremos trabalhar. Há duas regras básicas para cálculo de um número de classes K: Segundo SCOTT, em um conjunto de até 100 dados, podemos definir a quantidade de classe pela raiz quadrada desse número. K = n ; se n 100 ou Acima de 100, calculamos através da fórmula: K = 5.log n Algumas literaturas a respeito do assunto, adota como parâmetro, um número mínimo de 5 e máximo de 20. Nos cabe utilizar o bom senso, analisar cada situação e utilizar a que mais convir ao estudo proposto. Mas na prática, ambas se aproximam. Veremos isto mais tarde. Podemos utilizar a tabela 1, anexa, contendo dados dos alunos do 1 ano GRH/2005, para encontrar este número. Sabemos que nossos conjunto possui 46 alunos, então aplicando os conceitos acima, temos: Faixa de Renda fc 501 a 1000 5 1001 a 1500 12 1501 a 2000 18 2001 a 2500 15 2501 a 3000 3 Acima 3000 1 21 2 1 n 100 K = 46 = 6,78 7 Amplitude de Classe c: representa o intervalo que conterá os elementos de cada classe. c = 1K A ; onde A representa a amplitude do conjunto de dados e K número de classes que iremos distribuir os dados. Utilizando mais uma vez nossos dados referente à idade da tabela 1 ou 2, temos: A = 49 – 19 = 30 c = 17 30 = 5 Então, nosso dados da tabela 1 ou 2, anexas, os dados da idade, serão distribuídos em 7 classes, sendo que cada terá uma amplitude igual a 5. Limite Inferior : LI = ( menor valor - 2 c ) *, representa o menor valor do intervalo da primeira classe de dados. Continuando a utilizar os dados referentes a idade , temos: LI = 19 - 2 5 = 16,5 LI pode ser 16 ou 17, neste nosso exemplo. *Alguns autores define o LI, como sendo o menor valor do conjunto. Limite Inferior de Classe: É o menor valor que pode pertencer a uma classe. Limite Superior de Classe – LSC: delimita o maior valor que pode pertencer a uma Classe. Marca de classe: São os pontos médios de classe. 22 2 2 Vamos então iniciar nosso estudo prático com os dados referente a idade da tabela 2, ao final da apostila. 1 - Calculemos a amplitude, a média, a moda, mediana e o ponto médio. 2 – Vamos organizar agora nossos dados em classe. Para tanto, encontremos o número de classe adequado, a amplitude do classe, Limite inferior e limite inferior de cada classe. 3 – Achar o ponto médio de cada classe. 4 – Montar um gráfico de freqüência. Freqüência de classe – fc : É o número de valores ou dados que pertencem a cada classe. Freqüência relativa - fr: totalfrequencia declassefrequencia Freqüência relativa percentual: fr 100 Freqüência acumulada - fa = É a soma da freqüência de uma classe específica com freqüência das classes anteriores. Freqüência relativa acumulada: É o valor acumulado das freqüências relativas. x = média de uma tabela de frequência = n xfc . , onde: fc = freqüência de classe x = ponto médio de classe ou marca da classe n = freqüência total 23 2 3 Prática Como a melhor maneira de aprender e assimilar conhecimentos é fazendo, vamos montar nossa tabela usando os dados, relativos a idade, desta turma. Os outros dados estaremos estudando utilizando o computador, o EXCEL. Obs.: Considerando LI como 17. classe fc fr fra fr% fra% pto.médio classe x fc .x fc . x 2 total Obs.: a partir dos dados da amplitude e freqüência de classe podemos construir nossos gráficos. 24 2 4 Tabela a ser utilizada para o peso. classe fc fr fra fr% fra% pto.médio classe x fc .x fc . x 2 total Obs.: a partir dos dados da amplitude e freqüência de classe podemos construir nossos gráficos. Tabela a ser utilizada para altura. classe fc fr fra fr% fra% pto.médio classe x fc .x fc . x 2 total 25 2 5 Assimetria - Coeficiente de Pearson Uma distribuição é simétrica se a metade esquerda do seu histograma é aproximadamente a imagem-espelho da metade da direita. Neste caso a média tem o mesmo valor da mediana e da moda. Uma distribuição é assimétrica quando o histograma mostra uma tendência de concentração mais a esquerda ou direita. Dizemos assimetria negativa, quando a média e a mediana estão situadas à direita da moda, e assimetria positiva se estiverem a direita Fórmula para encontrar o grau de assimetria de um conjunto de dado: Coeficiente de Pearson - I = s medianax )(3 ; se I 1 ou I - 1 , dissemos que os dados podem ser considerados significativamente assimétricos. 26 2 6 Exercícios: Calcular o índice de assimetria de Pearson, para os exemplos anteriores da fila dos Bancos e das tabelas 2, referente peso, altura e idade dos alunos do UNI- BH, curso Tecnológico GRH. 27 2 7 Algumas regras práticas e Empírica Regra prática do desvio-padrão:s = 4 A Regra Empírica = 68-95-99,7 para dados com distribuição em foram de sino. Cerca de 68% dos valores estão a menos de um desvio-padrão em relação à média amostral ou populacional. Cerca de 95% dos valores encontram-se a menos de dois desvios-padrão em relação à média amostral ou populacional. E finalmente, aproximadamente 99,7% dos valores encontra-se a menos de três desvios-padrão em relação à média amostral ou populacional. Exercício – Certifique as regras acima e verifique utilizando os dados da tabela 2. Bom agora estamos pronto para iniciar nossos estudos acima, considerando nossa tabela de idade, peso e medida, utilizando o EXCEL. Medidas de Posição Indica quão distante um valor x, de um conjunto de dados, em relação à média dos elementos desse conjunto. Escore z ou escore padronizado: indica o números de desvios-padrão que um valor x de um conjunto de dados situa-se em relação à média desse conjunto de dados: 28 2 8 z = s xx )( = fórmula para um conjunto amostral. z = )( x = formula para um conjunto populacional. O valor z representa melhor, quando queremos comparar dados, do que a simples diferença entre um valor xi qualquer e a media _x de uma amostra ou população. OUTRAS MEDIDAS DE POSIÇÃO. Percentis – divide um conjunto de dados em 100 pares Quartis: Representados por Q1, Q2, e Q3, (primeiro, segundo e terceiro quartil), são outras medidas de posição que dividem o conjunto de dados em quatro partes. Exercício1 – Faça uma correlação entre os percentis e os quartis. Teorema de Chebyshev Há pelo menos ( 2 1 1 z ) valores, entre a média _ x e z desvios-padrões , considerando uma distribuição de dados e z > 1. 1 - A vantagem do teorema de Chebyshev é que pode ser aplicado a qualquer amostra, independente de sua distribuição. 2 – A regra empírica, pressupõe uma distribuição normal, em forma de sino. Porém seus valores já encontram-se tabelados. 29 2 9 Exercícios de Revisão. 1) – Qual a melhor medida de tendência central mais utilizada, considerando a moda, mediana, média e ponto médio de uma amostra ou população? 2) – Dê exemplos de dados discretos e contínuos. 3) Considere a tabela abaixo, referente a Variação Mensal do IGPM. Encontre a moda, a mediana, a média, o ponto médio, a amplitude e o desvio padrão. Faça uma tabela e o gráfico da de distribuição de freqüência.: Utilize o Excel. Variação Mensal do IGPM de jan/2002 a Julho/2005 Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez 2002 0,36% 0,06% 0,09% 0,56% 0,83% 1,54% 1,95% 2,32% 2,40% 3,87% 5,19% 3,75% 2003 2,33% 2,28% 1,53% 0,92% -0,26% -1,00% -0,42% 0,38% 1,18% 0,38% 0,49% 0,61% 2004 0,88% 0,69% 1,13% 1,21% 1,31% 1,38% 1,31% 1,22% 0,69% 0,39% 0,82% 0,74% 2005 0,39% 0,30% 0,85% 0,86% -0,22% -0,44% -0,34% Tabela referente ao exercício 3. 4) Calcule o coeficiente de Pearson para a o exemplo acima. 5) Porque o desvio-padrão é mais importante e útil medida de variação? 6) calcule o valor do escore z para o IGPM de junho/2004. 7) Qual a taxa média mensal inflacionária, considerando as seguintes taxas? 5,5% ; 7,1% ; 1,9% e 3,6%. 8) Um país obteve os seguintes crescimentos nos últimos 5 anos: 1,42% ; 4,41% ; 3,32% ; 6,8% e 0,80% , qual foi seu crescimento médio anual? 30 3 0 Tabela 1 – Alunos do curso Gestão de RH – 1 o período 2005 Introdução à Estatística - GRH - 1o período matrícula idade peso altura 1 4045219608 20 59 1,67 2 4052219552 44 47 1,59 3 405219550 21 59 1,66 4 405219132 47 104 1,70 5 405219135 43 61 1,73 6 405219167 35 75 1,74 7 405219615 30 64 1,69 8 405219142 25 74 1,77 9 455219139 24 93 1,85 10 405219616 27 85 1,75 11 405219168 26 55 1,64 12 405219133 34 95 1,95 13 405219146 37 70 1,73 14 405219175 30 57 1,70 15 405219612 22 60 1,65 16 405219614 28 60 1,70 17 405219180 26 57 1,65 18 40503090 19 60 1,61 19 405219543 19 48 1,67 20 405219164 30 60 1,65 21 405219520 20 53 1,68 22 405219159 25 58 1,62 23 405219550 49 58 1,50 24 405219134 23 55 1,65 25 405219174 27 62 1,66 26 405219601 23 50 1,61 27 405219613 23 60 1,65 28 405219554 38 62 1,62 29 405219149 32 70 1,63 30 405219144 24 62 1,60 31 405219163 31 60 1,56 32 405219152 45 45 1,55 33 405219165 30 52 1,62 34 405219553 29 50 1,60 35 405219176 28 60 1,69 36 4052219603 46 57 1,58 37 405219617 35 51 1,52 38 405219161 21 63 1,66 39 405219145 29 70 1,60 40 404213492 26 49 1,59 41 4014213515 42 56 1,63 42 404213491 40 78 1,79 43 4042213497 29 63 1,68 44 404213471 22 105 1,87 45 404213500 34 54 1,62 46 404213478 33 56 1,69 31 3 1 Tabela –2 - Alunos do 1o período de GRH – Tecnológico – 2o S - 2005-08-08 matrícula idade peso altura 18 40503090 19 60 1,61 19 405219543 19 48 1,67 1 4045219608 20 59 1,67 21 405219520 20 53 1,68 3 405219550 21 59 1,66 38 405219161 21 63 1,66 15 405219612 22 60 1,65 44 404213471 22 105 1,87 24 405219134 23 55 1,65 26 405219601 23 50 1,61 27 405219613 23 60 1,65 9 455219139 24 93 1,85 30 405219144 24 62 1,60 8 405219142 25 74 1,77 22 405219159 25 58 1,62 11 405219168 26 55 1,64 17 405219180 26 57 1,65 40 404213492 26 49 1,59 10 405219616 27 85 1,75 25 405219174 27 62 1,66 16 405219614 28 60 1,70 35 405219176 28 60 1,69 34 405219553 29 50 1,60 39 405219145 29 70 1,60 43 4042213497 29 63 1,68 7 405219615 30 64 1,69 14 405219175 30 57 1,70 20 405219164 30 60 1,65 33 405219165 30 52 1,62 31 405219163 31 60 1,56 29 405219149 32 70 1,63 46 404213478 33 56 1,69 12 405219133 34 95 1,95 45 404213500 34 54 1,62 6 405219167 35 75 1,74 37 405219617 35 51 1,52 13 405219146 37 70 1,73 28 405219554 38 62 1,62 42 404213491 40 78 1,79 41 4014213515 42 56 1,63 5 405219135 43 61 1,73 2 4052219552 44 47 1,59 32 405219152 45 45 1,55 36 4052219603 46 57 1,58 4 405219132 47 104 1,70 23 405219550 49 58 1,50
Compartilhar