Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 ESTATÍSTICA BÁSICA Estatística: É a arte de estudar o comportamento e a tendência de dados de populações investigadas de forma censitária ou por amostragem. As variáveis utilizadas pela estatística nestas observações podem ser: Qualitativas e Quantitativas. Variável Qualitativa: Expressa qualidades que não são mensuráveis, mas podem ser contadas. Estes dados podem ser distribuídos em categorias mutuamente exclusivas, como por exemplo: sexo (masculino, feminino), cor, estado civil, causa morte, tipos de doenças, etc. A variável qualitativa pode ser Ordinal e Nominal. Variável Qualitativa Nominal: Quando os dados são apresentados em categorias a variável está associada a experimentos que admitem duas respostas: sim ou não. Estas informações para serem analisadas estatisticamente devem ser transformadas em dados quantitativos, isto ocorre quando se considera o número de respostas sim e não de cada pergunta, como por exemplo: sexo (masculino = 0 e feminino = 1). Variável Qualitativa Ordinal: quando os dados são observados por categorias classificadas em uma ordenação natural. Ex: gravidade uma doença: leve = 0; moderado = 1 e grave = 2. Experimento em que se queira avaliar: Intensidade da dor, gravidade de qualquer doença, etc. Variável Quantitativa: Esta associada a experimentos cujos dados podem ser mensuráveis. São classificadas em discretas ou descontínuas e contínuas. Variável Discreta: são aquelas que assumem valores inteiros em qualquer conjunto de dados. Ex: número de filhos, número de automóveis, número de pacientes, etc. Variável Contínua: são aquelas que podem variar ao longo de uma escala contínua, isto é pode assumir qualquer valor entre dois pontos. Ex: Idade, peso, estatura, tempo, temperatura, etc. Na investigação de populações a estatística pode ser: Descritiva e Indutiva. Estatística Descritiva: quando os estudos e análises não vão além do conjunto de dados observados. Estatística Indutiva: é aquela que ultrapassa os limites do conjunto de conhecimentos fornecidos pela base de dados pesquisados, isto é, a população investigada é analisada a partir de uma amostra desta população. Principais fases do Trabalho Estatístico Planejamento: Detalhamento de todo o processo de investigação e metodologia da pesquisa, de acordo com o objetivo do trabalho. Coleta: Levantamento de dados sobre o fato a ser analisado. Esta coleta pode ser Direta e Indireta. Direta - quando os dados são obtidos na fonte originária. (Questionários, cartas, entrevistas, observações, etc.) Indireta - quando os dados são copilados de outras fontes que não a originária. (Anuários, publicações, etc.) Crítica: Deve ser iniciada no instrumento de coleta, visando homogeneizar a qualidade dos dados da pesquisa. O momento mais indicado é a partir dos dados coletados pela pesquisa piloto. Apuração e Apresentação: Através de tabelas e gráficos. Análise: Estudo e conclusões sobre a população investigada. Página 2 Elementos da tabela: Essenciais e Complementares. Elementos Essenciais. Título: é a indicação que precede a tabela, contendo a designação do fato observado, local e época em que foi registrado. Cabeçalho: é a parte superior da tabela que especifica o conteúdo das colunas. Coluna Indicadora: é a parte da tabela que especifica o conteúdo das linhas. Corpo: é o conjunto de colunas e linhas que contém, respectivamente, as informações sobre o fato observado. Casa (célula): é o cruzamento da coluna com a linha no corpo da tabela. Não existindo informações devem ser preenchidas com algum sinal convencional, cujos principais são os seguintes: Quando não existe a informação pesquisada. ... Quando não se dispõe dos dados, isto é: não temos certeza da existência ou não da informação. ? Quando há dúvida sobre a exatidão do valor. É colocado à esquerda da informação. & Quando o dado retifica informação anteriormente publicada. É colocada a esquerda da informação. x Quando o dado for omitido a fim de evitar individualização da informação. 0 Quando o valor numérico é muito pequeno para ser expresso pela unidade de medida utilizada. Elementos Complementares (colocados no rodapé da tabela). Fonte: é a indicação da entidade responsável pelo fornecimento dos dados ou por sua elaboração. Nota: são informações de natureza geral, destinadas a conceituar ou esclarecer o conteúdo das tabelas ou indicar a metodologia adotada no levantamento ou na elaboração dos dados. Chamadas: são informações de natureza específica sobre determinada parte da tabela. São identificadas por algarismos arábicos ou asteriscos, sempre a esquerda de cada informação e a direita da coluna indicadora, em ordem crescente de cima para baixo e da esquerda para a direita. Unidades de Medidas Devem ser utilizadas sempre no singular e em letras minúsculas. Ex: Grama (g); Quilo (kg); Tonelada (t); Metro (m); Segundo (s); Minuto (min); etc. Data de Referência dos Dados - Anos civis consecutivos: 2000 - 10; 1990 – 010 (esta em mudança de século). - Anos civis não consecutivos: 2000 - 2010 - Período de doze meses diferente do ano civil: 2000/10 Página 3 Séries Estatísticas É um conjunto de dados numéricos sobre fatos observados, sendo as variações qualitativas ou quantitativas expressas em números ou por ordem de grandeza. A série estatística deve possuir em suas tabelas os seguintes elementos. - Época (tempo) - período relativo à coleta de dados. - Região (local) - local onde se passam os fatos observados - Fenômeno (fato observado) - variável pesquisada Tipos de Séries Estatísticas Série Histórica, Evolutiva, Temporária ou Cronológica: quando a variável é o tempo, permanecendo fixos o local e o fato observado. Série Geográfica, Territorial ou Espacial: quando a variável é o local, permanecendo fixos o tempo, e o fato observado. Série Específica ou Categórica: quando a variável é o fato observado, permanecendo fixo o tempo e o local. Distribuição e Freqüência ou Série de Freqüência: são aquelas que permanecem fixos o tempo, o local e o fenômeno descrito, sendo que este é apresentado através de gradações que concentram os resultados das observações. Podem ser construídas por valores ou intervalo de valores da variável pesquisada. Elaboração de uma distribuição de freqüências. 1. Dados Brutos: são aqueles que ainda não foram numericamente organizados. Ex: Índice Pluviométrico registrado num período de 48 dias, no município de Açaí, no período de julho a agosto de 2009. 152 159 165 155 159 160 141 148 163 178 157 174 159 172 142 164 151 166 148 157 151 162 173 141 142 148 168 176 158 148 162 155 176 150 143 157 155 152 155 142 179 152 143 170 174 168 172 150 2. Rol: é a organização dos dados brutos por ordem de grandeza. 141 141 142 142 142 143 143 148 148 148 148 150 150 151 151 152 152 152 155 155 155 155 157 157 157 158 159 159 159 160 162 162 163 164 165 166 168 168 170 172 172 173 174 174 176 176 178 179 Distribuições de Freqüências por valores: é indicada para pequenas amostras (n < 30), sendo construída com base nos valores da variável investigada e suas respectivas freqüências. Pode ser aplicada em amostras ou populações maiores, desde que a variável pesquisada seja bastante homogênea, levando a uma repetição significativa de valores investigados. Ex: Construir uma distribuição de valores para os 25 primeiros valores deste rol. Página 4 Índice Pluviométrico Nº de Ocorrências 141 2 142 3 143 2 148 4 150 2 151 2 152 3 155 4 157 3 ∑ 25 Índice Pluviométrico Nº de Ocorrências 140|--145 7145|--150 4 150|--155 7 155|--160 11 160|--165 5 165|--170 4 170|--175 6 175|--180 4 ∑ 48 Precipitação Pluviométrica em Açaí - 2009 Distribuições de Freqüências por classes de valores: é construída subdividindo o Rol dos dados pesquisados em Intervalos de Classes, associando a cada intervalo suas respectivas freqüências. É indicada para grandes amostras (n ≥ 30). Os itens a seguir complementam os passos necessários para elaboração desta distribuição de freqüências (Ver acima – lado esquerdo). 3. Amplitude Total (A): é a diferença entre o maior e menor valor do Rol ou da Distribuição de Freqüência. Neste caso interessa a amplitude do Rol, portanto: A = 179 - 141 = 38 4. Intervalo de Classe (h): é a diferença absoluta entre o limite inferior e superior de classes sucessivas, ou entre os limites reais de uma mesma classe. Este intervalo é dimensionado por intermédio da fórmula empírica de Sturges, idealizada para rol com pelo menos duzentos dados. Porém não existe nenhuma contra-indicação que seja utilizada, para uma melhor distribuição de valores em conjuntos menores. Em qualquer situação podemos estabelecer algumas prioridades para escolha deste intervalo. Quando o valor do intervalo calculado estiver em torno de 10 (9 < h < 11), podemos escolher o 10 ou seus múltiplos para intervalo. O mesmo raciocínio demos ter para intervalo calculado em torno de 5 ou seus múltiplos (4 > h < 6). h = A/(1 + 3,322*logn) Para este exemplo: h = 38/(1 + 3,322*log48) 5 5. Classes de Freqüências: são os grupamentos em que o rol da pesquisa foi subdividido, de acordo com a dimensão do Intervalo de Classe. São constituídas pelos valores da variável X, que se enquadram entre seus extremos: Li — Ls; Li |— Ls; Li —| Ls; Li |—| Ls. Freqüências de Classes Freqüência Simples Absoluta (fi): é o número de vezes que se repete determinado valor de uma variável no caso de distribuição de freqüências por valores, ou o número de valores de uma variável contida em cada classe de freqüência caso se trate de distribuição de freqüência por classes de valores. ∑fi = f1 + f2 + ... + fn = n (n = número de observações do rol). Freqüência Simples Relativa (fri): é o número relativo de unidades em cada classe de freqüência ou para valor da variável pesquisada. É obtida dividindo cada freqüência simples absoluta pela freqüência total. fri = fr1 + fr2 + ... + frn = 1/n * (f1 + f2 + ...+ fn) = 1/n * n = 1 Página 5 Freqüência Acumulada de uma Classe: é a soma da freqüência simples (absoluta ou relativa) desta classe com as respectivas freqüências simples das classes anteriores. As freqüências acumuladas também são chamadas: Abaixo de (crescente) e Acima de (decrescente). F1 = f1 e Fn = fi = n Fr1 = fr1 e Frn = fn Freqüência Percentual: é o percentual de unidades por valores ou classes de valores, são percentuais das freqüências relativas (simples ou acumulada). Apresentação Gráfica: A representação gráfica de uma série estatística tem por finalidade ilustrar o fato observado de forma simples em didática, procurando fornecer ao usuário uma percepção rápida e segura dos dados observados. Principais Diagramas: Curvas, Colunas, Barras, Setores (pizza), Polar (radar), Histograma e Polígono de Freqüência. Diagramas em Curvas: Este tipo de gráfico presta-se para a representação de séries cujos dados se apresentam em função do tempo (séries cronológicas). O princípio geral do gráfico em curva é caracterizado pelo par (x, y) de coordenadas que podem ser representadas num sistema cartesiano. Determinados graficamente, todos os pontos da série, basta uni-los por segmentos de reta. Pacientes por Tipo de tratamento - agosto de 2009 Tratamento Ano Queiloplastia Palatoplastia Total 2004 8 13 21 2005 38 34 72 2006 18 25 43 2007 15 21 36 2008 11 18 29 2009 8 20 28 0 10 20 30 40 2004 2005 2006 2007 2008 2009 Pacientes por Tipo de tratamento - agosto de 2009 Queiloplastia Palatoplastia Diagrama Em Colunas: É construído por meio de retângulos com áreas proporcionais aos dados observados. A distância entre as colunas corresponde a 2/3 ou metade da base do retângulo. Sempre que possível este diagrama deve ser construído em ordem crescente ou decrescente. O mesmo critério é utilizado para o diagrama em barras. É bem indicado para séries: geográficas e específicas. Página 6 Analfabetos 30 34% 25 22% 55 Primeiro grau 42 48% 60 54% 102 Segundo grau 14 16% 20 18% 34 Terceiro grau 2 2% 7 6% 9 Total 88 100% 112 100% 200 Pacientes da Unidade de Saude X, por Escolaridade e Gênero - 2011 Gênero Escolaridade Total Masculino Feminino 0% 10% 20% 30% 40% 50% 60% Analfabetos Primeiro grau Segundo grau Terceiro grau Pacientes da Unidade de Saude X, por Escolaridade e Gênero - 2011 Masculino Feminino Diagrama Em Setores ou Pizza: É construído num círculo de raio qualquer, com ângulos centrais (setoriais) proporcionais as parcelas dos dados observados. Pode ser aplicado em séries geográficas, específicas e históricas, principalmente nas duas primeiras. Este diagrama deve ser construído em ordem decrescente no sentido horário, a partir do raio fixado acima do centro do círculo no sentido vertical. Pacientes Atendidos na Unidade de Saúde X, por Etnia - 2011 Etnia Branca 90 45% Negra 74 37% Outras 36 18% Total 200 100% Número de Pacientes Diagrama Polar ou Radar: É construído num círculo de raio arbitrário, dividido em partes iguais de acordo com o número de itens da série a ser representada. Marca-se, em cada raio vetor, o valor correspondente, unindo os pontos por segmentos de reta. Tem grande aplicação na análise de séries mensais. Cada ponto (P) do gráfico fica determinado pelo raio vetor e pelo ângulo polar (x, ). Neste diagrama a coordenada angular () é constante, variando a coordenada linear. Página 7 Meses Valor:R$ 1.000 Janeiro 10 Fevereiro 13 Março 18 Abril 15 Maio 25 Junho 19 Julho 30 Agosto 18 Setembro 35 Outubro 25 Novembro 35 Dezembro 40 Total 283 Compras da Empresa Delta:2009 Compras da Empresa Delta - 2009 0 10 20 30 40 Janeiro Fevereiro Março Abril Maio Junho Julho Agosto Setembro Outubro Novembro Dezembro Histograma: é formado por conjunto de retângulos adjacentes, com base no eixo das abscissas e áreas proporcionais às freqüências de classes. É utilizado em distribuições de freqüência por classes. Poligonal característica ou curva característica: é o contorno externo do histograma. Curva de freqüência: é o limite do histograma quando “n” cresce (grandes amostras), enquanto o intervalo de classe (h) tende para zero. Polígono de Freqüência: é constituído com base nos pontos médios das classes de freqüências, ligados entre si por segmentos de retas. Peso dos alunos da Escola Municipal de Açaí – 2010 Peso (kg) Nº de Alunos 40|--45 5 45|--50 10 50|--55 16 55|--60 13 60|--65 8 65|--70 5 70|--75 3 ∑ 60 Página 8 MEDIDAS DE POSIÇÃO Média Aritmética (x): É o principal parâmetro de tendência central, podendo se calculado por método simples ou ponderado. Média Aritmética simples: é a razão entre a soma de todos os valores da série e o número de termos. É indicada para pequenos grupos de dados, bem como para variáveis que não utilizam ponderações em seus respectivos valores. x = (x1 + x2 + ... + xn)/n = ∑xi/n Exemplo: As notas finais de um estudante em matemática, estatística, português e históriasão respectivamente 82, 86, 91 e 71. Qual a nota média deste aluno nestas disciplinas? X = ∑xi/n = (82 + 86 + 91 + 71)/4 = 83,25 Média Aritmética Ponderada: Em algumas séries determinados valores são mais significativos que outros, merecendo por isto tratamento diferenciado. Neste caso a média passa a ser a razão entre a soma dos produtos de cada valor pelos seus respectivos pesos e a soma total de pesos. Estes pesos são representados por ponderações atribuídas a valores da variável: pi = p1, p2,...,pn ou freqüências de valores, no caso de distribuições de freqüências: i = 1,2,...,n. x = ∑ xi*pi/∑pi e x = ∑ xi*fi/∑fi Observação: xi representa valores da variável pesquisada, porém quando esta variável está agrupada por classes de freqüências o xi passa a ser representado pelo ponto médio de cada classe, conforme fórmulas abaixo. xi = Li + h/2 ou xi = (Li + Ls)/2 (Li e Ls são limites reais) Exemplo 1: As notas finais de um estudante em matemática, estatística, português e história são: 82, 86, 91 e 71. Sabendo-se que os pesos atribuídos a estas disciplinas são respectivamente: 3, 5, 3 e 1, qual o valor da nota média deste aluno? x = ∑ xi*pi/∑pi = (82*3 + 86*5 + 91*3 + 71*1)/(3 +5 +3 + 1) = 85 Página 9 Exemplo 2: Entre os funcionários de um órgão do governo, foi retirada uma amostra para avaliar o comportamento de funcionários em relação à ausência ao trabalho. Os números que representam estas ausências para cada funcionário, no último ano, são: 2; 0; 4; 6; 2; 2; 4; 4; 5; 5; 1; 1; 5; 5; 0; 0; 8; 8; 4; 8; 4; 6; 5; 2; 6; 6 e 5. Calcular a ausência média grupo ao trabalho. Ausência (xi) 0 1 2 4 5 6 8 Soma Nº de funcionários 3 2 4 5 6 4 3 27 xi*fi 0 2 8 20 30 24 24 108 Valor médio = Σ xi*fi/Σfi x = 4,00 Exemplo 3: O peso ao nascer de crianças nascidas vivas em determinada Maternidade estão registrados na tabela abaixo: Determine o peso médio destas crianças. Peso (kg) Nº (xi) xi*fi 1,5|-- 2,0 3 1,75 5,25 2,0|--2,5 29 2,25 65,25 2,5|--30 35 2,75 96,25 3,0|--3,5 23 3,25 74,75 3,5|--4,0 16 3,75 60,00 Total 106 301,50 Média = Σxi*fi/Σfi = 301,50/106 = 2,84 Erro Padrão ou Erro da Média Diferentes amostras retiradas da mesma população podem apresentar médias diferentes. A variação existente entre este conjunto de médias é estimada através do erro padrão, que corresponde ao desvio padrão das médias. Representamos o erro padrão por. s s n ou s s nx x 2 Erro Relativo máximo cometido no cálculo da média aritmética para dados agrupados em distribuição de freqüência. E = h / (2x – h) Principais Propriedades da Média Aritmética 1 - A soma algébrica da diferença entre cada valor observado e a média aritmética é nula. ∑(xi – x) = 0 => ∑xi - ∑x = 0 => nx – nx = 0 2 - A média de uma constante é a própria constante. 3 - Somando ou subtraindo uma constante a todos os valores da série, a média ficará aumentada ou diminuída, respectivamente, dessa constante (idem para multiplicação e divisão, exceto quando a constante for igual à zero). 4 - A média aritmética de uma série de valores é igual a um número arbitrário somado algebricamente à média dos desvios tomados em relação a esse número. Média = Ao + ∑di/n di = xi - Ao Média = Ao + ∑difi/n di = xi - Ao (para DF por valores) Página 10 Média = Ao + ∑(ifi)*h/∑fi i = (xi - Ao)/h para DF por classes) 5 - A média aritmética de duas ou mais séries de valores é um parâmetro ponderado entre as médias de cada série e respectivos números de termos. Média = ∑xfi/∑fi 6 - A soma dos quadrados dos desvios calculados em relação à média aritmética é um mínimo. ∑(xi – x)² < ∑(xi – a)² para a ≠ x Tomemos: A = ∑(xi – x)² = ∑xi² - 2x∑xi + ∑x² = ∑xi² - 2xnx + nx² A = ∑xi² - 2nx² + nx² = ∑xi² - nx² B = ∑(xi – a)² = ∑xi² - 2a∑xi + ∑a² = ∑xi² - 2anx + na² B – A = - nx² + 2anx - na² = n(a - x)² Como n e (a – x)² são positivos => B – A > 0 e B > A. Principais características da Média Aritmética Depende de cada valor da série e qualquer alteração de um deles altera o seu valor. É influenciada por valores extremos, podendo, em alguns casos, não representar a série. Representa uma série cujos valores estão ou se aproximam de uma progressão aritmética. É das medidas de tendência central a de maior uso e de mais fácil compreensão. Tem grande aplicação nas distribuições simétricas. Não pode ser calculada para distribuições com limites indeterminados. Não necessariamente tem existência real, isto é, nem sempre é um elemento que faça parte do conjunto de dados observados, embora pertença, obrigatoriamente, ao intervalo entre a maior e a menor ocorrência. Média Geométrica Média Geométrica Simples: é a raiz nésima do produto de n termos positivos: xg = x x x n n 1 2 . ... xg = n xi log xg = (∑log xi)/n Média Geométrica Ponderada: dados n termos: xi = x1, x2,...,xn com ponderações: pi =p1, p2,...pn (peso) e i = 1, 2,...n, (distribuições de freqüências) a média geométrica é calculada pelas fórmulas abaixo. Esta média é igual à raiz (∑fi ou ∑pi) do produto de cada valor da variável elevada a sua respectiva freqüência ou peso. log xg = ∑fi*logxi / ∑ fi - para termos a média calcula o antlog. Principais características da Média Geométrica A média geométrica de duas ou mais séries de valores pode ser obtida através das respectivas médias de cada série, isto é: xg = n1 + n2 + ... + nk xg xg xgn n K nK 1 1 2 2 ... Página 11 Não tem significado quando houver valores nulos na série ou quando existir número ímpar de valores negativos; É menos influenciada pelos valores extremos do que a média aritmética; Adquire maior representatividade, nas séries em que os valores se escalonam em progressão geométrica; Tem boa aplicação no cálculo de: - Números Índices - Taxas de crescimento (população, rendimentos, PIB, etc). - Valor médio em um conjunto de percentagens de variações mensais. Média Harmônica * Dados n termos: xi = x1, x2, ... xn, a média harmônica desses valores é o inverso da média aritmética dos inversos dos valores. Deve ser aplicada em séries de razões ou de grandezas inversamente proporcionais. * Apesar de não ser muito empregada é recomendada para séries estatísticas recíprocas. - cálculo de velocidade média entre dois pontos - custo médio de artigos comprados a uma quantia fixa. - confronto entre média de velocidade e tempo (grandezas inversamente proporcionais). xh = ∑1/xi Média Harmônica Ponderada - utilizada quando os valores da variável estão ponderados ou agrupados em Distribuição de Freqüências. xh = ∑ pi/∑ pi/xi ou xh = ∑ fi/∑ fi/xi Comparação entre as médias: xh ≤ xg ≤ x a) Exemplo: Demonstrar que: xg ≤ x a*b ≤ (a + b)/2 (elevando ambos os termos ao quadrado) ab ≤ (a + b)²/4 => 4ab ≤ a² + 2ab + b² => 0 ≤ a² + 2ab + b² - 4ab => 0 ≤ (a – b)² para a ≠ b Moda (Mo): Dada uma série de n valores xi = x1, x2,...,xn, denominamos moda o valor que ocorre com maior freqüência. Em relação à moda as séries estatísticas podem ser: Série Amodal: quando não possui moda. Série Modal:quando possui uma moda. Série Bimodal: quando possui duas modas. Série Plurimodal: quando possui várias modas. Moda para dados agrupados em Distribuição de Freqüências por classes. Classe Modal - é a classe que possui a maior freqüência. Moda Bruta - é o ponto médio da classe modal. Método de Czuber para o cálculo da Moda de uma Distribuição de Freqüência por classe. AD =1 = f –‘f e BC = 2 = f - f’ A B ADP ~BPC EP = AD PF BC E F D h = 1 h- h 2 P C Página 12 Mo = Li + h Mo = Li + (f - ‘f) .h 2f – (‘f + f’) Relação Empírica de Pearson para cálculo da moda em distribuições de fraca assimetria. Mo = 3Me – 2x Principais características da Moda É medida de posição e tem boa aplicação quando se deseja assinalar o valor mais freqüente. É menos estável do que a média aritmética e apresenta grande instabilidade na amostra. Não se deixa influenciar pelas flutuações extremas, visto que não depende de todos os valores da série. A existência de limites indefinidos não impede que seja calculada. Apresenta a desvantagem de não se adaptar ao tratamento algébrico. Não perde seu significado mesmo nas distribuições assimétricas. Sempre tem existência real, ou seja, sempre é representada por um elemento do conjunto de dados, exceto quando os dados estão agrupados em distribuição de freqüência. Mediana (Me): Mediana de uma série de “n” termos xi = x1, x2,...,xn ordenados, é o elemento que separa a série em dois subconjuntos, de modo que seja precedido e seguido pelo mesmo número de ocorrências. Para série com número ímpar de termos a mediana é o termo central da série. Caso n seja par a mediana é a média aritmética entre os termos centrais da série. Posição da Mediana para dados não tabulados: P = (n + 1)/2 Para dados agrupados em distribuição de freqüências por classes, a Mediana encontra-se na classe mediana que é identificada com base nas freqüências acumuladas de acordo com a posição do elemento mediano. P = n / 2. Fi C CE = fi ; BD = P – ‘Fi e AE = h B AD = Me – Li = h ACE ~ ABD P CE/AE = BD/AD = f/h = (P – ‘Fi)/(Me – Li) A D E Me = Li + (P – ‘F)/fi*h 0 Li Me Ls Principais Características da Mediana Tem boa aplicação em séries de valores que há resultados extremos que afetariam de maneira acentuada a média (Renda Nacional, etc.). Em distribuições que existem gradações: (Tenente, capitão, etc.) A soma dos valores absolutos dos desvios de uma série de dados referente à mediana é mínima em relação aos desvios absolutos tomados em relação a outro valor; Não se deixa influenciar pela magnitude dos termos extremos; É uma medida separatriz e divide a área da curva em duas partes iguais; Li Mo Ls Página 13 Apresenta grande instabilidade na amostra. Se extrairmos amostras distintas de uma mesma população, a diferença que existe, em geral, entre as médias, é menor que a que se pode observar entre suas respectivas medianas; É influenciada pela posição ou localização dos valores e não pela magnitude deles. Separatrizes: São medidas de posição que dividem conjuntos de dados, na maioria das vezes representados por distribuições de freqüências em determinado número de partes iguais. A posição das separatrizes é encontrada por: P = k*n/i – sendo o valor de P procurado entre as freqüências acumuladas da variável. As principais são: Quartil (Q), Decil (D) e Centil (C) e dividem o conjunto de dados em quatro (4), dez (10) e cem (100) partes iguais respectivamente. Para cálculo do valor de separatrizes de uma distribuição de freqüências por classe, utiliza-se a mesma fórmula da mediana (Me = Q2 = D5 = C50). Relação entre Média Aritmética, Moda e Mediana: Em geral a moda é menos empregada, sendo adequada para caracterizar situações onde estejam em causa os valores mais freqüentes. Por exemplo: em estudos de mercado, o principal interesse pode ser pesquisar os produtos mais vendidos. Corretamente a escolha é feita entre a média e a mediana. Em alguns casos a mediana é mais consistente do que a média, principalmente nas séries assimétricas, por não ser influenciada pelos valores extremos. Já a média tem vantagens quando a curva de freqüência é mais ou menos simétrica, transformando-a num bom estimador de parâmetros populacionais, através de dados amostrais. Quando a distribuição é simétrica, a média, moda e mediana coincidem. Caso contrário à média e a mediana se desloca mais em direção dos valores extremos, a média mais que a mediana. Portanto em qualquer distribuição: - a moda é sempre a abscissa de ordenada máxima; - a mediana sempre estar entre a moda e a média aritmética; - a média aritmética se situa sempre ao lado da cauda de distribuição. Exercícios resolvidos 1 - Nove medidas do diâmetro de um cilindro foram anotadas por um cientista como: 3,8 4,1 3,9 3,9 4,0 4,0 4,2 3,9 4,3 polegadas. Determinar a média aritmética. x = ∑xi/n = (3,8 + 4,1 + 3,9 + 3,9 + 4,0 + 4,0 + 4,2 + 3,9 + 4,3)/9 = 4,01 2 - Entre 100 números, vinte são 4, quarenta são 5, trinta são 6 e os restantes são 7. Determinar a média aritmética dos números. Página 14 x = xi fi = 80 +200+180+70 x = 5,30 n 100 3 - Calcular as médias aritmética, geométrica e harmônica: xi = 8, 17 e 22 x = xi/n = 47/3 = 15,7 log xg = log xi/n = 3,47 = 1,16 xg = 14,45 xh = n / ∑ 1/xi = 3/(1/8 + 1/17 + 1/22) = 13,1 4 - Um homem viaja de A para B à velocidade média de 30 Km/h e volta de B para A, pelo mesmo caminho, à velocidade média de 60 km/h. Determinar a velocidade média para a viagem completa. Suponhamos que a distância entre A e B é de 60; km, apesar de que podemos considerar qualquer distância. Tempo para se deslocar de A para B: = 60 km / 30 km/h = 2 horas. Tempo para se deslocar de B para A: = 60 km / 60 km/h = 1 hora Velocidade média completa: = distância total/tempo total = 120/3 = 40 km/h Média harmônica entre 30 e 60 = n / ∑ 1/xi = 2 / (1/30 + 1/60) = 40 km/h 5 - Determinar a moda das distribuições abaixo: xi = 3; 5; 5; 6; 6; 6; 6; 7 e yi = 2; 2; 3; 4; 4; 4; 5; 7 => Mo = 6 e Mo = 4 6 - Achar à mediana dos seguintes valores: Xi = 41; 46; 46; 47; 49; 52; 54; 55; 55; 58; 62; 64; 64; 65; 66; 67; 67; 71; 72. P = (n + 1)/2 = (19 + 1)/2 = 10 (décimo elemento é a mediana) => Me = 58 6 - Calcular a Média Aritmética, Mediana, Moda, Quartil 1, Centil 10 e 90 dos dados abaixo: Idade Nº de Alunos xi ai ai * fi a² * fi xi * fi Fi 10|--15 2 13 (2) (4) 8 25 2 15|--20 50 18 (1) (50) 50 875 52 20|--25 120 23 - - - 2.700 172 25|--30 60 28 1 60 60 1.650 232 30|--35 110 33 2 220 440 3.575 342 35|--40 8 38 3 24 72 300 350 Total 350 250 630 9.125 Idade dos Alunos da Escola do Primeiro Grau Fonte do Saber- 2009 x = A0 + ifi/∑fi*h = 22,5 + 250/350*5 = 26,07 Me = Li + P - ‘Fi . h = 25 + (175-172) . 5 Me = 25,25 fi 60 Mo = Li + ( f - ‘f ).h = 20 + (120 -50) . 5 Mo = 22,69 2f-(‘f +f’) 240 - 110 Q1 = Li + (P - ‘F) . h = 20 + (87,5 - 52)* 5 Q1 = 21,48 Página 15 f 120 C10 = Li + (P - ‘F).h = 15 + (35 - 2) * 5 C10 = 18,30 f 50 C90 = Li + (P - ‘F) . h = 30 + (315 - 232)* 5 C90 = 33,7 f 110 MEDIDAS DE DISPERSÃO Dispersão: É o afastamento de todos os valores de uma série em relação à média aritmética ou mediana. De acordo com a grandeza destes afastamentos as séries estatísticas podem ser: homogêneas (fraca dispersão Cv < 30%) e heterogêneas (forte dispersão Cv 30%). Exemplo. xi - 5, 5, 5, 5, 5 dispersão nula yi - 3, 4, 5, 6, 7 fraca dispersão zi - 1, 2, 5, 8, 9 forte dispersão Analisando as distribuições acima verificamos que todas possuem médias iguais, contudo revelam positivas diferenças entre elas, sendo a principal, a que se refere ao grau de concentração de valores, em torno de um valor médio, que é mensurado pela dispersão absoluta ou relativa. Dispersão Absoluta: dimensiona o afastamento médio entre os termos de uma série e respectivo valor médio. Seu resultado é expresso na mesma unidade de medida dos dados pesquisados. Principais Medidas de dispersão absoluta: Desvio Quartil, Desvio Médio, Variância e Desvio Padrão. O desvio padrão é o mais importante e conseqüentemente o mais utilizado. Desvio Quartil: é a semidiferença entre o terceiro e primeiro quartil, cuja amplitude em torno da mediana abrange 50% dos valores centrais. Dq = (Q3 – Q1)/2. Esta medida mais estável do que a amplitude, visto que utilizando 50% dos valores centrais, despreza apenas 25% dos valores mais baixos, eliminando, portanto as flutuações ao acaso. Aplicações: - quando a mediana for a medida da tendência central; - quando a concentração em torno da mediana for de interesse primordial. - quando houver valores esparsos ao extremo capazes de influenciar de forma significativa outra medida de dispersão; Desvio Médio: é a média aritmética dos desvios absolutos tomados em relação à sua média aritmética. Dm = ∑|xi - x|/n ; Dm = ∑|xi - x|*fi/∑fi Característica do Desvio Médio Página 16 Depende de todos os valores da distribuição; Pode ser calculado a partir da média ou da mediana; É mínimo quando calculado a partir da mediana. Variância: é a média quadrática dos desvios tomados em relação à média aritmética. Para dados não agrupados em distribuição de freqüências a variância é obtida pela fórmula seguinte: 2 = (xi – x)2/n (população) e s² = (xi – x )²/n-1 (amostras) Para dados agrupados em distribuição de freqüências a variância é obtida pelas seguintes expressões: ² = (xi - x)²fi/∑fi ou ² = h f f f f i i i i i i ² 2 2 No caso de amostras a variância é representada por s² e deve ser dividida por (n-1) ou (fi – 1) a depender da fórmula utilizada. A razão de se tomar esta decisão é que essa operação conduz a resultados mais precisos, principalmente para pequenas amostras (n < 30). Para amostras com 30 ou mais elementos a subtração de uma unidade para cálculo da variância passa a não ter a mesma importância que existe nas pequenas amostras, visto que esta diferença passa a ser muito pequena e à medida que cresce o tamanho da amostra a divisão por n ou (n – 1) vão oferecer resultados equivalentes, deste modo a divisão por (n – 1) para grandes amostras pode ser dispensada. Desvio Padrão ( ou s): Representa a raiz quadrada da variância. Em outras palavras, é a raiz quadrada da média dos desvios ao quadrado de cada valor em relação à média. Tem a vantagem de voltar à variável ao seu valor original. Por isso é mais usado do que a variância. Principais Propriedades do Desvio Padrão e da Variância 1 - O desvio padrão ou a variância de uma constante é zero. 2 - Somando ou subtraindo uma constante a todos os valores da série, o desvio padrão e a variância não se alteram, enquanto a média aritmética ficará aumentada ou diminuída, respectivamente, desta constante. 3 - Multiplicando ou dividindo os valores da série por uma constante, o desvio padrão e a média aritmética ficarão multiplicados ou divididos, respectivamente, pela constante. A variância ficará multiplicada ou dividida pelo quadrado da constante. 4 - A variância combinada de duas ou mais séries de valores é calculada pela seguinte expressão: s² = (n1-1)[s²1+(x-x1)²] + (n2-1)[s²2+(x-x2)²]+ ...+(nk-1)[s²k+(x-xk)²] (n1 +n2 + ... nk) - k s² = S(ni-1)[si² + (x - xi)²] ni -k Para dados populacionais (n -1) é substituído por n. Relação entre desvio quartil, desvio médio e desvio padrão. Dq < Dm < s Dispersão Relativa: Calcula a relação entre a dispersão absoluta e o valor médio da série, possibilitando realizar análises comparativas entre duas ou mais variáveis, já que seus resultados são expressos em percentagens. Assim a dispersão relativa não está associada a nenhuma unidade de medida nem recebe influência dos grandes números (valores médios diferentes), como acontece com as medidas da dispersão absoluta. Principais medidas de Dispersão Relativa: Desvio Quartil Reduzido e Coeficiente de Variação de Pearson, sendo este último o mais indicado. Página 17 Desvio Quartil Reduzido: é a relação percentual entre o Desvio quartil e a mediana. Dr = (Q3 - Q1)/2 Me*100 Coeficiente de variação de PEARSON: é a relação percentual entre o desvio padrão e a média aritmética. CV = s / x *100 Variância Relativa: sr = s² / x *100 Coeficiente de Variação de THORUDIKE: Cvt = s/Me*100 ASSIMETRIA É o grau de desvio ou afastamento da simetria de uma distribuição. Quando a curva é simétrica, a média, a mediana e a moda coincidem, num mesmo ponto, de ordenada máxima, havendo um perfeito equilíbrio na distribuição. Quando o equilíbrio não acontece, isto é, a média, a mediana e a moda recaem em pontos diferentes da distribuição esta será assimétrica; enviesada a direita ou esquerda. Distribuição Simétrica: Assimetria (S) = 0; Mo = Me = x e Q3 - Me = Me - Q1 Distribuição assimétrica Negativa ou enviesada a esquerda: quando os valores se concentram na extremidade superior da escala e se distribuem gradativamente em direção à extremidade inferior. Distribuição assimétrica Positiva ou enviesada a direita: quando os valores se concentram na extremidade inferior da escala e se distribuem gradativamente em direção à extremidade superior. Cálculo da Assimetria: Critério de Bowley Média Mediana Moda Página 18 Q3 - Me Me - Q1 Q3 + Q1 - 2Me 0 (assimetria absoluta) S = (Q3 + Q1 - 2Me)/(Q3 - Q1) (assimetria relativa) sendo: -1 S 1 Será Positivo à medida que o terceiro quartil se afasta da mediana, enquanto que o primeiro quartil se aproxima da mesma, tendo como limite: Q1 = Q2, quando a assimetria assume o valor máximo positivo: (S = 1). S = (Q3 - Q1)/(Q3 - Q1) = 1 Será Negativo à medida que o primeiro quartil afasta-se da mediana, enquanto o terceiro quartil aproxima-se da mesma, dando como limite: Q3 = Q2, quando a assimetria assume valor máximo negativo: S= (-Q3 + Q1)/(Q3 - Q1) = - 1 Assimetria Critério de Kelley - Para corrigir parte do inconveniente de se desprezar 50% das ocorrências (Critério de Bowley), Kelley aconselha para cálculo da assimetria o uso dos Centis eqüidistantes da mediana, tais como C10 e C90. S = (C90 + C10 - 2Me)/(C90 - C10) Limites de S: [-1 a +1] Coeficiente de Assimetria de Pearson - À medida que a distribuição deixa de ser simétrica, a média, a mediana e a moda vão se afastando, aumentando cada vez mais a diferença entre elas. Estes afastamentos também podem ser medidos por este coeficiente: = (x – Me)/s Exercício Resolvido 1. Determinar a variância das amostras constituída dos seguintes elementos. xi = 7; 10; 12; 15; 16; 18; 20 e yi = 12; 15; 18; 23; 25; 26; 28. s2 = (xi – x) 2 / (n – 1) s2 = (49 + 16 + 4 + 1 + 4 + 16 + 36)/6 = 16 s2 = 81 + 36 + 9+ 4 + 16 + 25 + 49)/6 = 36,67 2. Determinar o desvio padrão e os quatros primeiros momentos centrados na média, da seguinte distribuição. Altura (cm) Nº xi i*fi i²*fi i³*fi i^4*fi 150 |--158 5 154 (2) (10) 20 (40) 80 158 |--166 18 162 (1) (18) 18 (18) 18 166 |--174 42 170 - - - - - 174 |--182 27 178 1 27 27 27 27 182 |--190 8 186 2 16 32 64 128 Soma 100 - 15 97 33 253 m1 m2 m3 m4 1,20 62,08 168,96 10.362,88 M2 60,64 M3 (51,07) M4 9.992,63 60,64 7,79 M2 = m2 - m1²; M3 = m3 -3m2m1 + 2m1³; M4 = m4 - 4m3m1 + 6m2m1 - 3m1^4 M0 = 1; M1 = 0 mr = h^r(∑a*fi/∑fi mr = ∑(xi-x)^r/∑fi Desvio padrão Variância mhffrriiri
Compartilhar