Baixe o app para aproveitar ainda mais
Prévia do material em texto
APOSTILA DE BIOESTATÍSTICA INTRODUÇÃO A coleta de dados estatísticos tem crescido muito nos últimos anos em todas as áreas de pesquisa, especialmente com o advento dos computadores e surgimento de softwares cada vez mais sofisticados. Ao mesmo tempo, olhar uma extensa listagem de dados coletados não permite obter praticamente nenhuma conclusão, especialmente para grandes conjuntos de dados, com muitas características sendo investigadas. A Análise Descritiva é a fase inicial deste processo de estudo dos dados coletados. Utilizamos métodos de Estatística Descritiva para organizar, resumir e descrever os aspectos importantes de um conjunto de características observadas ou comparar tais características entre dois ou mais conjuntos. As ferramentas descritivas são os muitos tipos de gráficos e tabelas e também medidas de síntese como porcentagens, índices e médias. Ao se condensar os dados, perde-se informação, pois não se têm as observações originais. Entretanto, esta perda de informação é pequena se comparada ao ganho que se tem com a clareza da interpretação proporcionada. A descrição dos dados também tem como objetivo identificar anomalias, até mesmo resultantes dos registros incorreto de valores, e dados dispersos, aqueles que não seguem a tendência geral do restante do conjunto. Não só nos artigos técnicos direcionados para pesquisadores, mas também nos artigos de jornais e revistas escritos para o público leigo, é cada vez mais frequente a utilização destes recursos de descrição para complementar a apresentação de um fato, justificar ou referendar um argumento. Ao mesmo tempo em que o uso das ferramentas estatísticas vem crescendo, aumenta também o abuso de tais ferramentas. É muito comum vermos em jornais e revistas, até mesmo em periódicos científicos, gráficos – voluntariamente ou intencionalmente – enganosos e estatísticas obscuras para justificar argumentos polêmicos. A ESTATÍSTICA A definição de estatística não é única, a estatística abrange muito mais do que um simples traçado de gráficos e cálculos de medidas. Uma definição seria: A estatística é uma coleção de métodos para planejar experimentos, obter dados e organizá-los, resumi-lo, analisá-los interpretá-los e deles extrair conclusões. O MÉTODO ESTATÍSTICO Dois métodos científicos podemos destacar: o Método Experimental e o Método Estatístico. O MÉTODO EXPERIMENTAL consiste em manter constante todas as causas (fatores) menos uma e variar esta causa de modo que o pesquisador possa descobrir seus efeitos caso existam. O MÉTODO ESTATÍSTICO diante da impossibilidade de se manter causas constantes, admite todas essas causas presentes variando-as registrando essa variação e procurando determinar no resultado final que influências cabem a cada uma delas. CONCEITOS INICIAIS EM ESTATÍSTICA DEFINIÇÕES: POPULAÇÃO: É um conjunto de indivíduos ou objetos que apresentam pelo menos uma característica em comum. CENSO – é a coleção de dados relativos a todos os elementos da população. AMOSTRA: Considerando a impossibilidade, na maioria das vezes do tratamento de todos os elementos da população, necessitaremos de uma parte representativa da mesma. A esta porção da população chamaremos de amostra. ESTATÍSTICA: é a medida numérica que descreve uma característica da amostra. PARÂMETRO – é a medida numérica que descreve uma característica da população. ESTATÍSTICA DESCRITIVA: envolve a organização e sumarização dos dados através de metodologias simples. A Estatística Descritiva pode ser resumida no diagrama a seguir: COLETA DOS DADOS Após a definição do problema a ser estudado e o estabelecimento do planejamento da pesquisa (forma pela qual os dados serão coletados; cronograma das atividades; custos envolvidos; exame das informações disponíveis; delineamento da amostra, etc.), o passo seguinte é a coleta dos dados, que consiste na busca ou compilação dos dados das variáveis, componentes do fenômeno a ser estudado. A coleta dos dados é direta quando os dados são obtidos diretamente da fonte originária, como no caso da empresa que realiza uma pesquisa para saber a preferência dos consumidores pela sua marca. A coleta dos dados é indireta quando é inferida a partir dos elementos conseguidos pela coleta direta. Coleta dos dados Crítica dos dados Apresentação dos dados Tabelas Gráficos Análise CRÍTICA DOS DADOS A revisão crítica dos dados procede com a finalidade de suprimir os valores estranhos ao levantamento, os quais são capazes de provocar futuros enganos. APRESENTAÇÃO DOS DADOS Convém organizarmos o conjunto de dados de maneira prática e racional. Tal organização denomina-se Série Estatística. Sua apresentação pode ocorrer por meio de Tabelas e/ou Gráficos. TÉCNICAS DE AMOSTRAGEM As regras de Amostragem podem ser classificadas em duas categorias gerais: PROBABILÍSTICA - São amostragem em que a seleção é aleatória de tal forma que cada elemento tem igual probabilidade de ser sorteado para a amostra. NÃO-PROBABILISTICAS OU INTENCIONADAS - São amostragem em que há uma escolha deliberada dos elementos da amostra. TIPOS DE AMOSTRAGEM AMOSTRAGEM ALEATÓRIA SIMPLES Também conhecida por amostragem ocasional, acidental, casual, randômica, etc. A amostragem simples ao acaso destaca-se por ser um processo de seleção bastante fácil e muito usado. Neste processo, todos os elementos da população têm igual probabilidade de serem escolhidos, desde o início até completo processo de coleta. Procedimento 1. Devemos enumerar todos os elementos da população 2. Devemos efetuar sucessivos sorteios com reposição até completar o tamanho da amostra (n) Para realizarmos este sorteio devemos fazer uso das “tábuas de números aleatórios”. Estas apresentam os dígitos de 0 a 9 distribuídos aleatoriamente. EXEMPLO: Supor que nós tenhamos uma população com 1 000 elementos, que numeramos de 0 a 999, para selecionarmos uma amostra aleatória, de 200 elementos, basta escolhermos uma posição de qualquer linha e extrairmos conjuntos de três algarismos, até completarmos os 200 elementos da amostra. O processo termina quando for sorteado o elemento 200. Se o número sorteado não existia na população simplesmente não o consideramos, e prosseguimos com o processo. AMOSTRAGEM SISTEMÁTICA Trata- se de uma variação da amostragem simples ao acaso, muito conveniente quando a população está naturalmente ordenada, como fichas em um fichário, listas telefônicas etc. Requer uma lista dos itens da população, e, assim, padece das mesmas restrições já mencionadas na aleatória ao acaso. Se os itens da lista não se apresentarem numa ordem determinada à amostragem Sistemática pode dar uma amostra realmente aleatória. Procedimento Sejam os seguintes elementos: N: tamanho da população; n: tamanho da amostra. Então, calcula-se o intervalo de amostragem através da razão 𝒂 = 𝑵 𝒏 (onde a é o inteiro mais próximo). Sorteia-se, utilizando a tábua de números aleatórios, um número x entre 1 e a formando-se a amostra dos elementos correspondentes ao conjunto de números: 𝑥; 𝑥 + 𝑎; 𝑥 + 2𝑎; … ; 𝑥 + (𝑛 − 1)𝑎 Exemplo: Seja N = 500, n = 50. Então 𝑎 = 500 50 = 10. Sorteia-se um número de 1 a 10. Seja 3 (x = 3) o número sorteado. Logo, os elementos numerados por 3; 13; 23; 33; ... serão os componentes da amostra. AMOSTRAGEM ESTRATIFICADA No caso de possuir uma população com uma certa característica heterogênea, na qual podemos distinguir subpopulações mais ou menos homogêneas, denominadas de estratos, podemos usar a amostragem estratificada. Estratificar uma população em L subpopulações denominada estratos, tais que: 𝑛1 + 𝑛2 + … + 𝑛𝐿 = 𝑛 Onde os estratos são mutuamente exclusivos. Após a determinação dos estratos, seleciona-se uma amostra aleatória de cada subpopulação. Se as diversassubamostras tiverem tamanhos proporcionais ao respectivo número de elementos nos estratos, teremos a estratificação proporcional. AMOSTRAGEM CONGLOMERADO Amostra por conglomerados nos ajuda quando é impossível ou impraticável criar um quadro de amostragem de uma população alvo, porque ela é espalhada geograficamente e o custo da coleta dos dados é relativamente alta. Os elementos da população são selecionados aleatoriamente de forma natural por grupos (clusters). Os elementos da amostragem são selecionados a partir da população de maneira individual, um de cada vez. TAMANHO DA AMOSTRA Após a definição do tipo de amostragem mais apropriado para a pesquisa, quantos elementos serão necessários para compor a mostra? Fatores que determinam o tamanho da amostra. 1. NÍVEL DE CONFIANÇA quanto maior o nível de confiança, maior o tamanho da amostra; 2. ERRO MÁXIMO PERMITIDO quanto menor o erro permitido, maior o tamanho da amostra; 3. VARIABILIDADE quanto maior a variabilidade, maior o tamanho da amostra. ARMAZENAMENTO DE DADOS Exemplo Inicial: Ursos Marrons Pesquisadores do Instituto Amigos do Urso têm estudado o desenvolvimento dos ursos marrons selvagens que vivem em certa floresta do Canadá. O objetivo do projeto é estudar algumas características dos ursos, tais como seu peso e altura, ao longo da vida desses animais. A ficha de coleta de dados, representada na Figura 2.1, mostra as características que serão estudadas na primeira fase do projeto. Na primeira parte do estudo, 97 ursos foram identificados (por nome), pesados e medidos. Os dados foram coletados através do preenchimento da ficha de coleta mostrada na Figura 2.1. Para que os ursos possam ser identificados, medidos e avaliados, os pesquisadores precisam anestesiá-los. Mesmo assim, medidas como a do peso são difíceis de serem feitas (qual será o tamanho de uma balança para pesar ursos?). Desse modo, os pesquisadores gostariam também de encontrar uma maneira de estimar o peso do urso através de outra medida mais fácil de obter, como uma medida de comprimento, por exemplo, (altura, circunferência do tórax, etc.). Nesse caso, só seria necessária uma grande fita métrica, o que facilitaria muito a coleta de dados das próximas fases do projeto. Geralmente, as coletas de dados são feitas através do preenchimento de fichas pelo pesquisador e/ou através de resposta a questionários (o que não foi o caso dos ursos). Alguns dados são coletados através de medições (altura, peso, pressão sanguínea, etc.), enquanto outros são coletados através de avaliações (sexo, cor, raça, espécie, etc.). Depois de coletados, os dados devem ser armazenados e sistematizados numa planilha de dados, como mostra a Figura 2.2. Hoje em dia, essas planilhas são digitais e essa é a maneira de realizar a entrada dos dados num programa de computador. A planilha de dados é composta por linhas e colunas. Cada linha contém os dados de um urso (elemento), ou seja, de uma ficha de coleta. As características (variáveis) são dispostos em colunas. Assim, a planilha de dados contém um número de linhas igual a número de participantes do estudo e um número de colunas igual ao número de variáveis sendo estudadas. TIPOS DE VARIÁVEIS VARIÁVEL é a característica de interesse que é medida em cada indivíduo da amostra ou população. Como o nome diz, seus valores variam de indivíduo para indivíduo. As variáveis podem ter valores numéricos ou não numéricos. VARIÁVEIS QUANTITATIVAS: são as características que podem ser medidas em uma escala quantitativa, ou seja, apresentam valores numéricos que fazem sentido. Podem ser contínuas ou discretas. VARIÁVEIS CONTÍNUAS: características mensuráveis que assumem valores em uma escala contínua (na reta real), para as quais valores não-inteiros (com casas decimais) fazem sentido. Usualmente devem ser medidas através de algum instrumento. Exemplos: peso (balança), altura (régua), tempo (relógio), pressão arterial, idade. VARIÁVEIS DISCRETAS: características mensuráveis que podem assumir apenas um número finito ou infinito contável de valores e, assim, somente fazem sentido valores inteiros. Geralmente, são o resultado de contagens. Exemplos: número de filhos, número de bactérias por litro de leite, número de cigarros fumados por dia. VARIÁVEIS QUALITATIVAS (OU CATEGÓRICAS): são as características que não possuem valores quantitativos, mas, ao contrário, são definidas por várias categorias, ou seja, representam uma classificação dos indivíduos. Podem ser nominais ou ordinais. VARIÁVEL NOMINAIS: não existe ordenação entre as categorias. Exemplos: sexo, cor dos olhos, fumante/não fumante, doente/sadio. VARIÁVEIS ORDINAIS: existe uma ordenação entre as categorias. Exemplos: escolaridade (1º, 2º, 3º graus), estágio da doença (inicial, intermediário, terminal), mês de observação (janeiro, fevereiro,..., dezembro). Uma variável originalmente quantitativa pode ser coletada de forma qualitativa. Por exemplo, a variável idade, medida em anos completos, é quantitativa (discreta); mas, se for informada apenas a faixa etária (0 a 5 anos, 6 a 10 anos, etc...), é qualitativa (ordinal). Outro exemplo é o peso dos lutadores de boxe, uma variável quantitativa (contínua) se trabalhamos com o valor obtido na balança, mas qualitativa (ordinal) se o classificarmos nas categorias do boxe (peso-pena, peso-leve, peso-pesado, etc.). Outro ponto importante é que nem sempre uma variável representada por números é quantitativa. O número do telefone de uma pessoa, o número da casa, o número de sua identidade. Às vezes o sexo do indivíduo é registrado na planilha de dados como 1 se macho e 2 se fêmea, por exemplo. Isto não significa que a variável sexo passou a ser quantitativa! No conjunto de dados ursos marrons, são qualitativas as variáveis sexo (nominal) e mês da observação (ordinal); são quantitativas contínuas as demais: idade, comprimento da cabeça, largura da cabeça, perímetro do pescoço, perímetro do tórax, altura e peso. SÉRIES ESTATÍSTICAS Uma vez que os dados foram coletados, muitas vezes o conjunto de valores é extenso e desorganizado, e seu exame requer atenção, pois há o risco de se perder a visão global do fenômeno analisado. Para que isto não ocorra faz-se necessário reunir os valores em tabelas convenientes, facilitando sua compreensão. Além da apresentação do conjunto de valores na forma tabulada, tem-se também a forma gráfica, que por sua vez, representa uma forma mais útil e elegante de representar o conjunto dos valores. Qualquer que seja a forma de representação do conjunto de valores, desde de que não haja alterações em seus valores iniciais, quer seja o de caracterização de um conjunto, ou de comparação com outros semelhantes ou ainda o de previsão de valores possíveis, facilitará sua compreensão de qualquer estudo. É o caso da série estatística. DEFINIÇÃO DE SÉRIE ESTATÍSTICA Uma série estatística define-se como toda e qualquer coleção de dados estatísticos referidos a uma mesma ordem de classificação: QUANTITATIVA. Em um sentido mais amplo, SÉRIE é uma sequência de números que se refere a uma certa variável. Caso estes números expressem dados estatísticos a série é chamada de série estatística. Em um sentido mais restrito, diz-se que uma série estatística é uma sucessão de dados estatísticos referidos a caracteres quantitativos. Para diferenciar uma série estatística de outra, temos que levar em consideração três fatores: A ÉPOCA (fator temporal ou cronológico) a que se refere o fenômeno analisado; O LOCAL (fator espacial ou geográfico) onde o fenômeno acontece; O FENÔMENO (espécie do fator ou fator específico) que é descrito. TIPOS DE SÉRIES ESTATÍSTICAS São quatro os tipos de séries estatísticas conforme a variação de um dos fatores: SÉRIE TEMPORAL A série temporal, igualmente chamada série cronológica, histórica, evolutiva oumarcha, identifica-se pelo caráter variável do fator cronológico. Assim deve-se ter: VARIÁVEL: a época FIXO: o local e o fenômeno Exemplo: Quantidades de acidentes de trabalho no Brasil de 2006 à 2008. FONTE: Anuário Estatístico de Acidentes de Trabalho da Previdência Social, 2008. SÉRIE GEOGRÁFICA Também denominadas séries territoriais, espaciais ou de localização, esta série apresenta como elemento ou caráter variável somente o fator local. Assim: VARIÁVEL: o local FIXO: a época e o fenômeno Exemplo: Quantidade de acidentes de trabalho por região em 2008. FONTE: Anuário Estatístico de Acidentes de Trabalho da Previdência Social, 2008. SÉRIE ESPECÍFICA A série específica recebe também outras denominações tais como série categórica ou série por categoria. Agora o caráter variável é o fenômeno. VARIÁVEL: o fenômeno FIXO: a época e o local Exemplo: Quantidade de acidentes de trabalho na região Sul pó motivo – 2008. FONTE: Anuário Estatístico de Acidentes de Trabalho da Previdência Social, 2008. SÉRIES CONJUGADAS OU MISTAS É a apresentação em um única tabela da variação de valores de mais de uma variável, isto é, fazer a conjugação de duas ou mais séries; Conjugando duas séries em uma única tabela, obtemos uma tabela de dupla entrada. Em uma tabela desse tipo ficam criadas duas ordens de classificação: uma horizontal (linha) e uma vertical (coluna). VARIÁVEL: o local e a época FIXO: o fenômeno Exemplo: Quantidades de acidentes de trabalho por Região de 2006 à 2008. FONTE: Anuário Estatístico de Acidentes de Trabalho da Previdência Social, 2008. DISTRIBUIÇÃO DE FREQÜÊNCIA REPRESENTAÇÃO DA AMOSTRA Podemos observar que a estatística tem como objetivo encontrar leis de comportamento para todo o conjunto, por meio da sintetização dos dados numéricos, sob a forma de tabelas, gráficos e medidas. PROCEDIMENTO COMUM PARA A REPRESENTAÇÃO DAS DISTRIBUIÇÕES DE FREQÜÊNCIA (MANEIRA DE SUMARIZAR OS DADOS) 1) DADOS BRUTOS: O conjunto dos dados numéricos obtidos após a crítica dos valores coletados constitui-se nos dados brutos. Assim: 24 23 22 28 35 21 23 23 33 34 24 21 25 36 26 22 30 32 25 26 33 34 21 31 25 31 26 25 35 33 2) ROL: É o arranjo dos dados brutos em ordem de frequências crescente ou decrescente: Assim: 21 21 21 22 22 23 23 23 24 24 25 25 25 25 26 26 26 28 30 31 31 32 33 33 33 34 34 35 35 36 3) AMPLITUDE TOTAL OU RANGE “R” : É a diferença entre o maior e o menor valor observado. No exemplo: R = 36 - 21 = 15 Para a variável contínua: Seja 𝑥𝑖 peso de 100 indivíduos: classe 𝐹𝑖 45 ⊢ 55 15 55 ⊢ 65 30 65 ⊢ 75 35 75 ⊢ 85 15 85 ⊢ 95 5 ∑ 100 4) CLASSE: É cada um dos grupos de valores em que se subdivide a amplitude total do conjunto de valores observados da variável. 5) NÚMERO DE CLASSES (K): Não há fórmula exata para o número de classes (arredondar para o inteiro mais próximo). Sendo 𝑛 o tamanho da amostra, temos: • 𝐾 = 5, se 𝑛 < 25 • 𝐾 = √𝑛 , se 𝑛 ≥ 25, • Fórmula de Sturges: 𝐾 = 1 + 3,32 log 𝑛 7) AMPLITUDE DA CLASSE (h): ℎ = 𝑅 𝐾 (aproximar para o maior inteiro). 8)LIMITE DE CLASSE: São os valores extremos do intervalo de classe. Exemplo: No intervalo de classe 75 ⊢ 85, o limite inferior (LI) é representado pelo valor 75, inclusive, e o valor 85 representa o limite superior (LS), exclusive, do intervalo de classe. 9)PONTO MÉDIO DO INTERVALO DE CLASSE (𝒙𝒊): É o valor que representa a classe para o cálculo de certas medidas. Na distribuição de frequência com dados agrupados em intervalos de classe considera-se que os dados distribuem-se de maneira uniforme no intervalo. Sua fórmula é bem simples, vejamos: 𝑥𝑖 = 𝐿𝑆 + 𝐿𝐼 2 TIPOS DE FREQUÊNCIAS FREQUÊNCIA SIMPLES ABSOLUTA (𝑭𝒊): É o número de vezes que o elemento aparece na amostra, ou o número de elementos pertencentes a uma classe. FREQUÊNCIA ABSOLUTA ACUMULADA (𝑭𝒂𝒄): É a soma da frequência absoluta da classe com a frequência absoluta das classes anteriores. FREQUÊNCIA SIMPLES RELATIVA (𝒇𝒓%): A frequência relativa é o valor da frequência absoluta dividido pelo número total de observações: 𝑓𝑟% = 𝐹𝑖 𝑛 FREQUÊNCIA RELATIVA ACUMULADA (𝒇𝒓𝒂%): A frequência acumulada relativa é o valor da frequência acumulada dividido pelo número total de observações: 𝑓𝑟𝑎% = 𝐹𝑎𝑐 𝑛 MEDIDAS DE POSIÇÃO E SEPARATRIZES MEDIDAS DE POSIÇÃO MEDIDAS DE TENDÊNCIA CENTRAL A tendência central da distribuição de frequências de uma variável em um conjunto de dados é caracterizada pelo valor típico dessa variável. Essa é uma maneira de resumir a informação contida nos dados, pois escolheremos um valor para representar todos os outros. Assim, poderíamos perguntar, por exemplo, qual é a altura típica dos brasileiros adultos no final da década de 90 e compará-la com o valor típico da altura dos brasileiros no final da década de 80, a fim de verificar se os brasileiros estão se tornando, em geral, mais altos, mais baixos ou não sofreram nenhuma alteração em sua altura típica. Fazer essa comparação utilizando medidas-resumo (as alturas típicas em cada período) é bem mais sensato do que comparar os dois conjuntos de dados valor a valor, o que seria inviável. Mas, como identificar o valor típico de um conjunto de dados? Existem três medidas que podem ser utilizadas para descrever a tendência central de um conjunto de dados: a média, a mediana e a moda. Apresentaremos essas três medidas e discutiremos suas vantagens e desvantagens. MÉDIA ARITMÉTICA SIMPLES A média aritmética simples (que chamaremos apenas de média) é a medida de tendência central mais conhecida e usada para o resumo de dados. Essa popularidade pode ser devida à facilidade de cálculo e à ideia simples que ela nos sugere. De fato, se queremos um valor que represente a altura dos brasileiros adultos, por que não medir as alturas de uma amostra de brasileiros adultos, somar os valores e dividir esse “bolo” igualmente entre os participantes? Essa é a ideia da média aritmética. Para apresentar à média, primeiramente vamos definir alguma notação. A princípio, essa notação pode parecer desnecessária, mas facilitará bastante nosso trabalho futuro. Existem duas médias: • POPULACIONAL, representada pela letra grega 𝜇 (mi) • AMOSTRAL, representada por �̅�. 1a SITUAÇÃO: Dados não agrupados Sejam os elementos x1, x2, x3, ..., xn de uma amostra, portanto “n” valores da variável X. A média aritmética da variável aleatória de X é definida por: �̅� = ∑ 𝑥𝑖 𝑛 𝑖=1 𝑛 ou simplesmente, �̅� = ∑ 𝑥 𝑛 Onde n é o número de elementos do conjunto. Exemplo: Suponha o conjunto de tempo de serviço de cinco funcionários: 3, 7, 8, 10 e 11. Determinar a média aritmética simples deste conjunto de dados. �̅� = 3 + 7 + 8 + 10 + 11 5 = 39 5 = 7,8 Interpretação: o tempo médio de serviço deste grupo de funcionários é de 7,8 anos. 2a SITUAÇÃO: Dados agrupados em uma distribuição de frequência por valores simples Quando os dados estiverem agrupados numa distribuição de frequência usaremos a média aritmética dos valores x1, x2, x 3, ..., xn, ponderados pelas respectivas frequências absolutas: F1, F2, F3, ... , Fn. Assim �̅� = ∑ 𝑥1𝐹𝑖 𝑛 𝑖=1 𝑛 Exemplo: Em um determinado dia foi registrado o número de veículos negociados por uma amostra de 10 vendedores de uma agência de automóveis obtendo a seguinte tabela: Veículos negociados (𝑥𝑖) Número de vendedores (𝐹𝑖) 𝑥𝑖𝐹𝑖 1 1 1 2 3 6 3 5 15 4 1 4 ∑ 10 26 �̅� = ∑ 𝑥1𝐹𝑖 𝑛 𝑖=1 𝑛 = 26 10 = 2,6 Interpretação: em média, cada vendedor negociou 2,6 veículos. 3a SITUAÇÃO: Dados agrupados em uma distribuição de frequência por classes Quando os dados estiverem agrupados numa distribuição de frequência usaremos a média aritmética dos pontos médios x 1, x2, x3,...,xn de cada classe, ponderadospelas respectivas frequências absolutas: F1, F2, F3, ... , Fn. Desta forma, o cálculo da média passa a ser igual ao da 2a situação. Assim �̅� = ∑ 𝑥1𝐹𝑖 𝑛 𝑖=1 𝑛 Exemplo: A tabela abaixo representa os escores obtidos por um grupo de 58 alunos matriculados em uma determinada disciplina: Escores Alunos (𝐹𝑖) 𝑥𝑖 𝑥𝑖𝐹𝑖 35 ⊢ 45 5 40 200 45 ⊢ 55 12 50 600 55 ⊢ 65 18 60 1 080 65 ⊢ 75 14 70 980 75 ⊢ 85 6 80 480 85 ⊢ 95 3 90 270 ∑ 58 - 3 610 �̅� = ∑ 𝑥1𝐹𝑖 𝑛 𝑖=1 𝑛 = 3 610 58 = 62,24 Interpretação: o desempenho médio deste grupo de alunos foi de 62,24 pontos nesta disciplina. MODA - Mo Dentre as principais medidas de posição, destaca-se a moda. É o valor mais frequente da distribuição. 1ª SITUAÇÃO: Dados não agrupados Sejam os elementos x1, x 2, x3,...,xn de uma amostra, o valor da moda para este tipo de conjunto de dados é simplesmente o valor com maior frequência. Exemplo 1: Suponha o conjunto de tempo de serviço de cinco funcionários: 3, 7, 8, 8 e 11. Determinar a moda deste conjunto de dados. Mo = 8 ⇒ Distribuição unimodal ou modal Interpretação: o tempo de serviço com maior frequência é de 8 anos. Exemplo 2:Suponha o conjunto de tempo de serviço de cinco funcionários: 3, 3, 7, 8, 8 e 11. Determinar a moda deste conjunto de dados. 𝑀𝑜 = 3 𝑒 𝑀𝑜 = 8 distribuição bimodal Interpretação: os tempos de serviço com maior frequência foram de 3 e 8 anos. Exemplo 3: Suponha o conjunto de tempo de serviço de cinco funcionários: 3, 7, 8, 10 e 11. Determinar a moda deste conjunto de dados. Não existe 𝑀𝑜, distribuição amodal Interpretação: não existe o tempo de serviço com maior frequência. 2ª SITUAÇÃO: Dados agrupados em uma distribuição de frequência por valores simples Para este tipo de distribuição, a identificação da moda é facilitada pela simples observação do elemento que apresenta maior frequência. Assim, para a distribuição. Exemplo: Em um determinado dia foi registrado o número de veículos negociados por uma amostra de 10 vendedores de uma agência de automóveis obtendo a seguinte tabela: Veículos negociados (𝑥𝑖) Número de vendedores (𝐹𝑖) 1 1 2 3 3 5 4 1 ∑ 10 Portanto, se a maior frequência é 𝐹𝑖 = 5, logo 𝑀𝑜 = 3. Interpretação: A quantidade de veículos comercializados no dia com maior frequência foi de três veículos. 3ª SITUAÇÃO: Dados agrupados em uma distribuição de frequência por classes Para dados agrupados em classes, temos diversas fórmulas para o cálculo da moda. A utilizada será: Fórmula de Czuber Procedimento: 1. Identifica-se a classe modal (aquela que possuir maior frequência) – CLASSE (Mo). 2. Utiliza-se a fórmula: 𝑀0 = 𝑙𝑖 + Δ1 Δ1 + Δ2 . ℎ Em que: 𝑙𝑖 = 𝑙𝑖𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑑𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑚𝑜𝑑𝑎𝑙 Δ1 = 𝐹𝑖 − 𝐹𝑖,𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 Δ2 = 𝐹𝑖 − 𝐹𝑖,𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 ℎ = 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 𝑑𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑚𝑜𝑑𝑎𝑙 Exemplo: A tabela abaixo representa os escores obtidos por um grupo de 58 alunos matriculados em uma determinada disciplina: Escores Alunos (𝐹𝑖) 35 ⊢ 45 5 45 ⊢ 55 12 55 ⊢ 65 18 65 ⊢ 75 14 75 ⊢ 85 6 85 ⊢ 95 3 ∑ 58 Classe Modal = 3ª classe = 55 ⊢ 65 Δ1 = 18 − 12 = 6 Δ2 = 18 − 14 = 4 𝑀𝑜 = 55 + 6 6 + 4 .10 = 55 + 6 = 61 Interpretação: O escore com maior frequência entre o grupo de 58 alunos foi de 61 pontos. MEDIANA - Md Construído o ROL, o valor da mediana é o elemento que ocupa a posição central, ou seja, é o elemento que divide a distribuição em 50% de cada lado: Md 0% 50% 100% 1a SITUAÇÃO: Dados não agrupados Sejam os elementos x1, x2, x3,... ,xn de uma amostra, portanto “n” valores da variável X. A mediana da variável aleatória de X é definida por, • Se n for par, então o valor da mediana será a média das duas observações adjacentes à posição 𝑛 = 𝑛+1 2 . • Se n for ímpar, então o valor da mediana será o valor localizado na posição 𝑛 = 𝑛+1 2 . Exemplo 1: Suponha o conjunto de tempo de serviço de cinco funcionários: 3, 7, 8, 10 e 11. Determinar a mediana deste conjunto de dados. Como n = 5, então o valor da mediana estará localizado na posição 5+1 2 = 3 Portanto, Md = 8 Interpretação: 50% dos funcionários possuem até oito anos de tempo de serviço, ou, 50% dos funcionários possuem no mínimo oito anos de tempo de serviço. Exemplo 2: Suponha o conjunto de tempo de serviço de cinco funcionários: 3, 7, 8, 10, 11 e 13. Determinar a mediana deste conjunto de dados. Como n = 6, então o valor da mediana estará localizado na posição 𝑛 = 6+1 2 = 3,5. Portanto, 𝑀𝑑 = 8 + 10 2 = 9 Interpretação: 50% dos funcionários possuem até nove anos de tempo de serviço, ou, 50% dos funcionários possuem no mínimo nove anos de tempo de serviço. 2a SITUAÇÃO: Dados agrupados em uma distribuição de frequência por valores simples Quando os dados estiverem agrupados numa distribuição de frequência identificaremos a mediana dos valores x1, x2, x3, ..., xn pela posição da mediana 𝑃𝑂𝑆(𝑀𝑑) = 𝑛 2 através da frequência absoluta acumulada - Fac. Exemplo: Em um determinado dia foi registrado o número de veículos negociados por uma amostra de 10 vendedores de uma agência de automóveis obtendo a seguinte tabela: Veículos negociados (𝑥𝑖) Número de vendedores (𝐹𝑖) 𝐹𝑎𝑐 1 1 1 2 3 4 3 5 9 4 1 10 ∑ 10 - Portanto: 𝑃𝑂𝑆(𝑀𝑑) = 10 2 = 5 ⇒ 𝑀𝑑 = 3 Interpretação: 50% dos vendedores comercializaram no máximo três veículos, ou então, metade dos vendedores comercializou pelo menos três veículos. 3a SITUAÇÃO: Dados agrupados em uma distribuição de frequência por classes Procedimento: 1. Calcula-se a posição da mediana: 𝑃𝑂𝑆(𝑀𝑑) = 𝑛 2 . 2. Pela 𝐹𝑎𝑐 identifica-se a classe que contém o valor da mediana – CLASSE 𝑀𝑑. 3. Utiliza-se a fórmula: 𝑀𝑑 = 𝑙𝑖 + 𝑃𝑂𝑆(𝑀𝑑) − 𝐹𝑎𝑐,𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 𝐹𝑖 . ℎ Onde: 𝑙𝑖 = limite inferior da classe mediana 𝑛 = Tamanho da amostra ou número de elementos 𝐹𝑎𝑐,𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 = Frequência acumulada anterior à classe mediana ℎ =Amplitude de classe mediana 𝐹𝑖 = Frequência absoluta simples da classe mediana Exemplo: A tabela abaixo representa os escores obtidos por um grupo de 58 alunos matriculados em uma determinada disciplina: Escores Alunos (𝐹𝑖) 𝐹𝑎𝑐 35 ⊢ 45 5 5 45 ⊢ 55 12 17 55 ⊢ 65 18 35 65 ⊢ 75 14 49 75 ⊢ 85 6 55 85 ⊢ 95 3 58 ∑ 58 - Portanto, 1. 𝑃𝑂𝑆(𝑀𝑑) = 58 2 = 29 2. CLASSE (𝑀𝑑) = 55 ⊢ 65 3. 𝑀𝑑 = 55 + 29−17 18 . 10 = 55 + 6,67 = 61,67 Interpretação: 50% dos alunos obtiveram escore máximo de 61,67 pontos, ou então, metade dos alunos obtiveram escore maior que 61,67 pontos. SEPARATRIZES QUARTIS Os quartis dividem um conjunto de dados em quatro partes iguais. Q1 Q2 = Md Q3 0% 25% 50% 75% 100% Onde: Q1 = 1º quartil, deixa 25% dos elementos. Q2 = 2º quartil, coincide com a mediana, deixa 50% dos elementos. Q3 = 3º quartil, deixa 75% dos elementos. Procedimento: 1. Calcula-se a posição do quartil: 𝑃𝑂𝑆(𝑄𝑖) = 𝑛 4 . 𝑖 onde : i = 1, 2, 3 2. Pela 𝐹𝑎𝑐 identifica-se a classe que contém o valor do quartil - CLASSE(𝑄𝑖) 3. Utiliza-se a fórmula: 𝑄𝑖 = 𝑙𝑖 + 𝑃𝑂𝑆(𝑄𝑖) − 𝐹𝑎𝑐,𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 𝐹𝑖 . ℎ Onde: 𝑙𝑖 = Limite inferior da classe quartílica 𝑛 = Tamanho da amostra ou número de elementos 𝐹𝑎𝑐,𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 = Frequência acumulada anterior à classe quartílica ℎ = Amplitude da classe quartílica 𝐹𝑖 = Frequência absoluta simples da classe quartílica Exemplo: A tabela abaixo representa os escores obtidos por um grupo de 58 alunos matriculados em uma determinada disciplina. Calcule o primeiro quartil. Escores Alunos (𝐹𝑖) 𝐹𝑎𝑐 35 ⊢ 45 5 5 45 ⊢ 55 12 17 55 ⊢ 65 18 35 65 ⊢ 75 14 49 75 ⊢ 85 6 55 85 ⊢ 95 3 58 ∑ 58 - Portanto, 1. 𝑃𝑂𝑆(𝑄1)= 58 4 . 1 = 14,5 2. CLASSE(𝑄1) = 45 ⊢ 55 3. 𝑄1 = 45 + 14,5−5 12 . 10 = 45 + 7,92 = 52,92 Interpretação : 25% dos alunos obtiveram escore máximo de 52,92 pontos, ou então, 75% dos alunos obtiveram escore maior que 52,92 pontos. DECIS São valores que divide a série em dez partes. D1 D2 D3 D4 D5 D6 D7 D8 D9 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Procedimento: 1. Calcula-se a posição do decil: 𝑃𝑂𝑆(𝐷𝑖) = 𝑛 10 . 𝑖 onde: i = 1, 2, 3, 4, 5, 6, 7, 8, 9 2. Pela 𝐹𝑎𝑐 identifica-se a classe que contém o valor do decil - CLASSE(𝐷𝑖) 3. Utiliza-se a fórmula: 𝐷𝑖 = 𝑙𝑖 + 𝑃𝑂𝑆(𝐷𝑖) − 𝐹𝑖𝑎,𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 𝐹𝑖 . ℎ Onde: 𝑙𝑖 = Limite inferior da classe decílica. 𝑛 = Tamanho da amostra ou número de elementos. 𝐹𝑖𝑎,𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 = Frequência acumulada anterior à classe decílica. ℎ = Amplitude da classe do decílica. 𝐹𝑖 = Frequência absoluta simples da classe decílica. Exemplo: A tabela abaixo representa os escores obtidos por um grupo de 58 alunos matriculados em uma determinada disciplina. Calcule o sexto decil. Escores Alunos (𝐹𝑖) 𝐹𝑎𝑐 35 ⊢ 45 5 5 45 ⊢ 55 12 17 55 ⊢ 65 18 35 65 ⊢ 75 14 49 75 ⊢ 85 6 55 85 ⊢ 95 3 58 ∑ 58 - Portanto, 1. 𝑃𝑂𝑆(𝐷6) = 58 10 . 6 = 34,8 2. CLASSE(𝐷6) = 55 ⊢ 65 3. 𝐷6 = 55 + 34,8+17 18 . 10 = 55 + 9,89 = 64,89 Interpretação : 60% dos alunos obtiveram escore inferior a 64,89 pontos, ou então, 40% dos alunos obtiveram escore mínimo de 64,89 pontos. PERCENTIS .. .P10 .. .P20 .. .P30 .. .P40 .. .P50 .. .P60 .. .P70 .. .P80 .. .P90 .. . 0%.. .10%...20%.. .30%.. .40%.. .50%...60%...70%...80%.. .90%.. .100% São as medidas que dividem a amostra em 100 partes iguais. A fórmula será: Procedimento: 1. Calcula-se a posição do quartil: 𝑃𝑂𝑆(𝑃𝑖) = 𝑛 10 . 𝑖 onde : i = 1, 2, 3, ..., 98, 99 2. Pela 𝐹𝑎𝑐 identifica-se a classe que contém o valor do percentil - CLASSE(𝑃𝑖) 3. Utiliza-se a fórmula: 𝐷𝑖 = 𝑙𝑖 + 𝑃𝑂𝑆(𝐷𝑖) − 𝐹𝑎𝑐,𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 𝐹𝑖 . ℎ Onde: 𝑙𝑖 = Limite inferior da classe quartílica 𝑛 = Tamanho da amostra ou número de elementos 𝐹𝑎𝑐,𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 = Frequência acumulada anterior à classe percentil ℎ = Amplitude da classe do percentil 𝐹𝑖 = Frequência absoluta simples da classe do percentil Exemplo: A tabela abaixo representa os escores obtidos por um grupo de 58 alunos matriculados em uma determinada disciplina. Calcule o sexto decil. Escores Alunos (𝐹𝑖) 𝐹𝑎𝑐 35 ⊢ 45 5 5 45 ⊢ 55 12 17 55 ⊢ 65 18 35 65 ⊢ 75 14 49 75 ⊢ 85 6 55 85 ⊢ 95 3 58 ∑ 58 - Portanto, 1. 𝑃𝑂𝑆(𝑃23) = 58 100 . 23 = 13,34 2. CLASSE(𝑃23) = 45 ⊢ 55 3. 𝑃23 = 45 + 13,34−5 18 . 10 = 45 + 6,95 = 51,95 Interpretação: 23% dos alunos com os menores escores obtiveram pontuação inferior a 51,95 pontos, ou então, 77% dos alunos obtiveram escore maior que 51,95 pontos. MEDIDA DE DISPERSÃO As medidas de dispersão indicam se os valores estão relativamente próximos um dos outros, ou separados em torno de uma medida de posição: a média. Consideraremos quatro medidas de dispersão: Desvio-médio, Variância, Desvio Padrão e Coeficiente de Variação. DESVIO-MÉDIO O desvio-médio analisa a média dos desvios em torno da média. 1a SITUAÇÃO: Dados não agrupados Sejam os elementos x1, x2, x3, ... , xn de uma amostra, portanto “n” valores da variável X, com média igual a �̅�. O desvio-médio da variável aleatória de X é, 𝑑𝑚 = ∑|𝑥𝑖 − �̅�| 𝑛 Onde 𝑛 é o número de elementos do conjunto. Exemplo: Suponha o conjunto de tempo de serviço de cinco funcionários: 3, 7, 8, 10 e 11. Determinar o desvio-médio deste conjunto de dados. Como �̅� =7,8 Então 𝑑𝑚 = |3−7,8|+|7−7,8|+|8−7,8|+|10−7,8|+|11−7,8| 5 = 11,2 5 = 2,24 Interpretação: em média, o tempo de serviço deste grupo de funcionários se desvia em 2,24 anos em torno dos 7,8 anos de tempo médio de serviço. 2a SITUAÇÃO: Dados agrupados em uma distribuição de frequência por valores simples Quando os dados estiverem agrupados numa distribuição de frequência usaremos o desvio-médio dos valores x1, x 2, x3, ..., xn, ponderados pelas respectivas frequências absolutas: F1, F2, F3, ..., Fn, como no cálculo da média aritmética. Assim 𝑑𝑚 = ∑|𝑥𝑖 − �̅�|. 𝐹𝑖 𝑛 Exemplo: Em um determinado dia foi registrado o número de veículos negociados por uma amostra de 10 vendedores de uma agência de automóveis como mostra a tabela abaixo. O cálculo do desvio-médio será: Veículos negociados (𝑥𝑖) Número de vendedores (𝐹𝑖) |𝑥𝑖 − �̅�| |𝑥𝑖 − �̅�|. 𝐹𝑖 1 1 1,6 1,6 2 3 0,6 1,8 3 5 0,4 2 4 1 1,4 1,4 ∑ 10 4 6,8 Como �̅� = 2,6 Então: 𝑑𝑚 = 6,8 10 = 0,68 Interpretação : em média, a quantidade de veículos negociada de cada vendedor possuiu uma distância de 0,68 em torno dos 2,6 veículos comercializados em média por vendedor. 3a SITUAÇÃO: Dados agrupados em uma distribuição de frequência por classes Quando os dados estiverem agrupados numa distribuição de frequência usaremos o desvio-médio dos pontos médios x1, x2, x3, ... , xn de cada classe, ponderados pelas respectivas frequências absolutas: F1, F2, F3, ... , Fn. Desta forma, o cálculo do desvio-médio passa a ser igual ao da 2a situação. Assim 𝑑𝑚 = ∑|𝑥𝑖 − �̅�|. 𝐹𝑖 𝑛 Exemplo: A tabela abaixo representa os escores obtidos por um grupo de 58 alunos matriculados em uma determinada disciplina. O cálculo do desvio-médio será: Escores Alunos (𝐹𝑖) 𝐹𝑎𝑐 𝑥𝑖 |𝑥𝑖 − �̅�| |𝑥𝑖 − �̅�|. 𝐹𝑖 35 ⊢ 45 5 5 40 22 110 45 ⊢ 55 12 17 50 12 144 55 ⊢ 65 18 35 60 2 36 65 ⊢ 75 14 49 70 8 112 75 ⊢ 85 6 55 80 18 108 85 ⊢ 95 3 58 90 28 84 ∑ 58 - - - 594 Como �̅� = 62,24 ~ 62 Então: 𝑑𝑚 = 597 58 = 10,24 Interpretação: Em média, a nota de cada aluno deste grupo teve um distanciamento de 10,24 pontos em torno do desempenho médio deste grupo de alunos que foi de 62,24 pontos nesta disciplina. VARIÂNCIA E DESVIO-PADRÃO A variância de um conjunto de dados é a média dos quadrados dos desvios dos valores a contar da média. A fórmula da variância poderá ser calculada de duas formas: • POPULACIONAL, representada letra grega 𝜎2 • AMOSTRAL, representada por 𝑆2 1a SITUAÇÃO: Dados não agrupados Sejam os elementos x1, x2, x3, ..., xn, portanto “n” valores da variável X, com média igual a �̅� . A variância da variável aleatória de X é, 𝜎2 = ∑(𝑥𝑖 − 𝜇) 2 𝑁 = 1 𝑁 . (∑ 𝑥𝑖² − (∑ 𝑥𝑖) 2 𝑁 ) Ou 𝑆2 = ∑(𝑥𝑖 − �̅�) 2 𝑛 − 1 = 1 𝑛 − 1 . (∑ 𝑥𝑖 ² − (∑ 𝑥𝑖²) 2 𝑛 ) Obs: A Segunda fórmula é chamada de “Fórmula Desenvolvida”. Exemplo: Suponha o conjunto de tempo de serviço de cinco funcionários: 3, 7, 8, 10 e 11. Determinar o desvio-padrão deste conjunto de dados. Como �̅� = 7,8 Então: 𝑆2 = (3−7,8)2+(7−7,8)2+(8−7,8)2+(10−7,8)2+(11−7,8)2 5−1 = 38,8 4 = 9,7𝑎𝑛𝑜𝑠² Interpretação: encontramos então uma variância para o tempo de serviço de 9,7anos2. Para eliminarmos o quadrado da unidade de medida, extraímos a raiz quadrada do resultado da variância, que chegamos a uma terceira medida de dispersão, chamada de DESVIO-PADRÃO: • POPULACIONAL, representada letra grega 𝜎2 = √𝜎2 • AMOSTRAL, representada por 𝑆2 = √𝑆2 Portanto, o desvio-padrão do exemplo foi de 3,11anos. Ou seja, se calcularmos um intervalo utilizando um desvio-padrão em torno da média, encontraremos a concentração da maioria dos dados. 2a SITUAÇÃO: Dados agrupados em uma distribuição de frequência por valores simples Quando os dados estiverem agrupados numa distribuição de frequência usaremos a variância dos valores x1, x2, x3, ..., xn, ponderados pelas respectivas frequências absolutas: F1, F2, F3, ... , Fn. Assim 𝜎2 = ∑(𝑥𝑖 − 𝜇) 2. 𝐹𝑖 𝑁 = 1 𝑁 . (∑ 𝑥𝑖² . 𝐹𝑖 − (∑ 𝑥𝑖 . 𝐹𝑖) 2 𝑁 ) Ou 𝑆2 = ∑(𝑥𝑖 − �̅�)2. 𝐹𝑖 𝑛 − 1 = 1 𝑛 − 1 . (∑ 𝑥𝑖 ². 𝐹𝑖 − (∑ 𝑥𝑖². 𝐹𝑖) 2 𝑛 ) Exemplo: Em um determinado dia foi registrado o número de veículos negociados por uma amostra de 10 vendedores de uma agência de automóveis como mostra a tabela abaixo. O cálculo do desvio-médio será: Veículos negociados (𝑥𝑖) Número de vendedores (𝐹𝑖) (𝑥𝑖 − �̅�) 2 (𝑥𝑖 − �̅�) 2. 𝐹𝑖 1 1 2,56 2,56 2 3 0,36 1,08 3 5 0,16 0,8 4 1 1,96 1,96 ∑ 10 5,04 6,4 Como �̅� = 2,6 Então:𝑆2 = 6,4 9 = 0,71 𝑣𝑒í𝑐𝑢𝑙𝑜𝑠² 𝑆 = √0,71 𝑣𝑒í𝑐𝑢𝑙𝑜𝑠² = 0,84 𝑣𝑒í𝑐𝑢𝑙𝑜𝑠 Ou Veículos negociados (𝑥𝑖) Número de vendedores (𝐹𝑖) 𝑥𝑖. 𝐹𝑖 𝑥𝑖². 𝐹𝑖 1 1 1 1 2 3 6 12 3 5 16 45 4 1 4 16 ∑ 10 26 74 𝑆2 = 1 9 . [74 − 262 10 ] = 0,71 𝑣𝑒í𝑐𝑢𝑙𝑜𝑠² 𝑆 = √0,71 𝑣𝑒í𝑐𝑢𝑙𝑜𝑠² = 0,84 𝑣𝑒í𝑐𝑢𝑙𝑜𝑠 Interpretação: Portanto, o desvio-padrão do exemplo foi de 0,84 veículos. Ou seja, se calcularmos um intervalo utilizando um desvio-padrão em torno da média, encontraremos a concentração da maioria dos veículos negociados por vendedor. 3a SITUAÇÃO: Dados agrupados em uma distribuição de frequência por classes Quando os dados estiverem agrupados numa distribuição de frequência usaremos a variância dos pontos médios x1, x 2, x3, ..., xn de cada classe, ponderados pelas respectivas frequências absolutas: F1, F2, F3, ... , Fn. Desta forma, o cálculo da variância passa a ser igual ao da 2a situação. Assim 𝜎2 = ∑(𝑥𝑖 − 𝜇) 2. 𝐹𝑖 𝑁 = 1 𝑁 . (∑ 𝑥𝑖² . 𝐹𝑖 − (∑ 𝑥𝑖 . 𝐹𝑖) 2 𝑁 ) Ou 𝑆2 = ∑(𝑥𝑖 − �̅�) 2. 𝐹𝑖 𝑛 − 1 = 1 𝑛 − 1 . (∑ 𝑥𝑖 ². 𝐹𝑖 − (∑ 𝑥𝑖². 𝐹𝑖) 2 𝑛 ) Exemplo: A tabela abaixo representa os escores obtidos por um grupo de 58 alunos matriculados em uma determinada disciplina. O cálculo do desvio-médio será: Escores Alunos (𝐹𝑖) 𝐹𝑎𝑐 𝑥𝑖 (𝑥𝑖 − �̅�) 2 (𝑥𝑖 − �̅�) 2. 𝐹𝑖 35 ⊢ 45 5 5 40 484 2 420 45 ⊢ 55 12 17 50 144 1 728 55 ⊢ 65 18 35 60 4 72 65 ⊢ 75 14 49 70 64 896 75 ⊢ 85 6 55 80 324 1 944 85 ⊢ 95 3 58 90 784 2 352 ∑ 58 - - - 9 412 Como �̅� = 62,24 ~ 62 Então: 𝑆2 = 9 412 57 = 165,1 𝑝𝑜𝑛𝑡𝑜𝑠² 𝑆 = √165,1 𝑝𝑜𝑛𝑡𝑜𝑠² = 12,85 𝑝𝑜𝑛𝑡𝑜𝑠 Ou Escores Alunos (𝐹𝑖) 𝐹𝑎𝑐 𝑥𝑖 𝑥𝑖 . 𝐹𝑖 𝑥𝑖². 𝐹𝑖 35 ⊢ 45 5 5 40 200 8 000 45 ⊢ 55 12 17 50 600 30 000 55 ⊢ 65 18 35 60 1 080 64 800 65 ⊢ 75 14 49 70 980 68 600 75 ⊢ 85 6 55 80 480 38 400 85 ⊢ 95 3 58 90 270 24 300 ∑ 58 - - 3 610 234 100 𝑆2 = 1 57 . [234 100 − 3 610² 58 ] = 165,1 𝑝𝑜𝑛𝑡𝑜𝑠² 𝑆 = √165,1 𝑝𝑜𝑛𝑡𝑜𝑠² = 12,85 𝑝𝑜𝑛𝑡𝑜𝑠 Interpretação: Portanto, o desvio- padrão do exemplo foi de 12,85 pontos. Ou seja, se calcularmos um intervalo utilizando um desvio-padrão em torno do escore médio de 62,24 pontos, encontraremos a concentração da maioria dos alunos dentro deste intervalo de pontuação. COEFICIENTE DE VARIAÇÃO Trata-se de uma média relativa à dispersão, útil para a comparação e observação em termos relativos do grau de concentração em torno da média de séries distintas. É dada por: 𝐶𝑉 = 𝜎 𝜇 .100 ou 𝐶𝑉 = 𝑆 �̅� .100 Classificação da distribuição quanto à dispersão: • DISPERSÃO BAIXA: CV ≤ 15% • DISPERSÃO MÉDIA: 15% < CV < 30% • DISPERSÃO ALTA: CV ≥ 30% Exemplo: Numa empresa o salário médio dos funcionários do sexo masculino é de R$ 4 000,00, com um desvio padrão de R$ 1 500,00, e os funcionários do sexo feminino é em média de R$ 3 000,00, com um desvio padrão de R$ 1 200,00. Então: Sexo Masculino: 𝐶𝑉 = 1 500 4 000 .100 = 37,5% Sexo Feminino: 𝐶𝑉 = 1 200 3 000 .100 = 40% Interpretação: Logo, podemos concluir que o salário das mulheres apresenta maior dispersão relativa que a dos homens. Para obtermos o resultado de C.V basta multiplicarmos por 100. REFERÊNCIAS BIBLIOGRÁFICAS • LEVIN, Jack. Estatística Aplicada a Ciências Humanas.2a. Ed. São Paulo: Editora Harbra Ltda, 1987. • TRIOLA, Mário F. Introdução à Estatística. 7a. Ed. Rio de Janeiro: LTC, 1999. • LEVINE, D. M. / BERENSON, M. L. / STEPHAN, David. Estatística: Teoria e Aplicações usando Microsoft Excel em Português. Rio de Janeiro: LTC, 2000. • Reis, E.A., Reis I.A. (2002) Análise Descritiva de Dados. Relatório Técnico do Departamento de Estatística da UFMG. Disponível em: www.est.ufmg.br http://www.est.ufmg.br/ ANEXOS Tabela Z Acumulada - Distribuição Normal Padrão - P(Z < z tabela) z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 -3,9 0,00005 0,00005 0,00005 0,00005 0,00006 0,00006 0,00006 0,00006 0,00007 0,00007 -3,8 0,00007 0,00008 0,00008 0,00008 0,00008 0,00009 0,00009 0,00010 0,00010 0,00010 -3,7 0,00011 0,00011 0,00012 0,00012 0,00013 0,00013 0,00014 0,00014 0,00015 0,00015 -3,6 0,00016 0,00017 0,00017 0,00018 0,00019 0,00019 0,00020 0,00021 0,00022 0,00022 -3,5 0,00023 0,00024 0,00025 0,00026 0,00027 0,00028 0,00029 0,00030 0,00031 0,00032 -3,4 0,00034 0,00035 0,00036 0,00038 0,00039 0,00040 0,00042 0,00043 0,00045 0,00047 -3,3 0,00048 0,00050 0,00052 0,00054 0,00056 0,00058 0,00060 0,00062 0,00064 0,00066 -3,2 0,00069 0,00071 0,00074 0,00076 0,00079 0,00082 0,00084 0,00087 0,00090 0,00094 -3,1 0,00097 0,00100 0,00104 0,00107 0,00111 0,00114 0,00118 0,00122 0,00126 0,00131 -3,0 0,00135 0,00139 0,00144 0,00149 0,00154 0,00159 0,00164 0,00169 0,00175 0,00181 -2,9 0,00187 0,00193 0,00199 0,00205 0,00212 0,00219 0,00226 0,00233 0,00240 0,00248 -2,8 0,00256 0,00264 0,00272 0,00280 0,00289 0,00298 0,00307 0,00317 0,00326 0,00336 -2,7 0,00347 0,00357 0,00368 0,00379 0,00391 0,00402 0,00415 0,00427 0,00440 0,00453 -2,6 0,00466 0,00480 0,00494 0,00508 0,00523 0,00539 0,00554 0,00570 0,00587 0,00604 -2,5 0,00621 0,00639 0,00657 0,00676 0,00695 0,00714 0,00734 0,00755 0,00776 0,00798 -2,4 0,00820 0,00842 0,00866 0,00889 0,00914 0,00939 0,00964 0,00990 0,01017 0,01044 -2,3 0,01072 0,01101 0,01130 0,01160 0,01191 0,01222 0,01255 0,01287 0,01321 0,01355 -2,2 0,01390 0,01426 0,01463 0,01500 0,01539 0,01578 0,01618 0,01659 0,01700 0,01743 -2,1 0,01786 0,01831 0,01876 0,01923 0,01970 0,02018 0,02068 0,02118 0,02169 0,02222 -2,0 0,02275 0,02330 0,02385 0,02442 0,02500 0,02559 0,02619 0,02680 0,02743 0,02807 -1,9 0,02872 0,02938 0,03005 0,03074 0,03144 0,03216 0,03288 0,03362 0,03438 0,03515 -1,8 0,03593 0,03673 0,03754 0,03836 0,03920 0,04006 0,04093 0,04182 0,04272 0,04363 -1,7 0,04457 0,04551 0,04648 0,04746 0,04846 0,04947 0,05050 0,05155 0,05262 0,05370 -1,6 0,05480 0,05592 0,05705 0,05821 0,05938 0,06057 0,06178 0,06301 0,06426 0,06552 -1,5 0,06681 0,06811 0,06944 0,07078 0,07215 0,07353 0,07493 0,07636 0,07780 0,07927 -1,4 0,08076 0,08226 0,08379 0,08534 0,08691 0,08851 0,09012 0,09176 0,09342 0,09510 -1,3 0,09680 0,09853 0,10027 0,10204 0,10383 0,10565 0,10749 0,10935 0,11123 0,11314 -1,2 0,11507 0,11702 0,11900 0,12100 0,12302 0,12507 0,12714 0,12924 0,13136 0,13350 -1,1 0,13567 0,13786 0,14007 0,14231 0,14457 0,14686 0,14917 0,15151 0,15386 0,15625 -1,0 0,15866 0,16109 0,16354 0,16602 0,16853 0,17106 0,17361 0,17619 0,17879 0,18141 -0,9 0,18406 0,18673 0,18943 0,19215 0,19489 0,19766 0,20045 0,20327 0,20611 0,20897 -0,8 0,21186 0,21476 0,21770 0,22065 0,22363 0,22663 0,22965 0,23270 0,23576 0,23885 -0,7 0,24196 0,24510 0,24825 0,25143 0,25463 0,25785 0,26109 0,26435 0,26763 0,27093 -0,6 0,27425 0,27760 0,28096 0,28434 0,28774 0,29116 0,29460 0,29806 0,30153 0,30503 -0,5 0,30854 0,31207 0,31561 0,31918 0,32276 0,32636 0,32997 0,33360 0,33724 0,34090 -0,4 0,34458 0,34827 0,35197 0,35569 0,35942 0,36317 0,36693 0,37070 0,37448 0,37828 -0,3 0,38209 0,38591 0,38974 0,39358 0,39743 0,40129 0,40517 0,40905 0,41294 0,41683 -0,2 0,42074 0,42465 0,42858 0,43251 0,43644 0,44038 0,44433 0,44828 0,45224 0,45620 -0,1 0,46017 0,46414 0,46812 0,47210 0,47608 0,48006 0,48405 0,48803 0,49202 0,49601 Tabela Z Acumulada- Distribuição Normal Padrão - P(Z < z tabela) z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,50000 0,50399 0,50798 0,51197 0,51595 0,51994 0,52392 0,52790 0,53188 0,53586 0,1 0,53983 0,54380 0,54776 0,55172 0,55567 0,55962 0,56356 0,56749 0,57142 0,57535 0,2 0,57926 0,58317 0,58706 0,59095 0,59483 0,59871 0,60257 0,60642 0,61026 0,61409 0,3 0,61791 0,62172 0,62552 0,62930 0,63307 0,63683 0,64058 0,64431 0,64803 0,65173 0,4 0,65542 0,65910 0,66276 0,66640 0,67003 0,67364 0,67724 0,68082 0,68439 0,68793 0,5 0,69146 0,69497 0,69847 0,70194 0,70540 0,70884 0,71226 0,71566 0,71904 0,72240 0,6 0,72575 0,72907 0,73237 0,73565 0,73891 0,74215 0,74537 0,74857 0,75175 0,75490 0,7 0,75804 0,76115 0,76424 0,76730 0,77035 0,77337 0,77637 0,77935 0,78230 0,78524 0,8 0,78814 0,79103 0,79389 0,79673 0,79955 0,80234 0,80511 0,80785 0,81057 0,81327 0,9 0,81594 0,81859 0,82121 0,82381 0,82639 0,82894 0,83147 0,83398 0,83646 0,83891 1,0 0,84134 0,84375 0,84614 0,84849 0,85083 0,85314 0,85543 0,85769 0,85993 0,86214 1,1 0,86433 0,86650 0,86864 0,87076 0,87286 0,87493 0,87698 0,87900 0,88100 0,88298 1,2 0,88493 0,88686 0,88877 0,89065 0,89251 0,89435 0,89617 0,89796 0,89973 0,90147 1,3 0,90320 0,90490 0,90658 0,90824 0,90988 0,91149 0,91309 0,91466 0,91621 0,91774 1,4 0,91924 0,92073 0,92220 0,92364 0,92507 0,92647 0,92785 0,92922 0,93056 0,93189 1,5 0,93319 0,93448 0,93574 0,93699 0,93822 0,93943 0,94062 0,94179 0,94295 0,94408 1,6 0,94520 0,94630 0,94738 0,94845 0,94950 0,95053 0,95154 0,95254 0,95352 0,95449 1,7 0,95543 0,95637 0,95728 0,95818 0,95907 0,95994 0,96080 0,96164 0,96246 0,96327 1,8 0,96407 0,96485 0,96562 0,96638 0,96712 0,96784 0,96856 0,96926 0,96995 0,97062 1,9 0,97128 0,97193 0,97257 0,97320 0,97381 0,97441 0,97500 0,97558 0,97615 0,97670 2,0 0,97725 0,97778 0,97831 0,97882 0,97932 0,97982 0,98030 0,98077 0,98124 0,98169 2,1 0,98214 0,98257 0,98300 0,98341 0,98382 0,98422 0,98461 0,98500 0,98537 0,98574 2,2 0,98610 0,98645 0,98679 0,98713 0,98745 0,98778 0,98809 0,98840 0,98870 0,98899 2,3 0,98928 0,98956 0,98983 0,99010 0,99036 0,99061 0,99086 0,99111 0,99134 0,99158 2,4 0,99180 0,99202 0,99224 0,99245 0,99266 0,99286 0,99305 0,99324 0,99343 0,99361 2,5 0,99379 0,99396 0,99413 0,99430 0,99446 0,99461 0,99477 0,99492 0,99506 0,99520 2,6 0,99534 0,99547 0,99560 0,99573 0,99585 0,99598 0,99609 0,99621 0,99632 0,99643 2,7 0,99653 0,99664 0,99674 0,99683 0,99693 0,99702 0,99711 0,99720 0,99728 0,99736 2,8 0,99744 0,99752 0,99760 0,99767 0,99774 0,99781 0,99788 0,99795 0,99801 0,99807 2,9 0,99813 0,99819 0,99825 0,99831 0,99836 0,99841 0,99846 0,99851 0,99856 0,99861 3,0 0,99865 0,99869 0,99874 0,99878 0,99882 0,99886 0,99889 0,99893 0,99896 0,99900 3,1 0,99903 0,99906 0,99910 0,99913 0,99916 0,99918 0,99921 0,99924 0,99926 0,99929 3,2 0,99931 0,99934 0,99936 0,99938 0,99940 0,99942 0,99944 0,99946 0,99948 0,99950 3,3 0,99952 0,99953 0,99955 0,99957 0,99958 0,99960 0,99961 0,99962 0,99964 0,99965 3,4 0,99966 0,99968 0,99969 0,99970 0,99971 0,99972 0,99973 0,99974 0,99975 0,99976 3,5 0,99977 0,99978 0,99978 0,99979 0,99980 0,99981 0,99981 0,99982 0,99983 0,99983 3,6 0,99984 0,99985 0,99985 0,99986 0,99986 0,99987 0,99987 0,99988 0,99988 0,99989 3,7 0,99989 0,99990 0,99990 0,99990 0,99991 0,99991 0,99992 0,99992 0,99992 0,99992 3,8 0,99993 0,99993 0,99993 0,99994 0,99994 0,99994 0,99994 0,99995 0,99995 0,99995 3,9 0,99995 0,99995 0,99996 0,99996 0,99996 0,99996 0,99996 0,99996 0,99997 0,99997
Compartilhar