Baixe o app para aproveitar ainda mais
Prévia do material em texto
ESTATÍSTICA E BIOESTATISTICA – Prof. Antonio Vinicius Barbosa 1) Dentre os Métodos Científicos destacam-se: O Método Experimental – Consiste em manter constantes todos os fatores intervenientes em um determinado processo, menos um, o qual se faz variar de modo que seja possível determinar todos os seus efeitos caso eles existam. O Método Estatístico – Consiste em, diante da impossibilidade em manter constantes os fatores intervenientes em um determinado processo, admiti-se todos eles presentes no processo, deixando-os variar a vontade anotando a variação de cada fator e procurando determinar ao final do processo a importância devida a cada um desses fatores. 2) Fases do método Estatístico Fonte: Sebenta.Teórica.II-Bioestatistica 3) Divisão da Estatística (Estatística descritiva, Inferitiva e Probabilidade). Fonte: Pocinho, Margarida - 2009 Estatística Dedutiva ou Descritiva – Descreve, analisa e representa um grupo de dados, utilizando métodos numéricos e gráficos que resumem e apresentam a informação contida neles. Estatística indutiva ou inferência – Estes processos procuram tirar conclusões a partir de dados de amostras baseados na probabilidade de ocorrência de um determinado fenômeno, ou seja, por exemplo, julgar a população pelo comportamento da amostra. Fonte: Ignácio, Sérgio Aparecido – 2003 (Estatística Geral e Aplicada) 4) Conceitos Fundamentais Probabilidade: A probabilidade de um evento associado a um espaço amostral. Ex: Lançamento de um dado. Razões: Consiste na comparação direta entre a frequência de unidades observacionais que se enquadram numa categoria com outra categoria. Ex: número de óbitos pelo número de nascimentos. Índice: É a comparação entre duas grandezas independentes. Ex: Densidade demográfica, população total pela superfície total. Coeficiente: É a comparação entre duas grandezas em que uma está contida na outra. Ex: Coeficiente de mortalidade, número de óbitos pela população total. Taxa: É o coeficiente apenas apresentando-se multiplicando por 10n. População: Toda questão de pesquisa define um universo de objetos aos quais os resultados do estudo deverão ser aplicados. A população alvo, também, chamada população estudada, é composta de elementos distintos possuindo um certo número de características comuns (pelo menos uma). Essa característica comum deve delimitar i\nequivocamente quais os elementos que pertencem à população e quais os que não pertencem. Estes elementos, chamados de unidades populacionais, são as unidades de análise sobre as quais serão recolhidas informações. Exemplo: todos os animais infectados por uma determinada doença. N→ tamanho da população Amostra: Uma amostra é um subconjunto de indivíduos da população alvo. Existem dois tipos de amostras, as probabilísticas, baseadas nas leis de probabilidades, e as amostras não probabilísticas, que tentam reproduzir o mais fielmente possível a população alvo. Entretanto, somente as amostras probabilísticas podem, por definição, originar uma generalização estatística, apoiada no cálculo de probabilidades e permitir a utilização da potente ferramenta que é a inferência estatística. n →tamanho da amostra Variável: é uma característica da população. Toda questão de pesquisa define um número de construções teóricas que o pesquisador quer associar. O grau de operacionalização destas construções não faz parte de um consenso. Por essa razão, a seção que trata das definições das variáveis deve permitir ao leitor avaliar a adequação dos instrumentos utilizados, as variáveis escolhidas e as construções teóricas descritas no quadro conceitual. Variável dependente (VD): Mede o fenômeno que se estuda e que se quer explicar. São aquelas cujos efeitos são esperados de acordo com as causas. Elas se situam, habitualmente, no fim do processo causal e são sempre definidas na hipótese ou na questão de pesquisa. No nosso exemplo: desempenho em estatística e atitudes em relação à Estatística. Variável independente (VI): São aquelas variáveis candidatas a explicar a(s) variável(eis) dependente(s), cujos efeitos queremos medir. Aqui devemos ter cuidado, pois mesmo encontrando relação entre as variáveis isto, não necessariamente, significa relação causal. Variável qualitativa (ou categórica) nominal: São aquelas cujas respostas podem ser encaixadas em categorias, sendo que cada categoria é independente, sem nenhuma relação com as outras: sexo (masculino, feminino), raça (branco, preto, outro), etc. Variável qualitativa (ou categórica) ordinal: São aquelas cujas categorias mantém uma relação de ordem com as outras, que podem ser regulares ou não (existe uma ordem natural nas categorias): classe social (alta, média, baixa), auto-percepção de desempenho em Matemática (péssimo, ruim, regular, bom , ótimo), etc. A rigor, no tratamento estatístico das variáveis categóricas, não existe diferença se ela for nominal ou ordinal, a única observação é que quando você está lidando com uma variável ordinal, é aconselhável manter a ordem natural das categorias, de menor para maior, na hora da apresentação, seja em tabela ou em gráficos. Variável quantitativa discreta: São aquelas resultantes de contagens, constituem um conjunto finito de valores: número de filhos, número de reprovações em matemática, idade em anos completos, etc. Variável quantitativa contínua: Resultados de mensurações, podem tomar infinitos valores: pontuação na escala de atitude, nota na prova de matemática, pontuação no vestibular, etc. Variável Dicotômica: variável em que só existem duas respostas possíveis, como por exemplo sim/não, doente/não doente, macho/fêmea, etc. Variável Dummy: variável dicotômica que foi atribuído o valor 0 ou 1. 2. OBTENÇÃO E USO DA ESTATÍSTICA DESCRITIVA 2.1 – CONCEITO E OBJETIVO Resumir uma grande quantidade de informação de modo que se torne mais fácil a compreensão dos fenômenos envolvidos e a tomada de decisão. A maneira mais simples de resumirmos a informação contida numa variável quantitativa com um grande número de dados é através de tabelas. 2.2 – COLETA DE DADOS NUMÉRICOS Após a determinação do problema de um estudo, inevitavelmente, surge a seguinte dúvida: Qual deverá ser o tamanho da amostra (n)? Vale ressaltar que devido a questões de logística (tempo, dinheiro, recursos humanos e físicos) devem ser evitadas amostras desnecessariamente grandes, por outro lado, amostras muito pequenas podem gerar conclusões duvidosas. Questões envolvidas na determinação do tamanho amostral Qual o problema do estudo? Qual o tipo de estudo? Qual o tipo de variável? Qual procedimento estatístico a ser utilizado? Qual o grau de confiança (100 – α) %? Qual o poder do teste (1 – β)? 2.3 – ORGANIZAÇÃO – SÉRIE ESTATÍSTICA: HISTÓRICA (TEMPORAL OU CRONOLOGICA), GEOGRÁFICA, ESPECÍFICA, DISTRIBUIÇÃO DE FREQÜÊNCIA E MISTAS 2.3.1 - Tabelas Estatísticas – Elementos Componentes Fonte: Ignácio, Sérgio Aparecido – 2003 (Estatística Geral e Aplicada) SÉRIE TEMPORAL OU CRONOLÓGICA É a série estatística em que os dados são observados segundo a época de ocorrência. Fonte: Ignácio, Sérgio Aparecido – 2003 (Estatística Geral e Aplicada) SÉRIE GEOGRÁFICA É a série em que os dados são observados segundo a localidade de ocorrência Fonte: Ignácio, Sérgio Aparecido – 2003 (Estatística Geral e Aplicada) SÉRIE ESPECÍFICA OU QUALITATIVA É a sérieem que os dados são agrupados segundo modalidades diferentes de ocorrência. Fonte: Ignácio, Sérgio Aparecido – 2003 (Estatística Geral e Aplicada) DISTRIBUIÇÃO DE FREQUENCIA É um método de agrupamento dos dados em categorias, classes ou intervalos, de tal forma que se possa determinar o número ou a percentagem de cada categoria, classes ou intervalos. Variáreis Categóricas Os valores de uma variável categórica são os rótulos para as categorias, como homem e mulher. A distribuição de freqüência de uma variável categórica relaciona o número ou a percentagem de unidades observacionais que se enquadram em cada categoria. Fonte: Ignácio, Sérgio Aparecido – 2003 (Estatística Geral e Aplicada) Variáveis Contínuas A distribuição de freqüência de uma variável contínua fornece o número ou a percentagem de unidades observacionais que se enquadram em cada intervalo de classe. Fonte: Ignácio, Sérgio Aparecido – 2003 (Estatística Geral e Aplicada) 2.4. Metodologia para a organização dos dados estatísticos em tabela (TABELA DE DISTRIBUIÇÃO DE FREQEUNCIAS) Dados Brutos – São aqueles sem nenhum critério de Organização Rol – São os dados organizados sob algum critério, por exemplo, ordem crescente, etc... Após os dados serem organizados em ROL, calcula-se o número de classes que irão agrupá-los: 1) Número de Classes: sobservaçõeclasses nn 10log.33.31 ( Algorítimo de Ransdall); Obs.: O cálculo do Número de Classes é meramente sugestivo, ou seja, pode ser qualquer valor inteiro, recomenda-se que as classes tenham no mínimo 3 classes, para variáveis quantitativas. 2) Amplitude dos Dados ou Amplitude Total: minmax xxAT ; 3) Amplitude do Intervalo de Classe: classesn ATa ; Obs.: Na escolha do valor que irá representar a amplitude de classe, deve-se ter o cuidado de sempre arredondar o valor para mais, podendo ser um número inteiro ou decimal. As Tabelas ilustram os dados agrupados e podem ser apresentadas com as seguintes Freqüências: Absoluta (fi), Relativa (%), Acumulada Direta F.A.(↓), Acumulada Indireta F.A.(↑), Acumulada RelaƟva Direta F.A.R. % (↓), Acumulada RelaƟva Indireta F.A.R.(↑) % Após o agrupamento dos dados, os mesmos estão pontos para serem apresentados na forma de gráficos: Histograma, Polígono de Freqüência e Ogivas. O exemplo abaixo ilustra o agrupamento realizado para os dados em ROL – Exemplo Ilustrativo: Concentração de cálcio no leite materno (μg/m), grupo maduro, Hospital Maternidade Odete Valadares, em Belo Horizonte, o período de 1984 a 1985 Cálcio (μg/mL de leite) – grupo maduro 159 175 181 188 200 206 213 214 217 231 238 238 242 244 256 259 260 263 264 275 277 279 281 293 302 303 314 344 394 Tabela 1 - Concentração de cálcio no leite materno (μg/m), grupo maduro, Hospital Maternidade Odete Valadares, em Belo Horizonte, o período de 1984 a 1985. Valores das referentes às freqüências Absoluta, Relativas e Acumuladas GRAFICOS Histograma e Polígono de Frequências Fonte: Ignácio, Sérgio Aparecido – 2003 (Estatística Geral e Aplicada) μg/mL de leite fi F.A.(↓) F.A.(↑) F.R. F.A.R.(↓) F.A.R.(↑) 159 ├ 199 4 4 29 14% 14% 100% 199 ├ 239 8 12 25 28% 41% 86% 239 ├ 279 9 21 17 31% 72% 59% 279 ├ 319 6 27 8 21% 93% 28% 319 ├ 359 1 28 2 3% 97% 7% Diagrama de Caixa - BOXPLOT Com os dados agrupados na forma de uma Distribuição de Freqüências, bem como os dados em ROL, os mesmos podem ser utilizados para os cálculos estatísticos. Para a Estatística Descritiva serão calculadas as Medidas de Tendência Central, Tendência não central, Dispersão ou Variabilidade, Assimetria e Curtose - MEDIDAS DE TENDENCIA CENTRAL As médias são os valores mais típicos e mais representativos de qualquer conjunto de dados. Como esses valores normalmente estão situados nas porções centrais de qualquer conjunto de dados ordenados; eles são, por isso mesmo, também chamado de medidas de tendência central. As médias mais usadas são as seguintes: 1) Média Aritmética ( x ) 2) Média harmônica (H) 3) Média Geométrica (G) 4) Moda ( xˆ ) 5) Mediana ( x~ ) 1) Média Aritmética ( x ) A média aritmética de um conjunto de valores assumidos por uma variável qualquer é definida como sendo a soma de todos os valores assumidos por essa variável dividida pela quantidade de valores que essa variável assumiu. a) Para variáveis enumeráveis em um conjunto de dados, sem agrupá-los, tem-se: n x x i , sendo n o número de observações. b) Para variáveis agrupadas em classes, com freqüências de ocorrências, tem- se: i ii f xf x . , sendo ii xf . a somatória dos pontos médios e, if das freqüências de ocorrências. 2) Média harmônica (H) A média harmônica de um conjunto de valores assumidos por uma variável qualquer é definida como sendo a recíproca da média aritmética das recíprocas desses valores que a variável assumiu. Aplicada em grandezas inversamente proporcionais, como velocidade e tempo. a) Para variáveis enumeráveis em um conjunto de dados, sem agrupá-los, tem-se: ix nH 1 , sendo n o número de observações. b) Para variáveis agrupadas em classes, com freqüências de ocorrências, tem- se: i i i x f f H , sendo i i x f a somatória do quociente entre as freqüências e os pontos médios e, if das freqüências de ocorrências. 3) Média Geométrica (G) A média geométrica de um conjunto de valores assumidos por uma variável qualquer é definida como sendo a raiz de enésima ordem do produto dos n-valores que essa variável assumiu. Indicada, sobretudo, quando os dados estão dispostos em progressão geométrica. a) Para variáveis enumeráveis em um conjunto de dados, sem agrupá-los, tem-se: n x G i loglog , sendo n o número de observações. b) Para variáveis agrupadas em classes, com freqüências de ocorrências, tem- se: i ii f xf G log. log , sendo ii xf log. a somatória do produto entre as freqüências e os logaritmos dos pontos médios e, if das freqüências de ocorrências. Montar a tabela da distribuição de frequências e calculas as Médias para essa tabela. 4) Moda ( xˆ ou Mo) É o valor que ocorre com maior freqüência em uma série de valores, ou seja, é o valor mais comum. A moda pode não existir e que mesmo que exista pode não ser única. Ex 1: O conjunto 3, 5, 8, 10, 12, 15, 16 não tem moda (Amodal) Ex 2: O conjunto 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 tem moda 9 (Unimodal) Ex 3: O conjunto 2, 3, 4, 4, 4, 5, 5, 6, 6, 7, 7, 7, 8, 9 tem moda 4 e 7 (Bimodal) Ex 4: O conjunto 2, 4, 4, 5, 5, 6, 6, 7, 7, , 8, 9 tem moda 4, 5, 6 e 7 (Multimodal) a) Para variáveis enumeráveis em um conjunto de dados, sem agrupá-los, corresponde ao valor que mais observações apresentam no conjunto de dados, isto é, que aparecem mais vezes. b) Para variáveis agrupadas em classes, com freqüências de ocorrências, corresponde ao ponto da ordenada máxima da curva, para os quais foiconstruída uma curva de freqüência que a eles se ajusta, tem-se então: cLx .ˆ 21 1 1 , em que, L1 = Limite real inferior da classe modal (que contém a moda); ∆1 = Excesso de freqüência modal sobre a da classe imediatamente inferior; ∆2 = Excesso de freqüência modal sobre a da classe imediatamente superior; c = Amplitudedo intervalo da classe modal. 5) Mediana ( x~ ou Md) Corresponde à medida que tem 50% dos dados à esquerda e 50% dos dados à direita. a) Para variáveis enumeráveis em um conjunto de dados, sem agrupá-los, corresponde ao valor médio ou a média aritmética dos dois valores centrais. Ex 1: O conjunto 3, 4, 4, 5, 12, 15, 16 tem mediana 5 (número impar de elementos) Ex 2: O conjunto 5, 5, 7, 11, 12, 18 tem mediana 9117 2 1 b) Para variáveis agrupadas em classes, com frequências de ocorrências, a mediana é obtida por interpolação. c f f f Lx mediana i .2~ 1 1 , sendo, L1 = Limite real inferior da classe mediana (classe que contém a mediana) if = Número de itens de dados (freqüência total); 1 f = soma de todas as freqüências das classes inferiores à mediana; medianaf = freqüência da classe mediana; c = amplitude do intervalo da classe mediana. Muitas vezes, precisamos decidir qual a medida de tendência central que mais se adéqua aos nossos objetivos. A seguir, segue uma tabela que apresenta vantagens e limitações de cada uma delas. Tabela 2 – Comparações do emprego da Média, Mediana e Moda. Fonte: Apostila de Introdução a Estatística Aplicada a Educação Física – Carlos Gomes de Oliveira – MEDIDAS DE TENDENCIA NÃO CENTRAL Se um conjunto de valores é ordenado em ordem de grandeza, o valor médio que divide o conjunto em duas partes iguais é a mediana (50%). Por extensão deste conceito pode-se pensar nos valores que dividem esse conjunto de dados não apenas correspondentes a 50%, como também correspondentes a 10%, 25%, 66% e etc... Assim, estes valores configuram as chamadas medidas de tendência não central. Estatisticamente são chamadas de QUARTIS, DECIS e PERCENTIS. QUARTIS Representa, tal como o nome indica, as medidas que se encontram em cada quarto (1/4) da reta dos valores observados, assim, existem quatro valores representativos: Q1 = 25% Q2 = 50% Q3 = 75% Q4 = 100% 25% 50% 75% Q3Q2Q1 25% 50% 75% Q3Q2Q1 DECIS Representam, tal como o nome indica, as medidas que se encontram em cada décimo (1/10) da reta dos valores observados, assim, existem 10 valores representativos: D1 = 10% D2 = 20% D5 = 50% D10 = 100% CENTIS ou PERCENTIS Representa, tal como o nome indica, as medidas que se encontram em cada centésimo (1/100) da reta dos valores observados, assim, existem 100 valores representativos: P1 = 1% P2 = 2% P50 = 50% P100 = 100% Fórmula: a f FAPLICouDQ escolidaClasse direta iii . , Em que: - O índice ‘ï’ irá representar qual medida de tendência não central será calculada; - LI é o limite inferior da classe identificada para o calculo; - P é uma medida de posição: 100ou 10ou 4 .niP , com ‘n’ o tamanho da amostra. - FAdireta é a freqüência acumulada direta; - fclasse escolida é a freqüência da classe que foi identificada para o cálculo; - ‘a’ é a amplitude do intervalo de classe: 40% 50% D5D1 D8 30%20%10% 90%80%70%60%40% 50% D5D1 D8 30%20%10% 90%80%70%60% 40% 50% P50P1 P80 30%20%1% 90%80%70%60%40% 50% P50P1 P80 30%20%1% 90%80%70%60% – MEDIDAS DE DISPERSÃO OU VARIABILIDADE Refere-se à variabilidade ou heterogeneidade dos dados, é então a maior ou menor diversificação dos valores de uma variável em torno de um valor de tendência central (média ou mediana) tomado como ponto de comparação. Fonte: Ignácio, Sérgio Aparecido – 2003 (Estatística Geral e Aplicada) As medidas de tendência central nos dão uma idéia da concentração dos dados em torno de um valor, não podendo destacar o grau de homogeneidade ou heterogeneidade que existe entre os valores que compõem o conjunto. Consideremos os seguintes conjuntos de valores das variáveis X, Y, Z. }160 ,120 ,50 ,15 ,5{ }72 ,71 ,70 ,69 ,68{ }70 ,70 ,70 ,70 ,70{ Z Y X Observamos então que os três conjuntos apresentam as mesmas médias aritméticas 702/350 x Entretanto, é fácil notar que o conjunto X é mais homogêneo que o conjunto Y e Z, já que todos os valores são iguais à média. O conjunto Y, por sua vez, é mais homogêneo que o conjunto Z, pois há menos diversificação entre cada um de seus valores e a média representativa. Concluímos então que o conjunto X apresenta dispersão NULA e que o conjunto Y apresenta uma dispersão MENOR que o conjunto Z As medias de dispersão podem ser absolutas ou relativas. 2.3.1 – Amplitude Total (AT) É a única medida de dispersão que não tem na média o ponto de referencia. Quando os dados não são agrupados a amplitude total é a diferença entre o maior valor e o menor valor observado: AT = Xmáximo – Xmínimo . Exemplo: Para os valores 40, 45, 48, 62 e 70 ; AT = 70-40 = 30; Para dados agrupados tem-se: AT = 4 – 1 = 3 AT = 10 – 4 = 6 A amplitude total tem o grave inconveniente de ser influenciada apenas pelos valores extremos do conjunto, desprezando os valores intermediários. Assim, a amplitude total não fornece uma idéia precisa quanto a dispersão do conjunto como um todo. Faz-se uso da AT quando se quer determinar a amplitude de temperatura em um dia, no controle de qualidade ou como uma medida de cálculo rápido sem muita precisão. 2.3.2 – Intervalo ou Desvio Interquartil (DQ) É calculada utilizando-se o 1º e o 3º quartil: DQ = Q3 – Q1 Obs: 1) O desvio quartil apresenta como vantagem o fato de ser uma medida fácil de calcular e de interpretar. Além do mais, não é afetado pelos valores extremos, grandes ou pequenos, sendo recomendado, por conseguinte, quando entre os dados figurarem valores extremos que não se consideram representativos; classes fi 4 - 6 6 6 - 8 2 8 - 10 3 Xi fi 1 6 3 5 4 3 2) O desvio quartil deverá ser usado preferencialmente quando a medida de tendência central for a mediana. 2.3.3 – Desvio Médio Absoluto (DM) Representa a média dos desvios considerando os valores absolutos. Neste caso, entende-se por desvio a distancia de um ponto à média da amostra. Como há pontos à esquerda e à direita da média haveria desvios positivos e negativos que ao se somarem se anulariam. Daí que se utilizem os valores absolutos. Pode ser calculado em relação a MÉDIA e a MEDIANA. Tem-se então: Para dados isolados: n xx DM i (Média) e n xx DM i ~ (Mediana) Para dados agrupados: i ii f fxx DM .)( (Média) e i ii f fxx DM .)~( (Mediana) Obs: Apesar de o desvio médio expressar aceitavelmente a dispersão de uma amostra, não é tão freqüentemente empregado como o desvio-padrão. Ele despreza o fato de alguns desvios serem negativos e outros positivos. Todavia será preferido o uso do desvio médio em lugar do desvio-padrão, quando esse for inevitavelmente influenciado pelos desvios extremos. 2.3.4 – Desvio Padrão (S) É a medida de dispersão mais geralmente empregada, pois leva em consideração a totalidade dos valores da variável em estudo. É um indicador de variabilidade bastante estável. O desvio padrão baseia-se nos desvios em torno da média aritmética e a sua fórmula básica pode ser traduzida como: a raiz quadrada da média aritmética dos quadrados dos desvios. Tem-se então Para dados isolados: N xxi 2 (População) 1 2 n xx S i (Amostra) Para dados agrupados: i ii f fxx ][ 2 (População) 1 ][ 2 i ii f fxx S (Amostra) Obs: observe a alteração nas fórmulas calculadas para a população e para a amostra. 2.3.4 – Variância (S2) É o desvio padrão elevado ao quadrado. Tem pouca utilidade como estatística descritiva, porém é extremamente importante na inferência estatística e em combinações de amostras. 2.3.5 – Coeficiente de Variação (CV) Muitas vezes se deseja saber se a dispersão dos dados está muito alta, ou mesmo comparar a dispersão de resultados de amostras diferentes para diferentes tipos de medida. Por exemplo, suponhamos que se mediu a massa e a altura de uma mesma amostra de indivíduos e obteve-se como média para a massa 82,4 kg e desvio 65,4 kg; e para a altura a média de 176 cm e desvio padrão de 80 cm. Qual das duas medidas possui maior dispersão? A princípio, pode parecer que é a altura. Entretanto, devem ser levadas em conta as diferentes unidades de medida. Uma forma de melhor comparar as variabilidades das medidas é através do coeficiente de variação ou CV. Matematicamente é definido como %100. x sCV Pela fórmula, podemos concluir que o CV é adimensional. Para o exemplo acima, tem-se os CVs de 65,6x100%/82,4 = 79%, para a massa, e de 80 x100%/176 = 45%, para a altura. Isto mostra que existe maior dispersão nos dados de massa que de altura. 2.3.6 – Coeficiente de Dispersão (CD) É o CV sem a percentagem. Obs.: Também associado as medidas de variabilidade está o chamado ERRO PADÃO, empregado para a análise de inferência estatística e seu cálculo é realizado dividindo-se o desvio padrão pelo raiz quadrada do tamanho da amostra, representa a precisão ou incerteza da média de uma única amostra como uma esƟmaƟva da média da população. n sEP - MEDIDAS DE ASSIMETRIA E CURTOSE No estudo de assimetria e curtose faz-se necessário o conceito de momentos. MOMENTOS: O momento de ordem r ( rM ) de um conjunto de n valores nxxxx ,...,,, 321 é definida pela quantidade: n x M n i r i r 1 , para r=1, tem-se que xM r O momento de ordem r rM centrado em relação a média aritmética x é definida ´por: n xx M n i r i r 1 Para 2r , tem-se que 22 sM No caso de dados agrupados em classes de freqüências, as expressões acima ficam assim definidas: k i i n i i r i r nf fx M 1 1 . k i i n i i r i r nf fxx M 1 1 . 1) Medidas de Assimetria 3a É o estudo realizado para identificar o comportamento (forma) de uma distribuição de freqüências, ou seja, em relação a uma medida de tendência central, saber se essa distribuição é simétrica ou assimétrica. Uma boa candidata é a MEDIANA, já que, representa 50% dos dados à direita e 50% à esquerda. Para o estudo da assimetria ou simetria. Quantitativamente, o grau de afastamento pode ser determinado pelo coeficiente momento de assimetria 3a , definido como o quociente entre o terceiro momento centrado na média 3M e o cube do desvio padrão, ou seja: 3 3 3 s Ma O coeficiente de assimetria de Pearson (A), é outra medida adimensional de simetria, sendo definida pela expressão: s MxA 0 Para 03 a , temos uma distribuição simétrica, caso contrário, a distribuição é dita assimétrica. Quando 03 a , a distribuição é dita alongada a esquerda, sendo denominada assimétrica negativa, enquanto que, 03 a , a distribuição é alongada a direita, sendo denominada positivamente assimétrica. Quando 15,0A , pode-se considerar a distribuição como sendo praticamente simétrica. Para valores 115,0 A , considera-se assimetria moderada e, para 1A a assimetria é dita forte. Fonte: Ignácio, Sérgio Aparecido – 2003 (Estatística Geral e Aplicada) Fonte: Ignácio, Sérgio Aparecido – 2003 (Estatística Geral e Aplicada) Figura 1 – Ralação posicional da Média, Mediana e Moda, com relação a forma da distribuição de freqüência dos dados. 2) Medidas de Curtose 4a A curtose é definida como o grau de achatamento de uma distribuição normal, pode ser denominada de platicúrtica, mesocúrtica e leptocúrtica. Fonte: Ignácio, Sérgio Aparecido – 2003 (Estatística Geral e Aplicada) Figura 2 – Grau de achatamento da Distribuição Normal. Quantitativamente, o grau de achatamento pode ser determinado pelo Coeficiente Momento de Curtose 4a , sendo definido por: 4 4 4 s Ma Para 34 a , temos uma distribuição mesocurtica. Quando 34 a , a distribuição é dita platicúrtica, enquanto que, para 34 a , a distribuição é dita leptocúrtica. De modo similar pode-se encontrar na literatura este valor sendo subtraído dele mesmo. Leptocúrtica Mesocúrtica Platicúrtica Leptocúrtica Mesocúrtica Platicúrtica
Compartilhar