Baixe o app para aproveitar ainda mais
Prévia do material em texto
AULA 5: Visualização de dados – Medidas características dos dados Cap. 6 do livro-texto do curso: Amostragem aleatória e descrição de dados Prof. Thiago Rezende Depto. Estatística - UFMG Estatística e Probabilidade http://www.est.ufmg.br/lst/ http://www.est.ufmg.br/lst/ Roteiro: 1. Análise exploratória de dados; 2. Síntese de dados usando medidas; 3. Medidas de síntese numérica e variabilidade para dados quantitativos. Descrição e Apresentação de Dados 950875800725650575 95% Confidence Interval for Mu 785775765755745735 95% Confidence Interval for Median Variable: Leite 734,823 92,320 739,141 Maximum 3rd Quartile Median 1st Quartile Minimum N Kurtosis Skewness Variance StDev Mean P-Value: A-Squared: 783,000 114,478 770,276 969,000 825,500 761,000 677,250 553,000 168 -7,7E-01 9,36E-03 10445,8 102,205 754,708 0,184 0,520 95% Confidence Interval for Median 95% Confidence Interval for Sigma 95% Confidence Interval for Mu Anderson-Darling Normality Test Descriptive Statistics Análise descritiva consiste na organização e descrição dos dados, na identificação de valores que traduzem o elemento típico e na quantificação da variabilidade presente nos dados Elementos Básicos ◘ Sínteses Numéricas ◘ Tabelas ◘ Gráficos Descrição e Apresentação de Dados Variável deve ser entendida como a quantificação ou categorização da característica de interesse do estudo Tipos de Variáveis ◘ Categóricas ◘ Quantitativas Nominais Ordinais Discretas Contínuas Aspectos Gerais Dentro do objetivo definido nos capítulos anteriores para a estatística descritiva, quanto maior a facilidade em transmitir as informações sobre a população em estudo para quem as estiver recebendo, mais eficiente será o meio de transmissão. Ainda, entendendo que essa transmissão é auxiliada pela síntese das informações, conclui-se que, dentro de limites de qualidade lícitos, quanto mais condensada vier a informação, mais fácil ir-se-á tornar a assimilação das características da população em questão (veja a Fig., no próximo slide). Fig. Aspectos Gerais Assim, a busca de valores típicos que caracterizem a população é uma tentativa de melhorar o entendimento do receptor da informação a respeito dela. O primeiro valor típico ou representativo que pode ser imaginado é um valor que seja o mais parecido possível com os demais valores do conjunto. Desse modo, está-se procurando um valor central, ou um valor que tende ao centro. As Medidas de Tendência Central, então, são uma primeira caracterização dos conjuntos populacionais ou amostrais. Aspectos Gerais Médias (“mean”) - Média aritmética simples, MAS Valores - Média geométrica, G - Média harmônica, H MTCs Mediana, (“median”) Ordem Moda, (“mode”) Freqüência Medidas de Tendência Central Quadro. Medidas de Tendência Central Aspectos Gerais Tratamento de dados simples A média aritmética (arithmetic mean) Dado o conjunto de n valores da variável X, X = {x1, x2, ..., xn}, a média aritmética simples desse conjunto pode ser obtida a partir da expressão: A média (mean) 𝑥 = 𝑖=1 𝑛 𝑥𝑖 𝑛 . A média aritmética (cont.) No caso de um conjunto com m valores diferentes, x1, x2, ..., xm, que aparecerem no conjunto com freqüências iguais a f1, f2, ..., fm, a média pode ser calculada usando-se a expressão: n fx f fx x m i ii m i i m i ii 1 1 1 Somando os m valores, incluindo as repetições, obtém-se o total de n =f, que seria o número total de elementos do conjunto. EXEMPLO 33 32, 33, 30, 34, X cm 4,32 5 33323330341 n x x n i i a) Seja X o conjunto dos perímetros cefálicos, em centímetros, de 5 recém- nascidos. b) Dado o número de casos de certa moléstia nas idades i1, i2, i3 com diferentes freqüências, o cálculo correto da idade média de incidência deverá considerar o peso do número de casos verificados em cada uma das 3 idades (repetições). Então, o perímetro cefálico médio dos cinco RN’s resulta: A média aritmética ponderada Em alguns casos, um dos dados do conjunto possui particular importância, de modo que o pesquisador deseja evidenciar esse fato ressaltando seu efeito. Nesse caso, é possível adotar um peso diferente (maior) para esse dado em relação aos outros. A média calculada com pesos diferenciados é denominada Média Ponderada, e pode ser calculada fazendo: m i i m i ii p p px x 1 1 em que pi = pesos arbitrados para cada dado ou valor. Propriedades da média aritmética simples • A soma algébrica dos desvios de um conjunto X com n números em relação à média aritmética é sempre igual a zero. • A soma dos quadrados dos desvios de um conjunto de números xi, em relação a qualquer número A, é um mínimo quando A = média e somente neste caso. • Se f1 números têm média m1, f2 números têm média m2, ..., fk números têm média mk, a média de todos os números é dada por: • A média de um conjunto de números é também igual à média de cada um destes números menos uma constante, somada depois a essa mesma constante. n fm f fm x k i ii k i i k i ii 1 1 1 A média geométrica, G Outro critério de cálculo da média é o que leva à denominada Média Geométrica, G. A média geométrica pode ser calculada empregando-se as expressões: n n nn i i xxxxxG ...321 1 1 A média geométrica tem aplicação quando se deseja calcular a média de valores expressos em uma escala não-linear, como mostra o Exemplo 4.4 (pág. 95). Exemplo: média geométrica Um experiência com 25 indivíduos consistiu em determinar a Concentração Mínima Inibitória (CMI) de determinado antibiótico para um certo tipo de bactéria. Calcule a média geométrica. CMI (µg/ml) Número 1,0000 1 0,5000 2 0,2500 6 0,1250 4 0,0625 3 0,0313 9 Total 25 Exemplo: Média geométrica A CMI normal para este tipo de bactéria é de 0,1001 (µg/ml). Se tivesse sido empregada a média aritmética, o resultado seria aproximadamente 0,18 (µg/ml). log( ) 0,9994 1 og(1) 2 og(0,5) 9 og(0,03125) log( ) 0,9994 25 10 10 0,1001.G G x G l l l x x A média harmônica, H Um outro conceito de média é o da Média Harmônica, H, que pode ser calculada: n n i i xxx n xnH 1 ... 11 21 1 1 1 A média harmônica tem aplicação quando se deseja calcular a média dos valores de uma variável por unidade de tempo. EXEMPLO Considere que uma lesão provocada por um determinado tipo de bactéria tenha se ampliado em 10 centímetros a partir da origem da lesão. Suponha que, até atingir os primeiros 5 cm, deslocou-se a uma velocidade de 1 cm/dia e, a partir deste local, a lesão começa a se ampliar a uma velocidade de 2 cm/dia. Qual seria a velocidade média de crescimento da lesão na área afetada? EXEMPLO 33,1 5,1 2 2 1 1 1 2 1 ... 11 21 nxxx n H SOLUÇÃO: Tempo para a lesão atingir os primeiros 5 cm = 5 (cm)/1 (cm/dia) = 5 dias. Tempo para a lesão atingir os restantes 5 cm = 5 (cm)/2 (cm/dia) = 2,5 dias. Então, a velocidade média de expansão da lesão na área afetada foi: expansão da lesão/tempo total = 10 (cm)/7,5 (dias) = 1,33 (cm/dia). Empregando a média harmônica das velocidades, obtém-se o mesmo resultado. Veja: 1.2.3 A mediana (median) A média não é a única medida de tendência central. Utilizando outros critérios para selecionar um valor representativo e central de um conjunto numérico, é possível obter outras medidas. Um desses critérios consiste em imaginar que, estando os valores que compõem o conjunto de observações ordenado de forma crescente ou decrescente, o valor que ocupa a posição eqüidistante dos extremos é o valor representativo do conjunto. Quanto ao caráter central deste número não há o que discutir, toda vez que ele é o próprio centro. Quanto à sua representatividade, equivale a pegar o meio da fila, que, estando ordenada, pressupõe umaescolha adequada. A mediana (median) A medida de tendência central definida nestes termos recebe o nome de Mediana, e será denotada daqui em diante pela letra minúscula correspondente ao conjunto que representa a variável, acompanhada do símbolo “chapéu”. Assim 𝑋 = 𝑥1, 𝑥2, … , 𝑥𝑛 , 𝑐𝑜𝑚 𝑥1 ≤ 𝑥2 ≤ ⋯ ≤ 𝑥𝑛 A mediana (median) A mediana possui uma característica importante quando se trata de conjuntos que possuem um valor atípico ou excepcional (extremamente grande ou pequeno “outlie”), pois, dependendo de como o cálculo é feito, ele irá pender a um dos extremos, sem afetar o resultado final. Em outras palavras, quando se calcula a mediana, os valores extremos não afetam o resultado final. Para compreender melhor esta asserção, veja o Exemplo 4.6 (pág. 97). EXEMPLO 4ˆ (impar) 5 ,8 5, 4, 3, 2, 4x̂ 4 5, 3, 8, 2, 3 2 15 xxxnX X OR a) Seja b) Seja 5,3 2 43 22 ˆ (par) 6 ,8 5, 4, 3, 2, 0, 5,3x̂ 0 4, 5, 3, 8, 2, 43 1 2 6 2 6 xx xx x nX X OR Outras Medidas de Ordem A mediana foi definida como a separatriz de um conjunto na sua metade. Podem ser definidas também outras separatrizes de ordem de um conjunto, como a divisão em quatro, dez ou cem partes. Estas medidas recebem o nome de: Quartil (quartis) Q1, Q2, Q3 e Q4. Decil (decis) D1, D2, ... , D10. Percentil (percentis) P1, P2, P3, ... , P99, P100. Observe que: Mediana = Q2 = D5 = P50, assim como Q1 = P25, etc. O cálculo dessas medidas é análogo ao da mediana. VEREMOS ISSO MAIS ADIANTE!! moda (mode) Outro critério para a escolha do valor típico de um atributo de uma população ou amostra dela é tomar o valor mais freqüente deste conjunto. Em outras palavras: o valor mais representativo é aquele que aparece o maior número de vezes. O valor resultante da adoção deste critério é conhecido como Moda ou Valor Modal do conjunto. Assim, para o conjunto de valores: EXEMPLO Para o conjunto Pois os números 0, 1 e 2 aparecem, respectivamente, com freqüências 3, 2 e 1. Observação: Note que moda igual a zero não significa que a moda não exista. Significa que o valor mais freqüente é o zero. A moda (mode) (cont.) No exemplo anterior, existe uma única freqüência máxima. Entretanto, em outros casos, as freqüências máximas podem ser duas ou mais de duas, gerando assim distribuições ditas: Ver o Exemplo 4.9 (pág. 100). • Amodais: quando todas as freqüências são iguais; • Bimodais: quando existem duas freqüências máximas; • Multimodais: quando existem várias freqüências máximas. EXEMPLO a. Distribuição amodal b. Distribuição bimodal c. Distribuição multimodal Dados Números de ovos: • Número de ovos do Aedes aegypti em dez ovitrampas durante uma semana em um região sanitária do RJ. 29 81 64 59 133 57 56 154 180 57 Encontre as seguintes medidas de síntese numérica: - a média aritmética simples, mediana e moda. Média: 1 29 81 64 59 133 57 56 154 180 57 870 87 . 10 10 nx x x ovos n n = 10 é o tamanho amostral, a media aritmética simples é dada por: Moda: • A moda é 57. Mediana: 29 56 57 57 59 64 81 133 154 180 [ /2] [( /2) 1] 59 64 123 61,50 . 2 2 2 n nx x md ovos Dados ordenados: n = 10 é par, a mediana é dada por: Interpretação: o valor 61,50 ovos deixa 50% dos dados abaixo dele. Resultados Usando um Software Estatístico EXERCÍCIOS Dados Números de ovos: • Número de ovos do Aedes aegypti em cinco ovitrampas durante uma semana de observação em um região de BH. Encontre as seguintes medidas de síntese numérica: - a média aritmética simples, mediana e moda. 30 80 64 64 100 Percentis e Escore Padronizado mais medidas de posição Descrição e Apresentação de Dados 950875800725650575 95% Confidence Interval for Mu 785775765755745735 95% Confidence Interval for Median Variable: Leite 734,823 92,320 739,141 Maximum 3rd Quartile Median 1st Quartile Minimum N Kurtosis Skewness Variance StDev Mean P-Value: A-Squared: 783,000 114,478 770,276 969,000 825,500 761,000 677,250 553,000 168 -7,7E-01 9,36E-03 10445,8 102,205 754,708 0,184 0,520 95% Confidence Interval for Median 95% Confidence Interval for Sigma 95% Confidence Interval for Mu Anderson-Darling Normality Test Descriptive Statistics Análise descritiva consiste na organização e descrição dos dados, na identificação de valores que traduzem o elemento típico e na quantificação da variabilidade presente nos dados. Elementos Básicos ◘ Sínteses Numéricas ◘ Tabelas ◘ Gráficos Exemplos: Dados Números de ovos: • Número de ovos do Aedes aegypti em dez ovitrampas durante uma semana em um região sanitária do RJ. 29 81 64 59 133 57 56 154 180 57 Encontre os percentis de ordem 25, 50 e 75. 29 56 57 57 59 64 81 133 154 180 25 [ ] [3] 57 .LP x x ovos Dados ordenados: A posição é: Interpretação: 25% dos dados são menores ou iguais ao valor 57 ovos. Percentil 25: 25 10 2,5 3 100 100 k L n O Percentil de ordem 25 é dada por: 29 56 57 57 59 64 81 133 154 180 [ ] [ 1] [5] [6] 50 59 64 61,50 . 2 2 2 L Lx x x x P ovos Dados ordenados: A posição é: Interpretação: 50% dos dados são menores ou iguais ao valor 61,50 ovos. Percentil 50: 50 10 5 100 100 k L n O Percentil de ordem 50 é dada por: 29 56 57 57 59 64 81 133 154 180 75 [ ] [8] 133 .LP x x ovos Dados ordenados: A posição é: Interpretação: 75% dos dados são menores ou iguais ao valor 133 ovos. Percentil 75: 75 10 7,5 8 100 100 k L n O Percentil de ordem 75 é dada por: Resultados Usando um Software Estatístico Escore Padronizado: EXERCÍCIO 01 Percentil Exercício 1: Dados Números de ovos • Número de ovos do Aedes aegypti em cinco ovitrampas durante uma semana de observação em um região de BH. 30 80 64 64 100 Encontre os percentis de ordem 25, 50 e 75. Resumos no software R Resultados: Percentiles 5 10 25 50 75 90 95 Weighted Average(Definition 1) Num.Ovos.BH 30,0000 30,0000 47,0000 64,0000 90,0000 . . Tukey's Hinges Num.Ovos.BH 64,0000 64,0000 80,0000 EXERCÍCIO 02 Escore Padronizado Exercício 02: Um determinado aluno de uma turma teve o seguinte desempenho nos testes de salto em extensão e conhecimento desportivo, respectivamente: - 108 cm (turma media = 88 cm, s = 11cm); - 64 pontos (turma media = 75 pontos, s = 6 pontos). Em qual teste ele teve o melhor desempenho? FIM DA AULA • Ver os Exemplos: • Exercícios resolvidos 1 e 2 (págs. 125 a 128). • Resolver os problemas propostos de 1 a 8 (pág. 138). 4.1 na pág. 92; 4.2 na pág. 93; 4.3 na pág. 94; 4.4 na pág. 95; 4.5 na pág. 96; 4.6 na pág. 97; 4.8 na pág. 99; 4.9 na pág. 100. Atividades de complementação do ensino: Medidas Características dos dados “Medidas de dispersão ou variabilidade, MD’s. Medidas de assimetria” Descrição e Apresentação de Dados 950875800725650575 95% Confidence Interval for Mu 785775765755745735 95% Confidence Interval for Median Variable: Leite 734,823 92,320 739,141 Maximum 3rd Quartile Median 1st Quartile Minimum N Kurtosis Skewness Variance StDev Mean P-Value: A-Squared: 783,000 114,478 770,276 969,000 825,500 761,000 677,250 553,000 168 -7,7E-01 9,36E-03 10445,8 102,205 754,708 0,184 0,520 95% Confidence Interval for Median 95% Confidence Interval for Sigma 95% Confidence Interval for Mu Anderson-Darling Normality Test Descriptive Statistics Análise descritiva consiste na organização e descrição dos dados, na identificação de valores que traduzem o elemento típico e na quantificação da variabilidade presente nos dados Elementos Básicos ◘ Sínteses Numéricas ◘ Tabelas ◘ Gráficos Descrição e Apresentação de Dados Variáveldeve ser entendida como a quantificação ou categorização da característica de interesse do estudo Tipos de Variáveis ◘ Categóricas ◘ Quantitativas Nominais Ordinais Discretas Contínuas Medidas de Variabilidade Aspectos gerais Entende-se por dispersão ou variabilidade a diferença observada entre os valores de um conjunto de dados. Evidentemente, quanto maior for essa diferença, maior será a dispersão ou variabilidade do conjunto, sendo válido o raciocínio inverso. Desse modo é possível, por simples observação, caracterizar um conjunto qualitativamente em termos de dispersão. Entretanto, para evitar o julgamento subjetivo associado à aferição qualitativa da dispersão, resulta conveniente construir um índice que permita efetuar uma análise quantitativa da variabilidade dos dados. Variabilidade ou dispersão Mensuração da dispersão ou da variabilidade MD’s Amplitude Total, AT (range) Soma dos Desvios Absolutos, SDA Desvio Médio, DM Lineares Soma dos Quadrados dos Desvios, SQD Variância, VAR[X] ou 2 (variance) Desvio Padrão, (standard deviation) Quadráticas Taxa de anormalidade Ordem Medidas A Amplitude Total, AT nn xxxxxxX ... com },...,{ 2121 1xxAT n Uma das formas mais óbvias e simples de se medir a dispersão consiste em calcular a Amplitude Total do conjunto que está sendo observado. A amplitude total é obtida do seguinte modo: Seja Então Apesar de ter a vantagem da simplicidade, a amplitude total é considerada um indicador inadequado para a mensuração da variabilidade. As razões apontadas são as seguintes: • A amplitude total não considera a totalidade dos dados do conjunto e sim apenas dois deles (o maior e o menor). Dessa forma, o indicador não é sensível à posição que os “n-2” valores restantes ocupam no conjunto. • No caso de dados agrupados em tabelas, os limites abertos não permitem o cálculo da amplitude total. A razão apontada em primeiro lugar pode levar a erros na avaliação da dispersão, como mostra o exemplo no próximo slide. A Amplitude Total, AT EXEMPLO Sejam os conjuntos: A = {1, 7, 7, 8, 8, 8, 9, 9, 12, 15} B = {3, 3, 4, 4, 8, 11, 13, 13, 14, 14} Dispersão [A] = ATA = 15 – 1 = 14 Dispersão [B] = ATB = 14 – 3 = 11 Entretanto, uma simples análise visual dos valores dos dois conjuntos, devidamente desenhados em uma escala graduada, mostra que a amplitude total reflete mal a dispersão dos conjuntos, tal como definido anteriormente. Observe a Fig. 4.5, no próximo slide. EXEMPLO Embora tenha-se mostrado que a amplitude total do conjunto A é maior que a do conjunto B (ATA > ATB), percebe-se uma dispersão menor dos valores do conjunto A em relação à do conjunto B. Fig. 4.5 Comparação da dispersão dos conjuntos A e B. Como a falha da amplitude total na avaliação da dispersão decorre do fato de considerar apenas os valores extremos do conjunto, a providência lógica a ser tomada é pensar em um indicador que reflita as diferenças de todos os valores do conjunto. xxd ii n i i n i i dxxSDS 11 )( A Soma dos Desvios Simples Tais diferenças são denominadas Desvios. Os desvios simples podem ser calculados fazendo: Uma das medidas que emprega esse critério é denominada Soma dos Desvios Simples, SDS, que pode ser generalizada pela expressão: A Soma dos Desvios Simples (cont.) Embora esse índice apresente coerência quanto à sua formulação, ele resulta inoperável, uma vez que, para qualquer conjunto numérico, a soma das diferenças de seus valores com respeito à média é sempre nula. O Desvio Médio parte do mesmo princípio da SDS, apenas forçando o valor positivo dos desvios pela adoção do valor modular destes. Dessa maneira, tem-se a Soma dos Desvios Absolutos, SDA. n xx n d n SDA DM n i i n i i 11 n i i n i i dxxSDA 11 O Desvio Médio Ainda com a finalidade de saber qual seria a variabilidade em média, adota-se o quociente entre a SDA e o número de valores do conjunto, n. Desse modo, tem- se o Desvio Médio, que pode ser posto: A Soma dos Quadrados dos Desvios é uma outra forma de resolver o problema de a Soma dos Desvios Simples resultar sempre nula. De fato, tomando cada desvio ao quadrado, o resultado será sempre positivo. A Soma dos quadrados dos desvios (desvio quadrático) A idéia de tomar os desvios ao quadrado é preferível à dos desvios absolutos, pois penaliza relativamente mais os desvios maiores. n i i n i i xxdSQD 1 2 1 2 )( A Soma dos quadrados dos desvios (desvio quadrático) Fig. Comparação entre desvios absolutos (lineares) e desvios quadráticos. Assim como no caso do Desvio Médio, resulta interessante calcular a média da Soma dos Quadrados dos Desvios, com a finalidade de obter o desvio quadrático médio, ou, como é comumente conhecido, a Variância. Variância e desvio padrão Denotando a variância por VAR[X], ou 2, tem-se: n xx n d n SQD DQM n i i n i i 1 2 1 2 )( n xx S n i i 1 2 2 )( Entretanto, pelo seu resultado ser obtido somando-se valores elevados ao quadrado, a Variância expressa a variabilidade dos dados como uma grandeza também ao quadrado (por exemplo, a variância das alturas de um grupo de pessoas, medidas em centímetros, será expressa em cm2). Para solucionar esse incômodo, basta extrair a raiz quadrada da Variância, obtendo-se assim um outro indicador de variabilidade, denominado Desvio Padrão. Variância e desvio padrão (cont.) n xx SS n i i 1 2 2 )( Desvio Padrão Correção 1 )( ; 1 )( 1 2 21 2 2 n xx ss n xx s n i i n i i Variância e desvio padrão (cont.) EXEMPLO 33 32, 33, 30, 34, X cm 52,13,2 cm 3,2 15 )4,3233(...)4,3230()4,3234( 1 )( 2 2 222 1 2 2 ss n xx s n i i Seja X o conjunto dos perímetros cefálicos, em centímetros, de 5 recém-nascidos. Obs.: Note as unidades resultantes das duas operações (cm2 e cm). Então, a variância e o desvio padrão (amostral) dos perímetros cefálicos dos cinco RN resulta: Quando se trata de comparar a dispersão de dois atributos diferentes de uma população, é conveniente normalizar os indicadores. Tal procedimento busca evitar erros nas conclusões a esse respeito. Para resolver esse problema, é utilizado um outro indicador da variabilidade de dados, denominado Coeficiente de Variação, que pode ser obtido usando- se as expressões: Coeficiente de variação, cv x s cv x cv ou Perceba-se que, ao dividir o desvio padrão pela média, é obtido um valor adimensional e normalizado. Valor Referência: 25%. EXEMPLO Recém-nascido 1 2 3 4 5 6 7 8 9 10 Comprimento (cm) 52 48 45 49 51 54 47 50 46 51 Peso (g) 3.300 3.200 2.950 3.150 3.350 3.450 2.900 3.300 3.150 3.250 Imagine uma amostra composta por dez crianças recém-nascidas, das quais são conhecidos o peso (em gramas) e o comprimento (em centímetros). Pode ser efetuada a comparação das variabilidades dos pesos e dos comprimentos para saber em qual dos casos há um maior afastamento dos valores normais. Nesse sentido, seriam calculados os desvios padrões do peso, P, e do comprimento, H, usando-se as expressões indicadas anteriormente. Obtêm-se assim: MédiaH = 49,3 cm VariânciaH = 7,24 cm2 Desvio padrãoH = 2,69 cm MédiaP = 3.200 g VariânciaP = 26.500,58 g2 Desvio padrãoP = 162,79 g EXEMPLO A comparação dos desvios padrões dos pesos e dos comprimentos pelo seu valor absoluto supõe ilusória conclusão de que a variabilidade dos pesos (162,79 g) é muito maior que a das alturas (2,69 cm). Essa conclusão, além de totalmente incorreta, constitui um absurdo, uma vez que estão sendo comparadas grandezas completamente diferentes (centímetro e grama). Entretanto, usando o cv: Os resultados invertem a conclusão baseada na errônea comparação das variabilidades pelos desvios padrões, uma vez que o coeficiente de variação dos comprimentos é maior que o dos pesos, o que indica uma dispersãomaior em torno do valor normal. É importante frisar que o desvio padrão e a variância são muito mais utilizados e conhecidos que o coeficiente de variação e que este é recomendado em casos particulares, como o deste exemplo. cvH = 0,0545 cvP = 0,0509 Define-se Taxa de Anormalidade, A, como o número relativo de casos cujos valores se encontram fora de um intervalo de referência (normalidade) previamente definido. Dessa forma A taxa de anormalidade, A n V A A em que VA corresponde ao número de valores fora do intervalo mencionado. Do ponto de vista conceitual, a taxa de anormalidade difere das outras medidas de dispersão porque seu cálculo se baseia na ordem dos elementos de um conjunto e não no seu valor (como no caso do desvio padrão). Dessa forma, a taxa de anormalidade é uma medida de variabilidade ordinal (veja o Exemplo 4.11, na pág. 112). Quando A informa que um certo percentual de casos é anormal, não se refere a qual o tipo de anormalidade, e muitas vezes essa informação é importante. Ao se falar em tipo de anormalidade, está-se referindo à predominância da anormalidade, que pode estar abaixo, acima ou em ambos os lados do intervalo de normalidade. Por exemplo: do ponto de vista clínico, é de fundamental importância saber onde predomina a anormalidade: 20% de taxas de ferro sérico anormais acima de 150 mg/dl não são iguais a 20% abaixo de 45 mg/dl. Considerando esses aspectos, é possível definir a Taxa de Anormalidade de Risco, Ar, como o número relativo de valores anormais de um conjunto numérico, que implicam nocividade quando relacionados à variável que representam. Assim, A taxa de anormalidade de risco, AR n V AR AR Medidas de Simetria E Curtose Simetria Grau de Achatamento Assimetria Entende-se por simetria a identidade de comportamento de uma curva a ambos os lados de um “eixo de simetria” ou “plano de simetria”. Assimetria seria a falta de simetria. A assimetria à esquerda é também chamada de assimetria negativa em oposição, a assimetria à direita é dita assimetria positiva. Assimetria Coeficiente de assimetria de Pearson, P Conceito 𝑃 = ( 𝑥 − 𝑚𝑑) 𝑠 Coeficientes Ilustração da assimetria Curtose Métodos A curtose de uma distribuição de probabilidade de uma variável aleatória é definida em termos do segundo e quarto momentos. OBS.: Polígono de frequências ou histograma em forma de “curva de sino”. Ilustração da Curtose (Excesso de Curtose) K = 3 Exemplo: Escore padronizado (n= 3284 obs.) Exemplo: Petro 3 (3284 obs. diárias) Escores leptocúrticos!! Cauda Pesada!! Escores assimétricos (negativa)!! Escore médio positivo!! Cálculo no software R! Exemplos: Dados Números de ovos: • Número de ovos do Aedes aegypti em dez ovitrampas durante uma semana em um região sanitária do RJ. 29 81 64 59 133 57 56 154 180 57 Encontre as seguintes medidas de variabilidade: - amplitude total, variância, desvio padrão e coeficiente de variação. Amplitude: Amplitude = Máximo – Mínimo = 180 – 29 = 151 ovos. Variância e desvio padrão: 87 .x ovos n = 10 é o tamanho amostral, a media aritmética simples é dada por: i X 1 29 -58 3364 2 56 -31 961 3 57 -30 900 4 57 -30 900 5 59 -28 784 6 64 -23 529 7 81 -6 36 8 133 46 2116 9 154 67 4489 10 180 93 8649 22728 2525,333 50,253 ( )iX X 2( )iX X 10 2 1 ( )i i X X 10 2 2 1 ( ) 10 1 i i X X S 2S S Coeficiente de variação: 50,253 57,76%. 87 S CV X O coeficiente de variação é dada por: Resumos no software R Resultados Usando um Software Estatístico Descriptives 87,00 15,891 51,05 122,95 85,06 61,50 2525,333 50,253 29 180 151 82 ,973 ,687 -,431 1,334 Mean Lower Bound Upper Bound 95% Confidence Interval for Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Num.Ovos Statistic Std. Error Variância Desvio padrão Amplitude EXERCÍCIOS Dados Números de ovos: • Número de ovos do Aedes aegypti em cinco ovitrampas durante uma semana de observação em uma região de BH. Encontre as seguintes medidas de dispersão dos dados: amplitude, variância, desvio padrão e coeficiente de variação. 30 80 64 64 100 Resumos no software R Resultados Usando um Software Estatístico Descriptives Statistic Std. Error Num.Ovos.BH Mean 67,6000 11,49609 95% Confidence Interval for Mean Lower Bound 35,6817 Upper Bound 99,5183 5% Trimmed Mean 67,8889 Median 64,0000 Variance 660,800 Std. Deviation 25,70603 Minimum 30,00 Maximum 100,00 Range 70,00 Interquartile Range 43,00 Skewness -,425 ,913 Kurtosis ,945 2,000 ASSISTA O VÍDEO DE COMO FAZER ESTATÍSTICAS DESCRITIVAS NO R (VISUALIZAÇÃO DE DADOS) Links: https://youtu.be/jZvQ4N0nuDY Gráficos: https://youtu.be/TmOqfmsyrnE https://youtu.be/jZvQ4N0nuDY https://youtu.be/jZvQ4N0nuDY https://www.r-project.org/ https://youtu.be/TmOqfmsyrnE Mais informações e materiais podem ser encontrados no website, Face e Youtube do LST: http://www.est.ufmg.br/lst/ https://www.facebook.com/lst.dest.ufmg/ https://www.youtube.com/channel/UCYiPLUzm_5vMX2NekzeIUUQ http://www.est.ufmg.br/lst https://www.facebook.com/lst.dest.ufmg/ https://www.youtube.com/channel/UCYiPLUzm_5vMX2NekzeIUUQ https://www.facebook.com/lst.dest.ufmg/ https://www.youtube.com/channel/UCYiPLUzm_5vMX2NekzeIUUQ
Compartilhar