Baixe o app para aproveitar ainda mais
Prévia do material em texto
31/10/2015 1 Profa. Lidia Rodella UFPE-CAA � São funções de valores de uma variável numérica. Descrição numérica dos dados. � Objetivo: reduzir um conjunto de dados numéricos a um pequeno grupo de valores que deve fornecer toda a informação relevante a respeito desses dados. 31/10/2015 2 CaracterísticaCaracterísticaCaracterísticaCaracterística InterpretaçãoInterpretaçãoInterpretaçãoInterpretação Tendência central Onde os dados estão concentrados? Quais são, aparentemente, os valores típicos ou centrais dos dados? Existe tendência central? Dispersão Quanta dispersão existe nos dados? Como os dados estão espalhados? Existem dados incomuns? Forma Os dados estão distribuídos de forma simétrica? Assimétrica? Existe um pico pronunciado? Achatado? � Medidas de localização ou tendência central ◦ Media, Mediana, Moda � Medidas de variação ou dispersão ◦ Amplitude total, variância, desvio padrão � Forma ◦ Assimetria, Curtose � Medidas de posição ◦ Quartis, Percentis � Medidas de associação ◦ Covariância, coeficiente de correlação 31/10/2015 3 � Medida mais conhecida e utilizada: ◦ Facilidade de cálculo e compreensão; ◦ Propriedades matemáticas e estatísticas. Média Aritmética Simples: Ponderada: todos os valores participam do cálculo com o mesmo peso. pelo menos um dos valores participa com peso diferente. � Para um conjunto de valores da variável : � Ponderada - Para um conjunto de valores e um conjunto de pesos: n X nxxx ,...,, 21 n x X n i i∑ == 1 nxxx ,...,, 21 nppp ,...,, 21 ∑ ∑ == i n i ii p px X 1 31/10/2015 4 • É o valor que ocupa a posição central da série de observações, quando estão ordenadas em ordem crescente. • Para obter a mediana: 1. Ordenar os dados; 2. Determinar a posição (p) da mediana. • Também para variáveis qualitativas ordinaisordinaisordinaisordinais )1(x )( nx Md %50 %50 • Formalmente: • Ex: – A = { 3, 4, 7, 8, 8} – B = {3, 4, 7, 8, 8, 9 } )()1()2()1( ... nn xxxx ≤≤≤≤ − 2 1 22 + + nn xx =)(Xmd + 2 1n x se n ímpar; se n par. Md = 7 Md = (7+8)/2 = 7,5 31/10/2015 5 • É o valor mais frequente do conjunto de valores observados. • É a única medida que pode não existir e, existindo, pode não ser única. • Única para variáveis qualitativas nominaisnominaisnominaisnominais.... • Ex: – C = { 2, 3, 5, 6, 7, 10 } – D = { 1, 2, 2, 3, 4 } – E = { 1,1, 2, 3, 4, 4} Não tem moda. Moda = 2 M1 = 1 e M2 = 4 � Distribuição bimodal ou distribuição multimodal ◦ Quando populações diferentes são combinadas em uma única amostra. 31/10/2015 6 � Exercício: Para o conjunto de valores abaixo, calcule a média, a mediana e a moda. 25 10 9 12 21 16 18 23 13 5 23 22 9 20 17 9 Média = 15,75 Mediana = 16,5 Moda = 9 � Qual é a melhor? EstatísticaEstatísticaEstatísticaEstatística FórmulaFórmulaFórmulaFórmula PrósPrósPrósPrós ContrasContrasContrasContras Média Medida familiar e usa toda a informação da amostra Influenciada por valores extremos Mediana Valor do meio dos valores ordenados Medida robusta a valores extremos nos dados Ignora valores extremos e pode ser afetada por lacunas nos valores dos dados Moda Valor dos dados que ocorre com maior frequência Útil para dados por atributo ou dados discretos com um intervalo de variação pequeno. Pode ser única e não é útil para dados contínuos. n x X n i i∑ == 1 31/10/2015 7 � Indicam a variabilidade de um conjunto de dados. � Conjuntos de dados: ◦ A = { 3, 4, 5, 6, 7 } ◦ B = { 3, 5, 5, 5, 7 } ◦ C = { 5, 5, 5, 5, 5 } ◦ D = { 3, 5, 5, 7 } ◦ E = { 3, 5, 5, 6, 6 } (variável X) (variável Y) (variável Z) (variável V) (variável W) 0,5===== VWZYX � É a diferença entre o maior e menor valor observado. � Ex: A = { 3, 4, 5, 6, 7 } B = { 3, 5, 5, 5, 7 } C = { 5, 5, 5, 5, 5 } D = { 3, 5, 5, 7 } E = { 3, 5, 5, 6, 6 } 437 =−=tA 437 =−=tA 055 =−=tA 437 =−=tA 336 =−=tA Não é uma boa medida de dispersão. Um boa medida de dispersão deve levar em consideração todos os dados. 31/10/2015 8 � É a soma dos quadrados dos desvios dividido pelo número de observações menos 1. � Ex: ◦ A = { 3, 4, 5, 6, 7 } 5=xMédia: Desvios ( ):xx i − 2,1,0,1,2 −− Quadrado dos desvios :( )2xxi − 4,1,0,1,4 População Amostra ( ) 1041014 5 1 2 =++++=−∑ =i i xx É mais conveniente exprimir as medidas como médias para evitar problemas na comparação de conjuntos de dados com quantidades diferentes de observações. 31/10/2015 9 � É a raiz quadrada positiva da variância. � Ex: ◦ A = { 3, 4, 5, 6, 7 } � s2 = 2,5 *O desvio padrão indica em média qual será o “erro” (desvio) cometido ao tentar substituir cada observação pela média do conjunto de dados. *Mesma unidade de medida dos dados. � Para uma amostra-piloto sobre a idade dos funcionários da Cia. A, calcule: média, mediana, moda, variância e desvio padrão. 35, 27, 21, 55, 18, 27, 30, 21, 24 Média = 28,67 Mediana = 27 Moda = 21 e 27 Variância = 124,25 Desvio padrão = 11,14 iiii xxxxiiii xxxxiiii ---- xxxx (x(x(x(xi i i i –––– x)x)x)x)2222 _ _ 31/10/2015 10 � Para qualquerqualquerqualquerqualquer conjuntoconjuntoconjuntoconjunto dededede dadosdadosdadosdados, a porcentagem de observações que se situam dentro de k desvios padrão da média deve ser pelopelopelopelo menosmenosmenosmenos − 2 1 1100 k Para qualquer população com média e desvio padrão :µ σ 2=k pelo menos 75% dos valores estarão no intervalo σµ 2± 3=k pelo menos 88,9% dos valores estarão no intervalo σµ 3± 4=k pelo menos 93,8% dos valores estarão no intervalo σµ 4± � Exemplo: � Apesar de aplicáveis q qualquer conjunto de dados, esses limites tendem a ser grandes. � Com mais informações, podemos fazer afirmações mais precisas. 72=µ 8=σ Pelo menos 75% dos valores estarão dentro do intervalo: ( )8272± [ ]88;56ou 31/10/2015 11 � Se um conjunto de dados tem distribuiçãodistribuiçãodistribuiçãodistribuição normalnormalnormalnormal (histograma em forma de sino), então: ◦ Aproximadamente 68% de todas as observações estarão dentro de ◦ Aproximadamente 95% de todas as observações estarão dentro de ◦ Aproximadamente 99,7% de todas as observações estarão dentro de .σµ ± .2σµ ± .3σµ± � Forma de distribuição 31/10/2015 12 � A curtose refere-se ao comprimento relativo das caudas e ao grau de concentração no centro. Grau de “achatamento” de uma distribuição de frequência. � Variação dentro da qual se espera que coeficientes de curtose estejam em 90% das vezes quando a população for normal: MesocúrticaPlaticúrtica Leptocúrtica Limite inferior Limite superior 31/10/2015 13 nnnn 5% inferior5% inferior5% inferior5% inferior 5% superior5% superior5% superior5% superior 40 -0,89 1,35 50 -0,82 1,23 60 -0,76 1,13 70 -0,72 1,04 80 -0,68 0,98 90 -0,65 0,92 100 -0,62 0,88 150 -0,53 0,71 200 -0,47 0,62 300 -0,40 0,50 � Fornecem informações sobre a posição de valores particulares em relação ao conjunto de dados. � Indicam limites para proporções de observações em um conjunto. Mediana Quartis Decis Percentis Divide o conjunto ordenado em duas partes. Dividem o conjunto ordenado em quatro partes. Dividem o conjunto ordenado em dez partes. Dividem o conjunto ordenado em cem partes. 31/10/2015 14 ◦ O Pi percentil é o valor para o qual P por cento são menores do que aquele valor e (100 – P)% são maiores do que aquele valor. � Ex: O P25 é o valor para o qual 25% dos valoresdo conjunto de dados são menores do que ele e 75% são maiores. ◦ Percentis são os noventa e nove valores que dividem um conjunto de dados ordenado em 100 partes iguais. ◦ É importante notar que P25 = Q1, P50 = Md e P75 = Q3. � Para se obter os percentis: 1. Ordenar os dados; 2. Determinar a posição (p) de cada percentil. 100 )1( P nLp += Onde Lp é a localização do pº percentil. 31/10/2015 15 � Ex: 0 1 2 3 3 5 5 5 6 7 7 100 )1( P nLp += 1º quartil = 25º percentil: 100 25 )111( += 3= (localização) 2251 == PQ 3º quartil = 75º percentil: 9 100 75 )12( 100 )1(75 ==+= P nL 6753 == PQ � Ex2: 2 3 5 6 7 7 75,1 100 25 )16(25 =+=L 1º quartil = 25º percentil: 3º quartil = 75º percentil: 123 =− 75,075,01 =× 75,275,021 =+=Q 25,5 100 75 )16(75 =+=L 7073 =+=Q 077 =− 025,00 =× 1. Subtração dos dados nas posições próximas; 2. Multiplica pelo valor nas casas decimais (distância); 3. O valor será da posição indicada pelo inteiro + o resultado da multiplicação acima. 31/10/2015 16 ◦ São três medidas que dividem um conjunto de dados ordenado em quatro partes iguais. )1(x )( nxMd %25%25%25%25 1Q 2Q 3Q 5052 PDQMd === 13 QQd q −=Distância interquartil: * É uma medida de dispersão; •Mede o spread de 50% das observações. •Um dq alto , indica alto nível de variação. � Para o conjunto de valores abaixo, calcule: variância, desvio padrão, Q1 e Q3. 13 16 15 14 20 18 Variância = 6,8 Desvio padrão = 2,6076 Q1 = 13,75 Q3 = 18,5 iiii xxxxiiii xxxxiiii ---- xxxx (x(x(x(xi i i i –––– x)x)x)x)2222 _ _
Compartilhar