Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística I Aula 3 Prof.: Patricia Maria Bortolon, D. Sc. Dados quantitativos: medidas numéricas Propriedades Numéricas Tendência Central Dispersão Formato Estatística: Prof. André CarvalhalEstatística: Prof. André Carvalhal Média Mediana Moda Central Amplitude Variância Desvio Padrão Dispersão Formato Assimetria Coeficiente de VariaçãoQuantis Propriedades Numéricas dos Dados Tendência Central (Localização) Estatística: Prof. Luis AraujoEstatística: Prof. Luis Araujo Variação (Dispersão) Forma Notação Medida Amostra População Média x µ Desvio Padrão S σ Estatística: Prof. Luis AraujoEstatística: Prof. Luis Araujo Desvio Padrão S σ Variância S2 σ 2 Tamanho n N Medidas de tendência central • Média Aritmética – Propriedades da média: • Centro de gravidade n x sobservaçõedenúmero xdevaloresdossoma x ∑== • Mais informativa no caso de distribuições aproximadamente simétricas • A soma dos desvios em relação a média é igual a zero • É influenciada por valores extremos. ∑ =− 0)( xxi Medidas de tendência central n x x n i i= ∑ =1 N x N i i= ∑ =µ 1 Média Amostral Média Populacional aestatísticx n = parâmetro N =µ Exemplo 1 • Se as lâmpadas de uma amostra duram 967, 949, 952, 940 e 922 horas de uso continuado, o que podemos concluir sobre a duração média das 40.000 lâmpadas do lote? • Solução: horasx 946 5 922940952949967 = ++++ = • Supondo que os dados são de uma amostra que represente a população de lâmpadas podemos estimar que a duração média das 40.000 lâmpadas é de • Para dados não-negativos, a média não só descreve o meio do conjunto de dados, mas impõe uma limitação ao seu tamanho. Se multiplicarmos por n ambos os lados da equação , veremos que e, portanto, que nenhuma parte, ou subconjunto dos dados, pode exceder . horas946=µ n x x ∑= ∑ = xnx . xn . Exemplo 2 • Se o salário anual médio pago a três jogadores de basquete nos EUA na temporada 2001-2002 foi de 3.650.000 dólares, pode – (a) algum deles ter recebido 6.000.000 dólares? – (b) dois deles terem recebido, cada um, 6.000.000 dólares? • Solução:• Solução: – Como n * x = 3 * 3.650.000 = 10.950.000 – (a) se um deles recebeu seis milhões, restariam 10.950.000 – 6.000.000 = 4.950.000 para os outros dois, de modo que é possível. – (b) se dois deles receberam, cada um, seis milhões, isso necessitaria de 2(6.000.000)=12.000.000 dólares. Como isso necessitaria mais do que o total pago aos três jogadores, não teria sido possível. Exemplo 3 • A editora de um livro precisa de um número para a quantidade de calorias de uma fatia de pizza de calabresa grande. Solicitando a um laboratório que faça o serviço com um calorímetro, ela recebe os seguintes números para uma fatia de pizza de seis fornecedores diferentes: 265, 332, 340, 225, 238 e 346.346. – (a) calcule a média, que a editora irá utilizar em seu livro – (b) suponha que, ao calcular a média, a editora cometa o erro de digitar 832, em vez de 238, em sua calculadora. Qual será o tamanho do erro no número que ela utilizará em seu livro? Exemplo 3 • Solução: – (a) a média correta é – (b) a média errada é 291 6 346238225340332265 = +++++ =x – (b) a média errada é – E o erro será um desastroso 390 – 291 = 99 calorias 390 6 346832225340332265 = +++++ =x Medidas de Tendência Central • Média Ponderada – Útil quando as grandezas em jogo não têm a mesma importância ∑ ∑ == +++ +++ = n ii n inn w w xw www xwxwxw x 12211 . ... ...... – xi são as observações da amostra – wi são os pesos de cada observação ∑ =+++ ininw wwww 121 ... Exemplo 4 • Numa turma de psicologia, há 14 calouros, 25 alunos de segundo e 16 alunos de terceiro ano. Dado que num exame os calouros obtiveram a média 76, os alunos do segundo ano a média 83 e alunos de terceiro ano a média 89, qual é a grande média pra toda a classe? • Solução: 96,82 162514 891683257614 = ++ ⋅+⋅+⋅ =x Medidas de tendência central • Mediana (Md) – Em um conjunto de observações ordenadas de forma crescente é o elemento que ocupa a posição central. – É o valor do elemento do meio se n é impar, e a média dos dois valores do meio se n é par. – Não é afetado por valores extremos. Dados de produção: Mês Produção: Dados ordenados: Jan 210 180Jan 210 180 Fev 180 180 Mar 205 185 Abr 195 190 Mai 205 195 Jun 220 198 <== Mediana =(198 + 200) / 2 = 199 Jul 185 200 <== Ago 190 205 Set 200 205 Out 180 205 Nov 205 210 Dez 198 220 soma = 2.373 média = 197,75 Medidas de tendência central • Mediana (Md) – Variável discreta em tabela de frequências Total de elementos = 23 Então o termo central ocupa a posição de no. 12 xi fi 2 1 5 4 Como localizar o 12o. elemento? R: construindo a frequência acumulada 5 4 8 10 10 6 12 2 Medidas de tendência central • Mediana (Md) – Variável discreta em tabela de frequências xi fi Fi 2 1 1 5 4 5 Total de elementos = 23 Então o termo central ocupa a posição de no. 125 4 5 8 10 15 10 6 21 12 2 23 Como localizar o 12o. elemento? R: construindo a frequência acumulada O elemento que ocupa a 12a. posição vale 8, então, podemos afirmar que a mediana vale 8!! Medidas de tendência central - posição • Quartis – Dividem um conjunto de dados dispostos em ordem crescente em quatro partes com dimensões iguais. Mínimo 3o. Q1o. Q 2o. Quartil = Mediana Máximo – 25% dos dados são inferiores ao 1o. Q – 50% dos dados são inferiores ao 2o. Q ou mediana – 75% dos dados são inferiores ao 3o. Q Medidas de tendência central - posição • Decis – Dividem um conjunto de dados dispostos em ordem crescente em dez partes com dimensões iguais. – 10% dos dados são inferiores ao 1o. Decil • Percentis – Dividem um conjunto de dados dispostos em ordem crescente em cem partes com dimensões iguais. – 1% dos dados são inferiores ao 1o. Percentil Medidas de tendência central • Média – valores agrupados Amostra: 18 20 20 21 22 24 25 34 41 51 29 30 30 31 31 32 33 40 50 29 37 37 37 37 38 38 38 49 27 36 44 45 45 45 46 47 48 26 36 44 54 54 56 58 62 65 25 35 43 53 n Fx x ii∑= Média = 38,32 Intervalos das classes Fi xi xiFi 18 - 25 6 21,5 129,0 25 - 32 10 28,8 288,0 32 - 39 13 35,5 461,5 39 - 46 8 42,5 340,0 46 - 53 6 49,5 297,0 53 - 60 5 56,5 282,5 60 - 67 2 63,5 127,0 Total 50 1925,0 Média = 38,50 0 2 4 6 8 10 12 14 21,5 28,8 35,5 42,5 49,5 56,5 63,5 Medidas de tendência central • Moda (Mo) – É o valor mais frequente (a maior barra do histograma) Intervalos das classes Fi xi xiFi 18 - 25 6 21,5 129,0 25 - 32 10 28,8 288,0 32 - 39 13 35,5 461,5 <== Classe Modal32 - 39 13 35,5 461,5 <== Classe Modal 39 - 46 8 42,5 340,0 46 - 53 6 49,5 297,0 53 - 60 5 56,5 282,5 60 - 67 2 63,5 127,0 Total 50 1925,0 Média = 38,50 0 2 4 6 8 10 12 14 21,5 28,8 35,5 42,5 49,5 56,5 63,5 Medidas de tendência central 14 12 10 8 Moda Média Mediana (627) 925,0 900,0 875,0 850,0 825,0 800,0 775,0 750,0 725,0 700,0 675,0 650,0 625,0 600,0 575,0 550,0 525,0 500,0 6 4 2 0 Std. Dev = 114,73 Mean = 658,6 N = 100 Dados quantitativos: medidas numéricas Propriedades Numéricas Tendência Central Dispersão Formato Estatística: Prof. André CarvalhalEstatística: Prof. André Carvalhal Média Mediana Moda Central Amplitude Variância Desvio Padrão DispersãoFormato Assimetria Coeficiente de VariaçãoQuantis Dados quantitativos: medidas numéricas Propriedades Numéricas Dispersão Estatística: Prof. André CarvalhalEstatística: Prof. André Carvalhal Amplitude Dispersão Variância Desvio Padrão Coeficiente de Variação Por que avaliar medidas de dispersão? • Exemplo: um médico observa a variação nos batimentos cardíacos por minuto de dois pacientes. Veja os resultados: – Paciente A: 72 76 74 – Paciente B: 72 91 59 – Os dois pacientes têm média de batimentos iguais a 74 mas a variação é muito diferente!! Amplitude • É a diferença entre o maior e o menor valor • Mede a dispersão total no conjunto de dados • Mas tem um problema.... 7 8 9 10 11 12 13 Balança A 7 8 9 10 11 12 13 Balança C 7 8 9 10 11 12 13 Balança B Não é apropriada quando há observações extremas Variância e Desvio Padrão • A amplitude não descreve como os valores se distribuem em torno da média, não mostra se há valores extremos... • ... poderíamos então avaliar os desvios em torno da média xxxxxxxx n −−−− ,...,,, 321 • ... mas a soma destes desvios é sempre igual a zero!! • Como não nos interessa se as diferenças são positivas ou negativas trabalhamos com os quadrados das diferenças • Uma alternativa, pouco utilizada, é usar os desvios absolutos, calculando o Desvio Médio Absoluto ∑ = −= n i i xx n DMA 1 1 Variância Amostral • É a soma das diferenças ao quadrado, em torno da média aritmética, dividindo-a pelo tamanho da amostra, menos um: ( ) 1 1 2 2 − − = ∑ = n xx S n i i • E a variância da população é igual a: 1− = n S ( ) N x N i i x ∑ = − = 1 2 2 µ σ Desvio Padrão Amostral • É a raiz quadrada da variância. • É a medida de dispersão mais utilizada. Está na mesma unidade dos dados originais. ( ) 1 2 − = ∑ = xx S n i i • E desvio padrão da população é igual a: 1 1 − = = n S i ( ) N x N i i x ∑ = − = 1 2 µ σ Desvio Padrão Amostral • Para calcular o desvio padrão de uma amostra devemos: – Calcular a média da amostra – Obter a diferença entre cada observação e a média – Elevar ao quadrado essas diferenças – Somar os quadrados das diferenças – Dividir o somatório por (n-1) � você aqui obteve a variância – Extrair a raiz quadrada do somatório obtido Exemplo 5 • Calcule o desvio padrão da seguinte amostra: Amostra Dados (Xi) : 10 12 14 15 17 18 18 24 n = 8 Média = x = 16 )X(24)X(14)X(12)X(10 S 2222 −++−+−+− = L 4.2426 7 126 18 16)(2416)(1416)(1216)(10 1n )X(24)X(14)X(12)X(10 S 2222 == − −++−+−+− = − = L É uma medida da dispersão “média” dos dados em torno de sua média Desvio Padrão Amostral • Organize seus cálculos: ==x xxi − ( )2xxi −ix total ( ) 1 1 2 − − = ∑ = n xx n i i xσ Desvio Padrão Amostrais Comparando Desvios - Padrão Média = 15.5 S = 3.33811 12 13 14 15 16 17 18 19 20 21 Dados A 11 12 13 14 15 16 17 18 19 20 21 Dados B Média = 15.5 S = 0.926 11 12 13 14 15 16 17 18 19 20 21 Média = 15.5 S = 4.570 Dados C Desvio Padrão Amostrais Comparando Desvios - Padrão Pequeno desvio padrão Grande desvio padrãoGrande desvio padrão Fórmula alternativa • Fórmula alternativa para o Desvio Padrão Amostral ( ) ∑ ∑= =−=−= n i n i i ixx xx n x xonde n S 1 2 12 1 σ σ ∑ =− i ixx nn 11 • Vantagem desse cálculo: não é preciso calcular a média nem os desvios em relação a média Entendendo a Variação nos Dados • Quanto mais espalhados ou dispersos estiverem os dados, maiores serão a amplitude, a variância e o desvio padrão • Quanto mais concentrados, ou homogêneos, forem os dados, menores serão a variância e o desvio padrãopadrão • Se as observações forem todas iguais (de forma que não exista nenhuma variação nos dados), a amplitude, a variância e o desvio padrão serão todos iguais a zero • Nenhuma das medidas de variação pode ser negativa Entendendo a Variação nos Dados • Você é apresentado ao desvio padrão dos retornos mensais nos últimos três anos de três fundos de investimentos – S = 7,71 – S = 17,66– S = 17,66 – S = 23,17 – O que você pode dizer sobre a variação dos retornos? – Você pode dizer qual o fundo com maior risco? Aplicações do Desvio Padrão • São usados nos problemas de inferência que veremos adiante • A dispersão, e o desvio padrão, são pequenos se os dados estão concentrados em torno da média e grandes se os mesmos são muito dispersos • O teorema de Tchebichev expressa formalmente • O teorema de Tchebichev expressa formalmente essa idéia... Teorema de Tchebichev • Para qualquer conjunto de dados (população ou amostra) e qualquer constante k maior do que 1, a proporção dos dados que devem estar a menos de k desvios-padrão de qualquer um dos dois lados da média é pelo menos 1 2 1 1 k − Exemplo 6 • Você está avaliando a rentabilidade das empresas do setor varejista. A média da rentabilidade sobre os ativos em 2009 foi de 10% com desvio padrão de 3%. Faça estimativas para a distribuição dos dados pelo Teorema de Tchebychev para k igual a 2 e 3. • Solução: %75 31 1 :2 k para ⇒== = - %91adesrentabilid das 88,9% menos pelo%1 %3310%adesrentabilid das 88,9% menos pelo%33%10 %9,88 9 8 3 1 1 :3 k para %61adesrentabilid das 75% menos pelo%4 %3210%adesrentabilid das 75% menos pelo%32%10 %75 42 1 2 2 ≤≤ ⋅+≤≤⋅− ⇒== = ≤≤ ⋅+≤≤⋅− ⇒== - - Teorema de Tchebichev • O problema do Teorema de Tchebichev é que ele diz apenas “pelo menos qual proporção” dos dados deve estar entre certos limites. É um limite inferior para a verdadeira proporção, tem poucas aplicações práticas. • Para distribuições em forma de sino podemos fazer as seguintes afirmações muito mais fortes.seguintes afirmações muito mais fortes. Cerca de 68% dos valores estão a menos de um desvio-padrão da média, isto é, entre xx σ− e xx σ+ Cerca de 95% dos valores estão a menos de dois desvios-padrão da média, isto é, entre xx σ2− e xx σ2+ Cerca de 99,7% dos valores estão a menos de três desvios-padrão da média, isto é, entre xx σ3− e xx σ3+ Fórmula de conversão para unidades padronizadas • Em um curso de francês um aluno obteve nota 66 em vocabulário e 80 em gramática. – 1a. Conclusão: melhor nota em gramática que vocabulário • E se você agora souber que a média e o desvio padrão da turma em vocabulário foram, respectivamente, 51 e 12. Em gramática média e respectivamente, 51 e 12. Em gramática média e desvio padrão das notas da turma foram, respectivamente, 72 e 16. Como sua resposta se altera? – Em vocabulário a nota do aluno está (66-51)/12 = 1,25 desvios padrão acima da média e em gramática (80-72)/16 = 0,50 desvios padrão acima da média da turma. – Comparado com o resto da turma o aluno está melhor em vocabulário do que em gramática. Fórmula de conversão para unidades padronizadas • z nos diz quantos desvios-padrão um valor está acima ou abaixo da média do conjunto de dados ao qual pertence. σ µ− = − = x zou S xx z qual pertence. Exemplo 7 • A Sra. Santos pertence a uma faixa etária na qual o peso médio é de 56kg, com desvio-padrão de 6kg, e seu marido, o Sr. Santos, pertencea uma faixa etária na qual o peso médio é de 82kg, com desvio-padrão de 9kg. Se a Sra. Santos pesa 66kg e o Sr. Santos pesa 96kg, qual dos dois, relativamente ao peso médio de sua faixa etária, está com maior excesso médio de sua faixa etária, está com maior excesso de peso? Exemplo 7 • Solução: – O peso do Sr. Santos está 96 – 82 = 14kg acima da média e o peso da Sra. Santos está “somente” 66 – 56 = 10kg acima da média, mas em unidades padronizadas obtemos (96-82)/9=1,55 para o Sr. Santos e (66-56)/6=1,66 para a Sra. Santos. Assim, relativamente ao peso médio de sua faixa etária, a Sra. Santos está mais acima do peso do que o Sr. Santos. Coeficiente de Dispersão • O desvio padrão depende das unidades de medida • O Coeficiente de Dispersão é uma medida relativa de variação • Expresso na forma de percentagem e não em termos das unidades dos dados específicos • Permite comparações quando as variáveis têm unidades de medida diferentesunidades de medida diferentes %100%100 ⋅=⋅= µ σ Vou x S V Coeficiente de Dispersão • Exemplo: o gerente de um serviço de entregas está avaliando a compra de uma nova frota de caminhões. Quando as encomendas são carregadas nos caminhões, no preparo para entrega, dois importantes parâmetros são considerados: peso (em kg) e o volume (em m3) para cada item. Suponha que numa amostra de 200 encomendas, o peso médio numa amostra de 200 encomendas, o peso médio seja de 26kg com um desvio padrão de 3,9kg, e o volume médio para cada encomenda seja 8,8m3 com um desvio padrão de 2,2m3. Como podem as variações de peso e volume ser comparadas? Coeficiente de Dispersão • Solução: – para o peso o coeficiente de variação V=3,9/26x100%=15%; – para o volume V=2,2/8,8x100%=25%. – logo, em relação à média aritmética, o volume de uma encomenda é muito mais variável do que seu uma encomenda é muito mais variável do que seu peso. Formato • 1. Descreve como os dados estão distribuídos • 2. Medida: assimetria AssimétricaAssimétricaAssimétricaAssimétrica Estatística: Prof. André CarvalhalEstatística: Prof. André Carvalhal AssimétricaAssimétrica à direitaà direita AssimétricaAssimétrica à esquerdaà esquerda SimétricaSimétrica MediaMedia= = MedianaMediana= = ModaModaMediaMediaMedianaMedianaModaModa ModaModa MedianaMediana MediaMedia Negativamente Assimétrica Simétrica Positivamente Assimétrica Formato • Coeficiente de Assimetria de Pearson padrãodesvio medianamédia SK − − = )(3 MediaMedia= = MedianaMediana= = ModaModaMediaMediaMedianaMedianaModaModa ModaModa MedianaMediana MediaMedia Negativamente Assimétrica Simétrica Positivamente Assimétrica
Compartilhar