Baixe o app para aproveitar ainda mais
Prévia do material em texto
Aula 3 Medidas-Resumo de Dados Objetivo: Compreender a importância de se resumir a informação a poucos valores numéricos, tanto de centralidade quanto de dispersão dos dados para futuras tomadas de decisão sob incerteza. 1 Medidas de Posição Medidas de Posição (ou de Tendência Central), como o próprio termo indica, visam a sintetizar o conjunto de dados em geral numa única medida em algum lugar geométrico central. Isso só é possível se nossas observações são de natureza quanti- tativa, pois, como dissemos anteriormente, as variáveis qualitativas estão no domínio da frequência apenas, ou seja, só podemos contar quantas observações recaem em cada categoria, mas não podemos operar matematicamente com as categorias em si. As principais medidas de posição usadas na Estatística são a média arit- mética, a mediana, a moda e os quartis da distribuição. Outras medidas de posição existem, mas não são tão usuais e não as trataremos nesse curso. Seja uma amostra representada por fx1; x2; x3; :::; xng de n observações numé- ricas, retiradas de uma população hipotética de N elementos cujas medidas são fX1; X2; X3; :::; XNg. Observe que em geral não temos acesso a todos os resultados da população e assim n < N , o que justi ca o uso da Estatística. Além disso não se deve confundir xi (i = 1; 2; :::; n) e Xj (j = 1; 2; :::; N). xi é o i-ésimo valor ob- servado na amostra, enquanto Xj é o j-ésimo valor não necessariamente observado da população. Claro que para todo xi na amostra, existe um j tal que xi = Xj. 1.1 Média Aritmética A média aritmética pode ser vista como o centro de gravidade de um conjunto de dados. Por isso ela é conhecida na Estatística como o momento de primeira ordem dos dados, ou seja o ponto de equilíbrio das observações. A média aritmética da população (�) é de nida como � = X1 +X2 + :::+XN N = PN i=1Xi N . A média aritmética da amostra ( �Xn) é de nida como �Xn = x1 + x2 + :::+ xn n = Pn i=1 xi n . 1 Observe que � é um parâmetro (não acessado e xo) e �Xn é uma estatística (acessada através da amostra e variável). Exemplo 1 Suponha uma amostra de 5 elementos de uma população cujos resul- tados são f1; 1; 4; 9; 10g. Então temos �X5 = 1 + 1 + 4 + 9 + 10 5 = 5. Propriedades da Média Aritmética (1) Seja uma amostra n observações numéricas representado por fx1; x2; x3; :::; xng com média �Xn. Seja k um número real. Então o conjunto fkx1; kx2; kx3; :::; kxng terá média k �Xn. De fato podemos ver que kx1 + kx2 + kx3 + :::+ kxn n = k � x1 + x2 + :::+ xn n = k �Xn O que o resultado acima nos diz é que, ao multiplicarmos nossas observações por um fator k, a nova média aritmética será dada pela média aritmética anterior multiplicada pelo mesmo fator. (2) Seja uma amostra de n observações numéricas representada por fx1; x2; x3; :::; xng com média �Xn. Seja k um número real. Então o conjunto fk + x1; k + x2; k + x3; :::; k + xng terá média k + �Xn. De fato podemos ver que (k + x1) + (k + x2) + (k + x3) + :::+ (k + xn) n = nk + (x1 + x2 + :::+ xn) n = k + x1 + x2 + :::+ xn n = k + �Xn O que o resultado acima nos diz é que ao somarmos nossas observações por um valor k, então a nova média aritmética será dada pela média aritmética anterior somada pelo mesmo valor k. (3) Seja uma amostra n observações numéricas representado por fx1; x2; x3; :::; xng com média �Xn. Seja di = xi� �Xn a distância (orientada) entre a i-ésima observação e a média aritmética. Então d1 + d2 + :::+ dn = 0, ou seja, as somas das distâncias orientadas é sempre nula, e consequentemente a média das distâncias orientadas é sempre nula. Isso comprova que a média é o ponto de equilíbrio de forças das observações. De fato 2 d1 + d2 + :::+ dn = � x1 � �Xn � + � x2 � �Xn � + :::+ � xn � �Xn � = (x1 + x2 + :::+ xn)� � �Xn + �Xn + :::+ �Xn � = (x1 + x2 + :::+ xn)� n �Xn = (x1 + x2 + :::+ xn)� n� x1 + x2 + :::+ xn n = (x1 + x2 + :::+ xn)� (x1 + x2 + :::+ xn) = 0 e assim d1 + d2 + :::+ dn n = 0 n = 0. (4) A média é mal condicionada para valores atípicos no conjunto de dados. No exemplo do conjunto de dados f1; 1; 4; 9; 10g a média é �X5 = 1 + 1 + 4 + 9 + 10 5 = 5 e representa bem a coleção. No entanto se tivéssemos f1; 1; 4; 9; 100g a média seria �X5 = 1 + 1 + 4 + 9 + 100 5 = 23, valor esse que não representa a maioria dos dados 1, 1, 4, 9, abaixo do valor 10. Com isso devemos ter cautela em sintetizar os dados com a média aritmética, se os mesmos são muito assimétricos e possuem valores discrepantes. Por exemplo, não seria adequado resumir a informação a respeito dos salários de trabalhadores de uma indústria com a média aritmética, se há cargos no executivo com salários astronômicos, pois estes elevariam a média salarial acima da realidade do trabal- hador mediano. Nesses casos devemos tomar outra medida de posição, que seja mais estável para dados atípicos, como a mediana, que veremos a seguir. Cabe ressaltar aqui que se os dados são apresentados em tabelas de frequên- cia, indicando que o valor xi ocorre fi vezes no conjunto de dados, com f1 + f2 + :::+ fn = n, então a fórmula da média aritmética amostral será naturalmente dada por: �Xn = x1:f1 + x2:f2 + :::+ xn:fn f1 + f2 + :::+ fn = Pn i=1 xi:fi n . A fórmula acima pode ser interpretada como uma média aritmética pon- derada cujos pesos são as frequências fi, i = 1; 2; :::; n. Observe também que se denotarmos por pi = fi f1+f2+:::+fn = fi n a média dos dados pode ser expressa como �Xn = nX i=1 xi:pi, com pi tendo a interpretação de uma frequência relativa empírica da ocorrência de xi. Veremos mais tarde que essa expressão se assemelha à fórmula da Esperança Matemática de uma variável aleatória discreta. 3 Finalmente, se os dados são apresentados em classes com as respectivas frequências da classe, a fórmula acima também também expressa a média dos dados, com xi agora representando o ponto médio do intervalo da i-ésima classe e fi a frequência da i-ésima classe. Vejamos um exemplo desse tipo. Exemplo 2 Suponha a distribuição de frequências em classe, vista na Aula 2, dada por Classes Frequência xi (Ponto Médio) 67 ` 79 3 73 79 ` 91 5 85 91 ` 103 8 97 103 ` 115 9 109 115 ` 127 5 121 Total 30 A média aritmética baseada nos dados agrupados em classe da tabela acima será dada por �X30 = 73� 3 + 85� 5 + 97� 8 + 109� 9 + 121� 5 30 = 3:006 30 = 100; 2. Obviamente, esse valor não é necessariamente igual à média dos dados toma- dos pontualmente (não agrupados em classe). No entanto, espera-se que ambos os valores sejam próximos e, em situações em que não temos acesso aos dados não agru- pados, não nos resta outra maneira de resgatar a média dos mesmos, senão através do procedimento acima descrito. 1.2 Mediana É a medida que ocupa a posição central num conjunto de dados ordenados (se o número de elementos é ímpar) ou a média aritmética simples dos dois valores centrais (se o número de elementos é par). Isto é, se de nirmos x(k) como a k-ésima observação ordenada em ordem crescente, isto é, x(1) � x(2) � x(3) � ::: � x(n), então Me = x(n+1 2 ) (se n é ímpar) ou Me = x(n 2 ) + x(n+2 2 ) 2 (se n é par). Vejamos o seguinte exemplo para ilustrar o cálculo da mediana num conjunto de dados não agrupados. 4 Exemplo 3 Suponha uma amostra de 10 elementos de uma população cujos resul- tados são f54; 2; 35; 5; 65; 27; 9; 14; 44; 20g. Então, ordenando os dados em ordem crescente, temos 2; 5; 9; 14; 20; 27; 35; 44; 54; 65. Como n = 10, temos Me = x( 10 2 ) + x( 10+2 2 ) 2 = x(5) + x(6) 2 Mas x(5) = 20 e x(6) = 27. Assim Me = 20 + 27 2 = 23; 5. Propriedades da Mediana (1) A mediana divide a distribuição ao meio, indicando que 50% dos valores observados estão abaixo e 50% estãoacima deste valor mediano. (2) A mediana é uma medida robusta, isto é, se abala pouco para valores ex- tremos na distribuição. Vejamos isso à luz de um exemplo simples: Para o conjunto de dados f1; 1; 4; 9; 10g, temos que a média é �X5 = 1 + 1 + 4 + 9 + 10 5 = 5 e a mediana é Me = x(3) = 4, ambas as medidas represen- tando bem o conjunto como um todo. No entanto, se tivéssemos agora f1; 1; 4; 9; 10; 100g a média seria �X6 = 1 + 1 + 4 + 9 + 10 + 100 6 = 20; 833::: (valor esse que não rep- resenta a maioria dos dados) e a mediana seria Me = 4 + 9 2 = 6; 5 (valor ainda representativo da maioria dos dados). Assim, vemos que, na presença do valor ex- tremo 100, a média passa de 5 a 20; 83, enquanto que a mediana passa de 4 a 6; 5. Isso mostra o caráter de robustez da mediana. Quando os dados estão distribuídos em classe, a médiana é calculada medi- ante a fórmula: Me = li + � n 2 � fac fmed � � h onde li é o limite inferior da classe da mediana (isto é, a classe em que se situa a informação de posição n 2 ); n é o número de observações, fac é a frequência acumulada anterior à classe da mediana; fmed é a frequência da classe da mediana; e h é a amplitude da classe da mediana. Retomemos o Exemplo 2 anterior. Assim, temos Classes Frequência Frequência Acumulada 67 ` 79 3 3 79 ` 91 5 8 91 ` 103 8 16 103 ` 115 9 25 115 ` 127 5 30 Total 30 Como há n = 30 observações a posição do valor mediano é 30 2 = 15 e, portanto, a classe da mediana é 91 ` 103, pois esta classe contém os elementos 5 ordenados da 9a a 16a posições. Assim, temos li = 91, fac = 8, fmed = 8 e h = 103� 91 = 12. Assim, a mediana será dada por Me = 91 + � 30 2 � 8 8 � � 12 = 101; 5. 1.3 Moda A moda (Mo) é a observação mais freqüente de um conjunto de dados. Caso não haja observação mais freqüente, ou seja, todos os valores aparecem apenas uma única vez no conjunto de dados, a distribuição é dita amodal. Podemos ter um conjunto unimodal se houver apenas uma moda; bimodal se houver duas modas; ou multimodal (ou plurimodal) se houver três ou mais modas no conjunto de dados coletados. Vejamos exemplos das quatro situações descritas acima: Sejam as notas da prova de Matemática dos alunos de quatro turmas diferentes dadas pela tabela a seguir. Turma Notas Moda Distribuição T1 2; 4; 6; 8; 8,5; 9, 10 Não existe Amodal T2 2; 4; 5; 5; 8; 9; 10 5 Unimodal T3 2; 4; 5; 5; 8; 9; 9; 10 5 e 9 Bimodal T4 2; 2; 4; 5; 5; 8; 9; 9; 10 2, 5 e 9 Plurimodal A pergunta que surge naturalmente agora é: Quando a moda será preferível à média ou à mediana? Se a distribuição é bem equilibrada, isto é, o histograma da distribuição tem uma certa simetria, e há um único valor modal, então as três medidas-resumo são qualitativamente equivalentes. Mas nesse caso, em geral, preferiremos a média, pois veremos futuramente que a média possui propriedades probabilísticas importantes para a análise inferencial da população. Se, no entanto, a distribuição é altamente assimétrica com valores atípicos e unimodal, então preferiremos, em geral, tomar a mediana como medida síntese, embora a moda também possa ser usada em certas situações nesse caso. Se, por outro lado, o histograma da distribuição é do tipo bimodal (ou mesmo plurimodal) como na representação esquemática abaixo, então nem a média, nem a mediana são boas medidas de representação dos dados, pois estas se situariam no "vale" da distribuição em que há pouca incidência de valores. Assim, neste caso, preferiremos quase sempre a moda como medida síntese. 6 Distribuição Bimodal Para dados agrupados em classe, existe também uma fórmula para o cálculo do valor modal, dada por Mo = li + � �1 �1 +�2 � � h onde li é o limite inferior da classe modal (isto é, a classe de maior frequência); �1 é a diferença entre a frequência da classe modal e a frequência da classe anterior à modal; �2 é a diferença entre a frequência da classe modal e a frequência da classe posterior à modal; e h é a amplitude da classe modal. Retomando o Exemplo 2 anterior, temos que a classe modal é dada por 103 ` 115, pois é a de maior frequência (9 observações); li = 103; �1 = 9�8 = 1; �2 = 9�5 = 4; e h = 115� 103 = 12. Assim a moda será dada por Mo = 103 + � 1 1 + 4 � � 12 = 105; 4. Relação Empírica entre Média, Mediana e Moda A seguinte relação empírica em geral subsiste aproximadamente para os conjuntos de dados observados: �X �Mo = 3 � �X �Me� . Essa expressão pode ser apresentada de diversas formas e indica geometri- camente que a mediana se situa entre a média e a moda, sendo sua distância à moda o dobro de sua distância à média (veri que isso pela relação acima). Sua veri cação na prática tende a ser mais perfeita para conjunto maiores de dados, e sendo a moda calculada com base em dados agrupados em classes de freqüências. 7 1.4 Quartis da Distribuição Os quartis da distribuição são os três valores que dividem a distribuição em quatro partes iguais. O primeiro quartil (Q1) é o valor da distribuição em que abaixo dele há 25% da informação e acima dele há 75% da informação. O segundo quartil (Q2) é precisamente a mediana da distribuição (o valor que divide a distribuição ao meio). Finalmente o terceiro quartil (Q3) é o valor da distribuição em que abaixo dele há 75% da informação e acima dele há 25% da informação. Sejam x(1) � x(2) � x(3) � ::: � x(n), os dados ordenados em ordem cres- cente. O primeiro quartil (Q1) é de nido como Q1 = x ( 1 4 (n+1)) . O segundo quartil (Q2) é de nido como Q2 = x ( 1 2 (n+1)) . O terceiro quartil (Q3) é de nido como Q3 = x ( 3 4 (n+1)) . Lembrando que se as posições dos quartis acima não são valores inteiros, então devemos fazer uma interpolação dos valores intermediários à posição. Vejamos com o exemplo anterior. Exemplo 4 Suponha uma amostra de 10 elementos de uma população cujos resul- tados são f54; 2; 35; 5; 65; 27; 9; 14; 44; 20g. Então, ordenando os dados em ordem crescente, temos 2; 5; 9; 14; 20; 27; 35; 44; 54; 65. Como n = 10, temos Q1 = x( 11 4 ) = x(2;75) Com isso, o primeiro quartil se situa entre x(2) e x(3) com uma interpolação de 0; 75 entre eles. Assim, temos Q1 = x(2) + 0; 75� � x(3) � x(2) � = 5 + 0; 75� (9� 5) Q1 = 8 O segundo quartil é dado por Q2 = x( 11 2 ) = x(5;5) Com isso, o segundo quartil se situa entre x(5) e x(6) com uma interpolação de 0; 5 entre eles. Assim, temos Q2 = Me = x(5) + 0; 5� � x(6) � x(5) � = 20 + 0; 5� (27� 20) 8 Q2 = 23; 5, que é o resultado encontrado para a mediana. Finalmente, o terceiro quartil é dado por Q3 = x( 33 4 ) = x(8;25) Com isso, o terceiro quartil se situa entre x(8) e x(9) com uma interpolação de 0; 25 entre eles. Assim, temos Q3 = x(8) + 0; 25� � x(9) � x(8) � = 44 + 0; 25� (54� 44) Q3 = 46; 5. Para valores agrupados em classe, temos a seguinte fórmula para o k-ésimo quartil (k = 1; 2; 3): Qk = li + � k � n 4 � fac fQk � � h onde li é o limite inferior da classe do k-ésimo quartil (isto é, a classe em que se situa a informação de posição k� n 4 ); n é o número de observações, fac é a frequência acumulada anterior à classe do k-ésimo quartil; fQk é a frequência da classe do k- ésimo quartil; e h é a amplitude da classe do k-ésimo quartil. Retomando o Exemplo 2 anterior, temos que a classe do primeiro quartil é aquela que contém a observação na posição 30 4 = 7; 5, ou seja, a classe 79 ` 91, pois esta contém as informações ordenadas da posição 4 à posição 8. Assim, temos Q1 = 79 + � 1� 30 4 � 3 5 � � 12 = 89; 8. O segundo quartil é a mediana já calculada anteriormente, isto é, Q2 = Me = 101; 5. Finalmente, a classe do terceiro quartil é aquela que contém a observação na posição 3� 30 4 = 22; 5, ou seja, a classe 103 ` 115, pois esta contémas informações ordenadas da posição 17 à posição 25. Assim, temos Q3 = 103 + � 3� 30 4 � 16 9 � � 12 = 111; 67. Poderíamos então perguntar: Para que servem os quartis da distribuição? Temos uma dupla resposta a esta pergunta: serve para reconhecer os dados atípicos da distribuição, os chamados outliers e para construir um importante grá co estrutural da distribuição chamado Box-Plot. Vejamos os dois casos agora. 9 1.4.1 Reconhecimento dos Outliers (ou Dados Discrepantes) Para reconhecimento dos outliers da distribuição, precisamos obter o primeiro e o terceiro quartis da distribuição (Q1 e Q3). De ne-se a amplitude interquartílica da distribuição (IQ) como IQ = Q3 �Q1. Outliers da distribuição são os valores fora do intervalo � Q1 � 32IQ; Q3 + 32IQ � . Vejamos um exemplo concreto: Exemplo 5 As vendas de uma determinada loja em 27 dias observados são dadas a seguir: 28, 43, 48, 51, 43, 30, 72, 44, 48, 33, 45, 37, 37, 42, 27, 47, 42, 23, 46, 39, 20, 45, 38, 19, 17, 35, 45. Colocando os dados (n = 27) em ordem temos: 17, 19, 20, 23, 27, 28, 30, 33, 35, 37, 37, 38, 39, 42, 42, 43, 43, 44, 45, 45, 45, 46, 47, 48, 48, 51, 72. Temos Q1 = x( 28 4 ) = x(7) = 30, Q2 = Me = x( 28 2 ) = x(14) = 42 e Q3 = x( 84 4 ) = x(21) = 45. Assim IQ = Q3 �Q1 = 45� 30 = 15. O intervalo dos valores típicos é dado por� Q1 � 3 2 IQ; Q3 + 3 2 IQ � = � 30� 3 2 � 15; 45 + 3 2 � 15 � = [7; 5; 67; 5] Assim vemos que o conjunto de dados possui um único outlier, o de valor 72, valor esse considerado atípico e passível de uma análise mais minuciosa. Poderíamos perguntar: Que dia foi esse? Há explicações plausíveis para esse valor à luz de algum fator? Há toda uma teoria so sticada na Estatística para o tratamento dos outliers, mas está fora de nosso escopo ir a fundo nessas questões, visto que nosso curso é voltado para uma primeira inserção no universo da estatística. 1.4.2 Construção do Box-Plot Uma alternativa pictográ ca do histograma da distribuição é o Box-Plot. En- quanto o histograma tem uma representação da distribuição numa perspectiva frontal, o box-plot se assemelha a uma visão panorâmica de cima da distribuição. O Box-Plot é um grá co que contém os quartis da distribuição, os valores mínimos e máximos da distribuição que não são outliers e nalmente os outliers. O grá co abaixo, referente aos dados sobre vendas tratados no exemplo 5, representa 10 os quartis (30, 42 e 45) que de nem a caixa (box) que contém 50% da informação central dos dados coletados; os valores mínimos e máximos não-atípicos (17 e 51) e o valor do outlier (72) em asterisco. Box-Plot Observe que de 30 (Q1) a 42 (Me) há 25% da informação e de 42 (Me) a 45 (Q3) também há 25% da informação, e que o segundo intervalo tem menor amplitude que o primeiro. Portanto, o histograma deve ser mais alto no segundo intervalo que no primeiro, indicando que há uma assimetria da distribuição. (Embora tratemos o estudo da assimetria das distribuições em aulas posteriores, você consegue visualizar isso?) Exercício 1 Dados A = f24; 26; 28; 30; 32; 34; 36g e B = f15; 20; 25; 30; 35; 40; 45g, determine suas médias aritméticas, suas medianas e suas modas e diga se, com base nelas, é possível diferenciar os dois conjuntos de dados. Exercício 2 Dado o conjunto A = f85; 82; 97; 88; 89; 97; 89; 93; 88; 97; 96; 97; 98; 93; 97g determine sua média aritmética, sua mediana e sua moda. Exercício 3 Um geógrafo está interessado em estudar a idade de trabalhadores no campo de uma dada região. Para isto ele seleciona uma amostra aleatória de 10 trabalhadores, obtendo as seguintes idades: 42, 35, 27, 21, 55, 18, 27, 30, 21, 24. Pede-se: (a) A média das idades. (b) A moda das idades. (c) A mediana das idades. (d) Os possíveis outliers. Exercício 4 Dê uma situação prática onde você acha que a mediana é uma medida mais apropriada do que a média. Exercício 5 Esboce um histograma onde a média e a mediana coincidem. Existe alguma classe de histogramas onde isto sempre acontece? 11 Exercício 6 Num caso em que você esteja sintetizando o conjunto de dados em uma única medida de posição ou tendência central, qual dentre elas (média, mediana ou moda) você adotaria nos casos abaixo, justi cando (em alguns casos mais de uma escolha é possível): (a) A distribuição é praticamente simétrica e unimodal. (b) A distribuição é praticamente simétrica e bimodal. (c) A distribuição é fortemente assimétrica. Exercício 7 Quer-se estudar o número de erros de impressão de um livro. Para isso escolheu-se uma amostra de 50 páginas, encontrando-se o seguinte número de erros por página: Erros Frequência 0 25 1 20 2 3 3 1 4 1 (a) Qual o número médio de erros por página? (b) E o número mediano? (c) Qual é a moda? (d) Se o livro tem 500 páginas, como você estimaria o total de erros esperado no livro? (e) Quais os quartis das distribuição? Há evidência de dados atípicos (outliers)? (f) Faça num papel milimetrado o Box-Plot para os dados coletados. Exercício 8 Uma amostra de idades de 100 indivíduos foi retirada de uma certa população e sua distribuição de frequências em classes é dada por Idades Frequência 20 ` 30 10 30 ` 40 16 40 ` 50 27 50 ` 60 32 60 ` 70 15 Obtenha a média, a mediana, a moda e os quartis da distribuição. 2 Medidas de Variabilidade Enquanto as medidas de posição procuram sintetizar o conjunto de dados em al- guns valores situados entre dados coletados, as medidas de dispersão buscam avaliar quão dispersos (ou esparsos) são os dados coletados. Isso é de fundamental im- portância, pois podemos ter dois conjuntos de dados com as mesmas medidas de 12 posição, mas com dispersões diferentes, fazendo com que os valores qualitativos dessas medidas de posição sejam também diferentes. Há uma piada irônica que diz que o estatístico é o pro ssional que dirá que uma pessoa, ao se sentar numa cadeira com duas placas de metal, uma aquecida a 100�C e outra resfriada a �40�C, estará em média confortável, pois a temperatura média é de �40� + 100� 2 = 30�C! Na verdade, o verdadeiro estatístico jamais diria isso, pois ele não toma decisões apenas pela média, mas na dispersão dos dados em torno da média. Uma cadeira com duas placas de metal, uma aquecida a 35�C e outra a 25�C, também tem temperatura média de 30�C, mas há menos dispersão da temperatura nessa cadeira que na outra. Assim, embora quantitativamente iguais, os dois valores de 30�C não são qualitativamente equivalentes. Há portanto que se avaliar a variabilidade dos dados coletados, a m de tecer conclusões adequadas. Diversas são as medidas de variabilidade, mas estudaremos apenas as mais importantes e frequentes no trabalho do estatístico. 2.1 Amplitude Total A Amplitude Total (A) é de nida como a diferença entre o maior e o menor valor observado, x(n) e x(1), respectivamente. Assim A = x(n) � x(1). Como se trata de uma medida bruta (pois só leva em consideração os dois valores extremais do conjunto de dados), ela é usada mais frequentemente apenas para auxiliar na construção do histograma, como visto anteriormente. Mais relevante para a análise estatística é a variância, que de niremos a seguir. 2.2 Variância A variância representa a média das distâncias quadráticas entre cada valor observado e a média do conjunto dos dados. Vimos anteriormente que a média das distâncias orientadas entre cada valor observado e a média do conjunto dos dados é sempre nula. Portanto a média das distâncias orientadas nada nos informa sobre a dispersão dos dados. A ideia portanto é elevar ao quadrado as distâncias, pois nesse caso as somas quadráticas não se anulam, a menos que todo valor observado seja igual à média, isto é, os dados são todos iguais em valor. Seja uma amostra representada por fx1; x2; x3; :::; xng de n observações numé- ricas, retirada deuma população hipotética de N elementos cujos resultados (não- observados) são fX1; X2; X3; :::; XNg. A variância da população (�2) é de nida como �2 = PN i=1 (Xi � �)2 N , 13 com � a média da população. A variância da amostra (S2) é de nida como S2 = Pn i=1 � xi � �Xn �2 n� 1 , com �Xn a média da amostra. Aqui também vale ressaltar que a variância da população (�2) não é obser- vada na maioria das vezes e, portanto, é um parâmetro a ser estimado. A variância da amostra (S2), ao contrário, é obtida através dos dados coletados e usada para se estimar a variância da população. Portanto a variância da amostra é um valor aleatório, pois depende da amostra que foi retirada. A essa altura você deve estar se perguntando por que na fórmula da variância da amostra dividimos por n�1 ao invés de n, como expresso na fórmula da variância da população. Os estatísticos fazem isso, pois como S2 é um valor aleatório (cada amostra pode gerar uma variância amostral diferente), gostaríamos de "acertar" em média o valor da variância da população. Se dividíssemos por n, pode-se mostrar por métodos probabilísticos avançados que a variância da amostra não acertaria em média a variância da população. A correção adequada matematicamente é dividir por n� 1, daí a fórmula um pouco diferente. Claro que se a amostra é grande (por exemplo, maior do que 30 observações), dividir por n ou por n � 1 não fará muita diferença, mas se a amostra é pequena esse fator de correção faz toda a diferença! As fórmulas acima podem ser reescritas abrindo o quadrado dos binômios como �2 = PN i=1X 2 i N � �2 e S2 = Pn i=1 x 2 i � n �X2n n� 1 . (Veri que isso você mesmo(a).) Propriedades da Variância (1) Multiplicando-se todos os valores de uma variável por uma constante, a variância do conjunto ca multiplicada pelo quadrado dessa constante. Para ver isso, suponha que fx1; x2; x3; :::; xng tenha média �Xn.e variância S2. Lembre agora que o conjunto fkx1; kx2; kx3; :::; kxng terá média k �Xn. Assim a 14 variância desse novo conjunto é dada porPn i=1 � kxi � k �Xn �2 n� 1 = Pn i=1 k 2 � xi � �Xn �2 n� 1 = k2 "Pn i=1 � xi � �Xn �2 n� 1 # = k2S2 Ou seja a nova variância é k2S2. (2) Somando-se ou subtraindo-se uma constante a todos os valores de uma var- iável, a variância não se altera. Para ver isso, suponha que fx1; x2; x3; :::; xng tenha média �Xn.e variância S2. Lembre agora que o conjunto fk + x1; k + x2; k + x3; :::; k + xng terá média k+ �Xn. Assim a variância desse novo conjunto é dada porPn i=1 � (k + xi)� � k + �Xn ��2 n� 1 = Pn i=1 � xi � �Xn �2 n� 1 = S2 Assim, vemos que somar ou diminuir os dados por uma constante xada não alterará a dispersão dos dados. (3) Pelas fórmulas das variâncias tanto populacional quanto amostral, vemos que a variância é sempre um número real não-negativo. Ela será nula, se e somente se xi = �Xn, para todo i; portanto, se e somente se os dados são todos iguais. Caso contrário, a variância será sempre estritamente positiva. Novamente cabe ressaltar aqui que se os dados são apresentados em tabelas de frequência, indicando que o valor xi ocorre fi vezes no conjunto de dados, com f1+ f2+ :::+ fn = n, então a fórmula da variância amostral será naturalmente dada por: S2 = Pn i=1 � xi � �Xn �2 :fi n� 1 . Se os dados são apresentados em classes com as respectivas frequências da classe, a fórmula acima também também expressa a variância amostral, com xi representando agora o ponto médio da i-ésima classe e fi a frequência da i-ésima classe. 2.3 Desvio-Padrão Vimos que a variância é calculada elevando-se ao quadrado as observações. Portanto se os dados são mensurados em metro, por exemplo, a variância será men- surada em metro quadrado. Para retornar à medida original é preciso extrair a raiz quadrada da variância. Esse valor é denominado desvio-padrão dos dados. Assim: 15 O desvio-padrão da população (�) é de nida como � = p �2 = rPN i=1 (Xi � �)2 N . O desvio-padrão da amostra (S) é de nida como S = p S2 = sPn i=1 � xi � �Xn �2 n� 1 . Relação Empírica entre Desvio-Padrão e Amplitude Na quase totalidade dos casos práticos temos: A 6 < S < A 3 . Propriedades do Desvio-Padrão (1) Somando-se ou subtraindo-se uma constante a cada valor de um conjunto de dados, o desvio padrão não se altera. Isso decorre do fato de que somando-se ou subtraindo-se uma constante a todos os valores de uma variável, a variância não se altera. Portanto o desvio-padrão também não se alterará. (2) Multiplicando-se ou dividindo-se por uma constante cada valor de um con- junto, o desvio padrão também ca multiplicado ou dividido, respectivamente, pelo módulo da constante. Vimos que o conjunto fkx1; kx2; kx3; :::; kxng tem variância k2S2. Assim o novo desvio-padrão será dado por p k2S2 = jkjS. 2.4 Coe ciente de Variação Nem sempre uma variância pequena (e consequentemente desvio-padrão pe- queno) signi ca pouca dispersão. Tampouco uma variância grande é sempre indi- cador de alta dispersão. Esses valores podem ser altos ou baixos devido à magnitude dos dados observados. Se medimos observações em microscópio, por exemplo, ter- emos fatalmente um valor numericamente baixo de variância, podendo no entanto haver alta dispersão dos dados no nível microscópico. Da mesma maneira, ao medir produto interno bruto em dólares do Brasil teremos valores observados de alta mag- nitude, gerando variância grande, mas não necessariamente indicando alta dispersão. Como então avaliar a dispersão adequadamente? A ideia é tomar o desvio- padrão dos dados comparativamente à escala média dos dados. Tal medida é de- nominada de Coe ciente de Variação (CV ) e é de nida como o quociente entre o desvio-padrão e a média dos dados observados. É frequentemente expresso em porcentagem. Assim temos: 16 CV = S �X ou CV = S �X � 100%. Sua vantagem é caracterizar a dispersão dos dados em termos relativos ao seu valor médio. Assim, uma pequena dispersão absoluta pode ser, na verdade, considerável quando comparada com a ordem de grandeza dos valores da variável e vice-versa. Quando consideramos o coe ciente de variação, enganos de interpretação desse tipo são evitados. Quando o CV tem uma medida em percentual abaixo de 50%, dizemos que os dados são relativamente homogêneos; acima de 50% os dados são considerados heterogêneos, mas caso o coe ciente de variação seja superior a 100% dizemos que eles têm uma superdispersão. Consideremos o seguinte problema para o cálculo de medidas de posição e variabilidade. Exemplo 6 Suponha duas amostras de preços de fechamento atingido por dois pa- cotes de ações registrados em dez sextas-feiras consecutivas. Ações A 56 56 57 58 61 63 63 67 67 67 Ações B 33 42 48 52 57 67 67 77 82 90 Pede-se: (a) Obtenha as médias, as medianas e as modas dos dois conjuntos de dados. (b) Obtenha as amplitudes totais dos dois conjuntos de dados. (c) Obtenha as variâncias dos dois conjuntos de dados. (d) Obtenha os desvios-padrão dos dois conjuntos de dados. (e) Obtenha os coe cientes de variação dos dois conjuntos de dados. Sejam �XA e �XB as médias, MeA e MeB as medianas e MoA e MoB as modas. Então temos: �XA = 56 + 56 + :::+ 67 + 67 10 = 615 10 = 61; 5 �XB = 33 + 42 + :::+ 82 + 90 10 = 615 10 = 61; 5 MeA = 61 + 63 2 = 62 MeB = 57 + 67 2 = 62 MoA = 67 MoB = 67 Portanto os dois conjuntos têm as mesmas medidas de posição pedidas. Vejamos agora as amplitudes totais nos dois conjuntos: AA = 67� 56 = 11 AB = 90� 33 = 57 17 Assim, vemos que as Ações B têm maior amplitude que as Ações A. A m de preparar os cálculos das medidas de dispersão montaremos duas tabelas com as seguintes colunas: Ações A xi � �XA �xi � �XA �2 56 56� 61; 5 = �5; 5 30; 25 56 56� 61; 5 = �5; 5 30; 25 57 57� 61; 5 = �4; 5 20; 25 58 58� 61; 5 = �3; 5 12; 25 61 61� 61; 5 = �0; 5 0; 25 63 63� 61; 5 = 1; 5 2; 25 63 63� 61; 5 = 1; 5 2; 25 67 67� 61; 5 = 5; 5 30; 25 67 67� 61; 5 = 5; 5 30; 25 67 67� 61; 5 = 5; 5 30; 25P10 i=1 xi = 615 P10 i=1 � xi � �XA � = 0 P10 i=1 � xi � �XA �2 = 188; 50 Ações B xi � �XB � xi � �XB �2 33 33� 61; 5 = �28; 5 812; 25 42 42� 61; 5 = �19; 5 380; 25 48 48� 61; 5 = �13; 5 182; 25 52 52� 61; 5 = �9; 5 90; 25 57 57� 61; 5 = �4; 5 20; 25 67 67� 61; 5 = 5; 5 30; 25 67 67� 61; 5 = 5; 5 30; 25 77 77� 61; 5 = 15; 5 240; 25 82 82� 61; 5 = 20; 5 420; 25 90 90� 61; 5 = 28; 5 812; 25P10 i=1 xi = 615 P10 i=1 � xi � �XB � = 0 P10 i=1 � xi � �XB �2 = 3:018; 50 Assim, temos as seguintes variâncias amostrais nos dois conjuntos: S2A = P10 i=1 � xi � �XA �2 10� 1 = 188; 50 9 = 20; 944::: S2B = P10 i=1 � xi � �XB �2 10� 1 = 3:018; 50 9 = 335; 3888::: Os respectivos desvios-padrão são: SA = p 20; 944::: �= 4; 5765 SB = p 335; 3888::: �= 18; 3136 18 Finalmente os coe cientes de variação nos dois grupos são dados por: CVA = SA �XA = 4; 5765 61; 5 �= 0; 0744 ou CVA �= 7; 44% CVB = SB �XB = 18; 3136 61; 5 �= 0; 2978 ou CVB �= 29; 78% Finalmente, concluímos que embora os dois conjuntos tenham medidas de posição equivalentes, há maior variabilidade, e consequentemente mais incerteza, nas Ações B do que nas Ações A. Exercício 9 Esboce os histogramas de três variáveis (X, Y e Z) com a mesma média aritmética, mas com variâncias ordenadas em ordem crescente. Em qual histograma, a média tem maior valor qualitativo para sintetizar o conjunto de dados? Exercício 10 Um geógrafo está interessado em estudar a idade de trabalhadores no campo de uma dada região. Para isto ele seleciona uma amostra aleatória de 10 trabalhadores, obtendo as seguintes idades: 42, 35, 27, 21, 55, 18, 27, 30, 21, 24. Pede-se: (a) A amplitude total dos dados. (b) A variância do conjunto de dados. (c) O desvio-padrão do conjunto de dados. (d) O coe ciente de variação do conjunto de dados. O conjunto parece ser ho- mogêneo ou heterogêneo? Exercício 11 Quer-se estudar o número de erros de impressão de um livro. Para isso escolheu-se uma amostra de 50 páginas, encontrando-se o seguinte número de erros por página: Erros Frequência 0 25 1 20 2 3 3 1 4 1 (a) Calcule a variância da amostra. (b) Calcule o desvio-padrão da amostra. (c) Calcule o coe ciente de variação da amostra. O conjunto parece ser homogê- neo ou heterogêneo? 19 Exercício 12 Um órgão do governo do estado está interessado em determinar padrões sobre o investimento em educação, por habitante, realizado pelas prefeituras. De um levantamento em 10 cidades, foram obtidos os valores (codi cados) da tabela abaixo: Cidade A B C D E F G H I J Investimento 20 16 14 8 19 15 14 16 19 18 Pede-se: (a) A média dos investimentos. (b) A moda. (c) A mediana. (d) O desvio-padrão. (e) O coe ciente de variação. (f) Diagnosticar se há dados discrepantes (outliers). Exercício 13 Durante um ano, foram coletados os índices pluviométricos mensais de uma certa região, cujos dados encontram-se na tabela abaixo. Mês Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez Índice 69 53 41 46 50 40 41 40 42 38 42 46 Pede-se: (a) O índice pluviométrico médio no ano. (b) A variância e o desvio-padrão do índice pluviométrico. (c) O coe ciente de variação. Exercício 14 Suponha que você esteja interessado em avaliar qual de dois exper- imentadores (A e B) faz mensurações mais precisas ao microscópio. Para isso, cada experimentador faz 10 mensurações, resultando nas seguintes médias e variân- cias: �XA = 0; 1, S2A = 0; 009404, �XB = 0; 4, S 2 A = 0; 02. Utilizando uma medida estatística apropriada, qual dos experimentadores você diria ser mais preciso? Exercício 15 Uma amostra de idades de 100 indivíduos foi retirada de uma certa população e sua distribuição de frequências em classes é dada por Idades Frequência 20 ` 30 10 30 ` 40 16 40 ` 50 27 50 ` 60 32 60 ` 70 15 Obtenha a variância, o desvio-padrão e o coe ciente de variação das idades dos indivíduos da amostra. Exercício 16 (Fórum de Discussões) Proponha uma atividade prática em sala de aula de coleta de dados com a nalidade de descrever os resultados obtidos por meio de medidas de centralidade e de dispersão. 20
Compartilhar