Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Estatística descritiva Tabelas (forma de dispor dados numéricos) Quadros (forma utilizada principalmente para exibir formas esquemáticas) – Componentes e diferenças entre eles. Gráfico (Forma geométrica de expor os dados) – Pode ser retângulos (barras ou colunas); setores circulares (setograma, pizza ou torta); áreas; linhas; dispersão – pontos – ou ainda curvas que representem modelos e/ou equações. Representação gráfica – Quais os principais tipos de gráficos e sua indicação. Medidas Estatísticas Medidas de Tendência Central ou de posição; Medidas separatrizes; Medidas de dispersão. Medidas de tendência central Média Mediana Moda Média Média Aritmética Média Geométrica Média Ponderada Média Aritmética Para a população e para a amostra Para dados simples Para dados tabulados Para dados tabulados grupados em classes Mediana Para dados simples Número de observações impares Número de observações pares Para dados tabulados Número de observações impares Número de observações pares Para dados tabulados grupados em classes Moda Para dados simples Para dados tabulados Para dados tabulados grupados em classes 2 Medidas separatrizes Quartis Decis Centis ou percentis Medidas de dispersão Amplitude total Variância Desvio padrão Outras medidas Coeficiente de variação Erro padrão da média Análise exploratória de dados: Esta análise utiliza parte da estatística descritiva, sendo composta de: Histograma - Gráfico que melhor representa uma distribuição de freqüências. Box-plot – Gráfico que mostra os quartis, assim como a presença, ou não, de outliers suaves e extremos, (representados respectivamente por círculos cheios e vazados). Determinação de outliers suaves e extremos 3 Medidas e tendência central ou de posição Como os dados observados tendem a agruparem-se em torno dos valores centrais da distribuição, estas medidas receberam esta denominação. Média - Trata-se de uma medida que busca determinar um valor próximo ao centro de uma distribuição, representando o conjunto de dados. A depender da situação, a média poderá ser aritmética (a mais utilizada), geométrica ou harmônica. Quando um fenômeno ocorre de forma proporcional, por exemplo, em relação ao tempo ou os dados não apresentam discrepância, utiliza-se a média aritmética, como por exemplo, altura de seres humanos e vegetais ou lucros de uma agência de viagem num semestre. Quando os dados apresentam comportamento exponencial em relação ao tempo, tais como crescimento de uma população bacteriana ou velocidade de um avião na pista de decolagem, utiliza-se a média geométrica. A média harmônica é utilizada quando determinado fenômeno apresenta relação inversa em função do tempo, tais como velocidade média de um automóvel em determinados trechos de um deslocamento ou variação do estoque de determinado produto em função do tempo. Por ser mais utilizada, a média aritmética terá enfoque especial no presente curso. Média aritmética para a população e para a amostra. Para um melhor entendimento, convencionou-se a utilização de simbologia padronizada para representação da média quando se está trabalhando com uma população - parâmetro - ou com uma amostra - estimativa. De forma geral a média é uma medida resultante da divisão da soma de todos os valores atribuídos a uma variável pelo número de observações de um conjunto de dados, isto é, número de valores que foram atribuídos à própria variável. n X M n XXX M n i i n ∑ = =⇒ +++ = 121 ... Para a população, simboliza-se a média a partir da letra grega “mi” (µ) e o número de observações, neste caso a população, com a letra (N) maiúscula, pertencente ao nosso alfabeto. N X N i i∑ = = 1µ 4 Para a amostra, simboliza-se a média a partir de uma letra do nosso alfabeto, com uma barra acima dela. Geralmente simboliza-se a partir das letras X ou Y, mas por uma questão de facilitar a identificação, algumas pessoas preferem utilizar a letra inicial da característica mensurada. Exemplo: Peso médio (P) com a barra sobre a letra. O número de observações é simbolizado pena letra (n) minúscula. n X X n i i∑ = = 1 A média para dados simples, que não estão acompanhados de freqüências, é calculada de forma simples e objetiva, a saber: X = {2; 5; 6; 7} ⇒ 0,5 4 7652 = +++ =X Quando os dados se repetem, isto é, vem acompanhado de freqüências, o processo é o mesmo, mas a simbologia, conforme alguns autores modifica um pouco, mesmo significando a mesma coisa, a saber: X = {1; 1; 2; 2; 3; 3; 3; 5; 5; 5} ou, de forma tabular, o mesmo conjunto de dados apresenta o seguinte formato: Xi fi 1 2 2 2 3 3 5 3 O cálculo da média, por motivos práticos e organizacionais, geralmente é feito de forma tabular. Sendo assim, ao relacionar cada valor à sua respectiva freqüência, a simbologia da fórmula da média é: ∑ ∑ = = = n i i n i ii f fX X 1 1 E as operações são efetuadas da seguinte forma: Xi fi Xifi 1 2 2 2 2 4 3 3 9 5 3 15 - 10 30 0,3 10 30 ==X 5 Quando os dados estão tabulados e grupados em classes, como é o caso de uma distribuição de freqüências, o cálculo da média ocorre da seguinte forma: Xi fi Pm ou CC Xi*fi = PM*fi 150|--156 5 153 765 156|--162 4 159 636 162|--168 19 165 3135 168|--174 18 171 3078 174|--180 14 177 2478 180|--186 12 183 2196 186|--192 4 189 756 Σ 76 - 13044 63,171 76 13044 ==X O peso médio de todas as pessoas submetidas a uma pesquisa é de 55,855 Kg. Um grupo tem peso médio 50,5 Kg e o outro, de 65,8 Kg. Quais os percentuais de pessoas de cada grupo submetidas à pesquisa? Resposta: %.35100%655,9943,15 8,6565805,505,5585 100 )100(*8,65*5,50855,55 %.100)( 100 *8,65*5,50855,55 =−=⇒=⇒= ⇒−+=⇒ −+ = =+⇒ + = XYXX XXXX YXYX PROPRIEDADES DA MÉDIA ARITMÉTICA 1ª. Propriedade: A soma algébrica dos afastamentos (ou desvios, ou resíduos) de um conjunto de números tomados em relação à média é nula. Para dados isolados: Xi di = (Xi – Média) 2 2 - 5 = -3 5 5 - 5 = 0 6 6 - 5 = 1 7 7 - 5 = 2 Média = 5 Σdi = 0 Para dados tabulados: Xi fi Xifi di = Xi - X difi = (xi - X )fi 1 2 2 1 - 3 = -2 -2 x 2 = -4 2 2 4 2 - 3 = -1 -1 x 2 = -2 3 3 9 3 - 3 = 0 0 x 3 = 0 5 3 15 5 - 3 = 2 2 x 3 = 6 Σ 10 30 0 X = 3,0 6 Para dados tabulados grupados em classes: Estaturas fi Pm ou CC di = xi - X difi = (xi- X )fi 150|--156 5 153 153 -171,63 = -18,63 -18,63 x 5 = -93,2 156|--162 4 159 159 - 171,63 = -12,63 -12,63 x 4 = -50,5 162|--168 19 165 165 - 171,63 = -6,63 -6,63 x 19 = -126,0 168|--174 18 171 171 - 171,63 = -0,63 -0,63 x 19 = -11,3 174|--180 14 177 177 - 171,63 = 5,37 5,37 x 14 = 75,1 180|--186 12 183 183 - 171,63 = 11,37 11,37 x 12 = 136,4 186|--192 4 189 189 - 171,63 = 17,37 17,37 x 4 = 69,5 Σ 76 0 X = ΣXi/Σfi = 13044/76 = 171,63, onde Xi = PM ou CC. 2ª PROPRIEDADE: Somando-se ou subtraindo-se uma constante a todos os valores de um conjunto de informações, a média aritmética ficará somada ou subtraída dessa constante. X = {2; 5; 6; 7}; X = 5. K = 6. Nova média = 5 + 6 = 11. 3ª PROPRIEDADE: Se multiplicarmos ou dividirmos todas as informações por uma constante, a média aritmética também ficará multiplicada ou dividida por essa constante. X = {2; 5; 6; 7}; X = 5. K = 6. Nova média = 5 x 6 = 30. 4ª PROPRIEDADE: A soma dos quadrados dos desvios tomados em relação à média aritmética é um mínimo.X = {2; 5; 6; 7}; X = 5. K = 4. Xi (Xi - X ) (xi - X )2 (Xi - K) (Xi - K)2 2 -3 9 -2 4 5 0 0 1 1 6 1 1 2 4 7 2 4 3 9 Σ 14 18 Média Geométrica: Simples e Ponderada: Na passagem de um procedimento aritmético para um geométrico, deve-se observar que as somas se transformam em produtos, as subtrações em divisões, os produtos se transformam em potenciação e as divisões, em radiciação. A média geometria é utilizada quanto temos crescimento exponencial, por exemplo, quando o procedimento aritmético não nos fornece resultados considerados suficientes. As médias, assim como as aritméticas, podem ser simples ou ponderadas. 7 Conceitualmente, a média geométrica é a raiz nésima do produtório de n números. No caso da média geométrica simples, tem-se: n n i ig n i i XX n X X C 1 1 = = =⇔= ∑ Exemplo ilustrativo: O crescimento bacteriano, por unidade de tempo, foi: X:{10; 100; 1000}. Calcular a média geométrica do crescimento ( ) ( ) [ ] [ ] ( )[ ] .10010loglog2)log(321 3 1)log( 1000log100log10log 3 1log1000*100*10log)log( : .1001000*100*10 2 3 3 ===⇒=⇒++= ∴++=⇒= == gggg gg g XantiXXX XX OU X No caso da média geométrica ponderada, parte-se do mesmo princípio, a saber: ∑ =⇔= = = = = ∑ ∑ n i i i f n i f ign i i n i ii XX f fX X 1 1 1 1 C Exemplo ilustrativo: Calcular a média geométrica, a partir dos seguintes dados: Xi fi 10 2 100 4 1000 2 - 8 8 ( ) ( ) ( ) [ ] ( ) [ ] ( ) ( ) ( ) .10010]log[log 2log16* 8 1log3*22*41*2 8 1log 1000log*2100log*410log*2 8 1log 1000*100*10loglog1000*100*10 2 8 2428 242 =⇒== ⇒=⇒=⇒++= ⇒++= ⇒=⇒= ggg ggg g gg XXantiX XXX X XX Média Harmônica Conceitualmente, a média harmônica é o inverso da média aritmética dos inversos dos valores. É muito utilizada quando estudamos fenômenos que apresentam grandezas inversamente proporcionais. Dada uma variável X, cujos valores atribuídos a ela sejam: X: {X1; X2; ...; Xn} , a média harmônica dos valores da variável X é: ∑ = =⇒ +++ = n i i h n h X nX n XXX X 121 11 ... 11 1 Exemplo ilustrativo: Um trator percorre a distância de A para B a 20 Km/h. Volta, em seguida, percorrendo o mesmo caminho, com velocidade de 40 Km/h. Qual a velocidade média do trator em todo o percurso? ./6667,26 40 1 20 1 2 hKmXX hh =⇒ + = A média harmônica ponderada segue o mesmo princípio, com a diferença que, neste caso, ao invés do inverso dos valores, são colocadas suas respectivas freqüências. ∑ ∑ ∑ = = = =⇒ +++ = n i i i n i i h n i i n n h X f f X f X f X f X fX 1 1 1 2 2 1 1 ... 1 Exemplo ilustrativo: Um trator percorre a distância de 20 Km, a uma velocidade de 25Km/h. Em seguida, percorre mais 35Km a 40 Km/h, mais outra distância de 30 Km a 45 Km/h. Qual a velocidade média do trator em todo o percurso? 9 ./2989,36 45 30 40 35 25 20 303520 hKmXX hh =⇒ ++ ++ = Geral: Dado um conjunto de valores positivos e diferentes de zero, a média harmônica será menor ou igual à média geométrica e esta menor ou igual à média aritmética ( )XXX GH ≤≤ . Mediana: Trata-se de uma medida que divide uma distribuição em duas partes iguais, sendo 50% dos valores antes dela e 50% dos valores após ela. Também é considerada uma medida separatriz. Para dados isolados: Número de observações ímpares: Encontrar o elemento mediano: Valor ordinal, que determina a localização da mediana. Emd = 0 2 1 +n Exemplo: X = {2; 5; 7; 9; 13; 15; 22} ⇒ Emd = (7 + 1)/2 = 4° elemento. A mediana é: md = 9. Número de observações pares: Há dois elementos medianos. Emd = 0 2 n e Emd = 0 1 2 + n . Exemplo: X = {2; 5; 7; 9; 10; 16} ⇒ Emd = 6/2 = 3° elemento e Emd = 6/2 + 1 = 4° elemento. A mediana é: (7 + 9)/2 = 8. Para dados tabulados: Número de observações impares: Xi fi Fi 2 2 2 4 5 7 5 8 15 7 6 21 8 4 25 Σ 25 Emd = (25 + 1)/2 = 13°elemento. A mediana é: md = 5 . X = {2; 2; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 7; 7; 7; 7; 7; 7; 8; 8; 8; 8} 10 Número de observações pares: Xi fi Fi 2 5 5 4 4 9 5 6 15 7 8 23 8 3 26 Σ 26 Emd = 26/2 = 13° elemento e Emd = 26/2 + 1 = 14° el emento. A mediana é: md = (5 + 5)/2 = 5. X = {2; 2; 2; 2; 2; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 7; 7; 7; 7; 7; 7; 7; 7; 8; 8; 8} Para dados tabulados grupados em classes: Xi fi Fi 0 |------- 2 27 27 2 |------- 4 16 43 4 |------- 6 34 77 6 |------- 8 17 94 8 |-------| 10 16 110 110 Neste caso a mediana é uma interpolação feita a partir da classe onde se encontra o elemento mediano, chamada classe mediana. Emd = (n/2)° = 110/2 = 55° elemento da distribuição. hf FEmddmd XdmdX XX imd iANT *lim lim2* 34 43554355 2 344355 46 4377 − += ∴+=⇒ − =⇒ − =⇒ − = − − A mediana é calculada a partir da seguinte fórmula: hf FEmdlimd imd iANT * − += A classe mediana é: 4 |------- 6. O limite inferior desta classe é 4. A amplitude da classe é: 2 = (LS - li). A freqüência simples absoluta (fi) da classe mediana é: 34. Fi até a classe anterior à classe mediana é: 43. 11 O valor da mediana é: .7,42* 34 43554 =⇒ − += mdmd Moda: Tanto para valores isolados quanto para valores tabulados, a moda é determinada pela simples observação do valor que mais se repete. Quando é um só valor, o conjunto de dados é chamado uni modal. Quando acontece de ter mais de um valor que se repete com mais freqüência, o conjunto de dados poderá ser considerado bi modal, tri modal ou poli modal. Moda para dados Simples X = {2; 2; 3; 3; 3; 5; 5; 5; 5; 5; 7; 7; 7; 8; 8} Neste caso, a moda é: mo = 5. X = {2; 2; 3; 3; 3; 4; 4; 4; 6; 6} Neste caso, a moda é: mo = 3 e mo = 4. Este conjunto de dados é bimodal. Obs.: Caso a arrumação dos dados estivesse de forma tabulada, a moda seria a mesma, observando-se a maior repetição a partir das freqüências simples absolutas. Moda para dados tabulados: 12 A partir do histograma, pode-se entender a concepção da moda de Kzuber, a saber: mo = limo + x. xh x CD AB − = Aplicando-se uma das propriedades da proporção, em que a soma do antecedente com o conseqüente está para o antecedente, tem-se: h CDAB AB x x h AB CDAB x xhx AB CDAB * + =⇒= + ⇒ −+ = + Devemos lembrar que AB = AE – BE = fimo – fiANT e que CD = CF – DF = fimo – fiPOST. Assim: hfff fflmxlmo hfff ff xhffff ff x iPOSTiANTimo iANTimo imoimo iPOSTiANTimo iANTimo iPOSTimoiANTimo iANTimo *)(*20 Como *)(*2* +− − +=⇒+= +− − =⇒ −+− − = Moda para dados tabulados, grupados em classes, segundo processo de Czuber (Mais utilizada). ( ) ( )[ ] hfff ff imohlmo iPOSTiANTimo iANTimo imoimo * *2 * 21 1 +− − +=⇒ ∆+∆ ∆ += . Exemplo: Xi Fi 0 |------- 2 27 2 |------- 4 16 4 |------- 6 34 6 |------- 8 17 8 |------- 10 16 110 A classe modal é: 4 |------- 6. O limite inferior da classe modal é: 4. A amplitude é: (6 - 4) = 2. Afreqüência simples absoluta da classe modal é: 34. A freqüência simples absoluta da classe anterior à classe modal é: 16. A freqüência simples absoluta da classe posterior à classe modal é: 17. A moda é: ( ) .03,52*171634*2 16344 =⇒ +− − += momo Medidas Separatrizes - São medidas utilizadas quando se quer dividir uma distribuição de dados em n partes iguais, onde, dependendo do número de partes, poderá receber uma denominação especial, tais como, para n = 4, quartis, para n = 10, decis e n = 100, centis ou percentis. 13 Quartis: (Qi) São três medidas que dividem uma distribuição em quatro partes iguais. ( )3;2;1* =⇒−+= ih qf FEq qlQ ii iANTi iii Onde: liqi = limite inferior da classe onde se encontra o quartil; Eqi = Elemento quartil; fiqi = freqüência simples absoluta da classe onde se encontra o quartil; FiANT = Freqüência acumulada abaixo de até a classe anterior à classe onde se encontra o quartil; h = amplitude da classe. Obs.: Desta media em diante, o enfoque será sempre dado em relação a dados tabulados grupados em classes. Para calcular os quartis é necessário determinar o elemento quartil, valor ordenado que localiza em que classe encontra-se o quartíl que se está calculando. ( ) . ;3;2;1 4 * 0 ãodistribuiçdaelementosdenúmeroniniEqi ==⇒ = Exemplo de cálculo de quartis: Xi fi Fi Eqi Classe 150|--156 5 5 156|--162 4 9 162|--168 19 28 Eq1 = 19° q 1 168|--174 18 46 Eq2 = 38° q 2 174|--180 14 60 Eq3 = 57° q 3 180|--186 12 72 186|--192 4 76 Σ 76 - - - 71,1786* 14 4657174 33,1716* 18 2838168 16,1656* 19 919162 3 2 1 = − += = − += = − += Q Q Q Estes valores indicam que até 25% dos elementos da distribuição encontram- se até o valor 165,16. 50% encontram-se até o valor 171, 33. 75%, até o valor 178,71 e os 25% restantes, a partir do valor 178,71. 14 Decis: Os decis são nove valores que dividem uma distribuição em dez partes iguais. O princípio é o mesmo utilizado no cálculo dos quartis. Estes valores são simbolizados por (Di). ( )9;...;2;1 10 * * 0 = = − += iniEdh df FEdlidiD i ii iANTi i Centis ou percentis: São 99 valores que dividem uma distribuição em 100 partes iguais. Simboliza-se como (Ci). ( )99;...;2;1 100 *Ec * 0 i = = − += inih cf FEc clC ii iANTi iii Relações entre mediana, quartis, decis e centis ou percentis. A mediana é igual ao segundo quartil, ao quinto decil e ao qüinquagésimo centil ou percentil. .5052 CDQmd === A partir do cálculo dos quartis é possível plotar um gráfico chamado de box-plot (diagrama em caixas), que permite visualizar se os dados encontram-se concentrados ou dispersos em cada quantil, além de identificar os dados discrepantes conhecidos como outlier (valor extremo). Observar em seguida um exemplo de box-plot com presença de outlier. 222222N = X3X2X1 40 30 20 10 4 9 A determinação de um outlier ocorre a partir da identificação após cálculo de relações entre os quartis. Ao calcular o valor da diferença entre o terceiro e o primeiro quartis, chamado de (D), D = Q3 - Q1. Os outliers considerados suaves 15 são os valores que superam Q3 em 1,5 D a 3D, ou estão 1,5D a 3D abaixo de Q1. Os outliers extremos são escores que excedem Q1 em mais de 3D ou estão a mais de 3D abaixo de Q1. • = Outlier Suave. ° = Outlier extremo Determinação de outliers: D = Q3 – Q1 Suaves + − DQ DQ *5,1 *5,1 3 1 Extremos + − DQ DQ *3 *3 3 1 No caso da distribuição que serve de exemplo ilustrativo, em que Q1 = 165,16 e Q3 = 178,71, os outliers seriam identificados da seguinte forma: D = Q3 - Q1 = 13,55. Outliers suaves: Q3 + 1,5D = 199,035 a Q3 + 3D = 219,36. E, também, abaixo de Q1 em 1,5D = 144,835 a 3D = 124,51. Os outliers extremos estão mais de 3D abaixo de Q1 ou mais de 3D acima de Q3. Assim, serão outliers valores abaixo de 124,51 ou acima de 219,36. Numa análise, quando os outliers são identificados devem ser retirados para que não mascarem os cálculos das medidas obtidas a partir de cálculos, pois podem ser erros de anotação, digitação, observações obtidas de amostras a partir de leituras equivocadas de aparelhos, informações não fidedignas, etc. Medidas de dispersão: As medidas de dispersão permitem verificar a variabilidade dos dados e sua distribuição em torno de uma medida de tendência central como a média. Amplitude total: Consiste na diferença entre o maior e o menor valor observados. AT = XMÁX - XMÍN. AT = 191 - 150 = 41. Desvio médio: Trata-se de uma medida de dispersão onde, para evitar que a soma algébrica dos desvios tomados em relação à média seja nula, obtém-se os valores absolutos ou modulares destes desvios e divide-se a soma destes 16 valores pelo número de observações. Normalmente não é uma medida muito utilizada. ∑ ∑ = = − = n i i n i ii f fXX dm 1 1 Variância: Consiste no quociente entre a soma dos quadrados dos desvios, tomados em relação à média e o número de observações (N), quando é calculada para a população (σ2X) e no quociente entre a soma dos quadrados dos desvios, tomados em relação à média e o número de graus de liberdade (n - 1), quando é calculada para uma amostra (s2X). ( ) ( ) (amostra) 1 )(população 1 2 21 2 2 − − = − = ∑∑ == n fXX s N fXX n i ii X N i ii Xσ Da fórmula acima, chamada fórmula teórica, pode-se mostrar como chegar da fórmula de cálculo da variância, conforme demonstração a seguir: ( ) ( ) 1 1 2 1 2 ;constante) de (soma * 1 2 1 2 1 1 2 2 2 2 1 2 1 1 2 2 1 1 1 1 2 1 2 11 2 1 2 2 − − =⇒ ⇒ − + − ⇒ − + − ⇒ ⇒=== ⇒ − +− ⇒ − − = ∑ ∑ ∑∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑∑∑ = = == = = = = = = === n n X X n n X n n X X n n X nX n X X n X XCtenCte n XnXXX n XX n i in i i X n i i n i in i i n i in i i n i in i i n i i n i i n i i n i i X σ σ 17 Exemplo de aplicação do cálculo da variância Estaturas fi (PM) = Xi Xi2 Xi*fi Xi2*fi 150|--156 5 153 23.409 765 117.045 156|--162 4 159 25.281 636 101.124 162|--168 19 165 27.225 3.135 517.275 168|--174 18 171 29.241 3.078 526.338 174|--180 14 177 31.329 2.478 438.606 180|--186 12 183 33.489 2.196 401.868 186|--192 4 189 35.721 756 142.884 Σ 76 13.044 2.245.140 ( ) 0357895,85 176 76 044.13140.245.2 1 2 2 1 2 1 1 1 2 2 = − − =⇒ − − = ∑ ∑ ∑ ∑ = = = = Xn i i n i i n i iin i ii X s f f fX fX s Avaliação e demonstração da tendenciosidade da estimativa da variância. O que é correto, dividir por (n) ou (n - 1)? Dada uma população com as seguintes características: � �é��� � ���â ��� � �� � . Dela é retirada uma amostra: {X1,X2, ..., Xn}. Será que ��� � ∑������� � � é um estimador viesado para σ2? � �Σ(Xi - X ) 2 = � �Σ(Xi - µ + µ - X ) 2 = � �Σ{(Xi - µ) + ( X - µ) 2 } = ��Σ{(Xi - µ) 2 - 2(Xi - µ)( X - µ) + ( X - µ)2 } = �� [Σ(Xi - µ) 2 - 2Σ(Xi - µ)( X - µ) + Σ( X - µ)2]. Como: Σ Constante = n* Constante, então: Σ(Xi - µ) = ΣXi - n µ . Como: n X X i∑= ⇒ ΣXi = n X . Devemos lembrar, ainda, que: -2 Σ(Xi - µ)*( X - µ) ∴ -2(n*Xi – n*µ)*( n* X - n*µ) ∴ -2n( X – µ)* ( X – µ) ∴ -2n( X – µ)2. � � E[Σ(Xi - µ) 2 – 2n( X - µ)2 + n( X - µ)2] ∴ �� E[Σ(Xi - µ) 2 – n( X - µ)2] ∴ 18 � � [Σ[E(Xi - µ) 2] – nE( X - µ)2] ∴ �� [ΣV(Xi) – n ���� � ] ∴ � � [nV(Xi) – V(Xi)] ∴ ��������� � É um estimador viesado para σ 2 . Para neutralizar o viés, deve-se fazer: ������ * � ����� * ���� ⇒ ���� ⇔ σ2. Então: ��� � ∑�������� ��� . Este valor, n – 1, é denominado Graus de Liberdade. Assim, demonstra-se que ( ) 1 2 2 − − = ∑ n XX s i X é um estimador não tendencioso de 2Xσ . Conceito teórico de Graus de Liberdade (g.l.): Os g.l. correspondem ao número total de observações menos o número de restrições impostas na análise dos dados. Por exemplo, na análise de observações, o número de g.l. associados ao desvio padrão é n - 1 quando se impõe a restrição de que a soma dos desvios em relação à média é nula. Sejam as observações 4, 5, 6, 7 e 8, com média 6 e desvios -2, -1, 0, 1, 2. A soma dos desvios é nula e o número de graus de liberdade é 4, porque tomadas quatro observações, a última é fixa para que a soma dos desvios seja nula. De um modo geral, o número de graus de liberdade corresponde ao número de observações menos o número de parâmetros fixados, isto é, cada parâmetro adiciona uma restrição. Assim, a variância é calculada quando se fixa a média das observações e, portanto os graus de liberdade são n - 1. Há casos em que o número de g.l. é diferente de n - 1, como no estudo da regressão, em que são fixados a média e o coeficiente de regressão linear antes do cálculo dos desvios da regressão com n - 2 graus de liberdade. Desvio Padrão: Consiste na raiz quadrada da variância, possibilitando comparar a dispersão de um conjunto de dados com a medida de tendência central, como no caso da média, com a mesma unidade. Assim como a variância, pode ser calculado para a população (σX) ou para a amostra (sX). (amostra) )(População 22 XXXX ss == σσ Para o exemplo ilustrativo que estamos acompanhando, o cálculo do desvio padrão será: 221485,90357895,85 ==Xσ . Tão importante quanto a variância e o desvio padrão são suas propriedades, fundamentais para o estudo da Estatística. As propriedades serão apenas citadas, devido ao enfoque rápido do curso. Propriedades do desvio padrão e da variância 19 1) O desvio-padrão é maior que o desvio médio; 2) somando-se ou subtraindo-se uma constante qualquer a cada elemento de um conjunto de dados, o desvio padrão não se altera. (a mesma propriedade serve para a variância); 3) Se multiplicarmos ou dividirmos uma constante qualquer a cada elemento de um conjunto de dados, o desvio padrão ficará multiplicado ou dividido por esta constante. (no caso da variância, fica multiplicado ou dividido pelo quadrado da constante); 4) quando os dados estiverem agrupados em classe, a soma dos produtos das freqüências pelos quadrados dos desvios, em relação à média aritmética, é menor que a soma dos produtos das freqüências pelo quadrado dos desvios em relação a outro valor qualquer; 5) 68% dos elementos entre os valores, média mais ou menos o desvio padrão, isto quando tratarmos de uma distribuição normal, e 95% dos elementos estará entre a média mais ou menos duas vezes o desvio padrão. Houve um aumento de 5% nos valores. De quanto foi o aumento da variância? Resposta: 5% = 5/100) = 0,05% + 100% = (100/100) = 1 ⇔ (ao que já existia antes do aumento) ⇒ montante = 1+0,05 = 1,05. Como a variância utiliza a unidade elevada ao quadrado ⇒ (1,05)2 = 1,1025. Como se deseja obter o aumento, não o montante ⇒ 1,1024 – 1 = 0,1025 ⇔10,25%. Este foi o aumento percentual da variância. Houve um aumento de 10% Na variância. De quanto foi o aumento nos valores da distribuição? Resposta: 10% = 10/100 = 0,1 +100% = (100/100) = 1 ⇔ (ao que já existia antes do aumento) ⇒ montante = 1+0,1 = 1,1. Como os valores estão numa unidade simples, ao contrário da variância, cujos valores são elevados ao quadrado ⇒ 1,1 = 1,0488. Como se deseja obter o aumento, não o montante ⇒ 1,0488 – 1 – 0,0488 = 4,88%. Este foi o aumento percentual dos valores. Coeficiente de Variação (CV): Consiste numa medida de dispersão relativa. É importante também saber quanto os dados variaram em relação à média, por exemplo. Neste caso, faz-se uma relação entre o valor da média e do desvio padrão, tomando a média como base, a saber. X _____________ 100% σX _____________ C.V.% ( )percentual em dado 100*.. ⇒= X VC Xσ No exemplo ilustrativo, o cálculo do coeficiente de variação é: 20 %.37,5..100* 63,171 221485,9 .. =⇒= VCVC Uma observação relevante deve ser feita, já que o coeficiente de variação permite comparações entre vários conjuntos de dados, por ser adimensional, mostrando em qual percentual do valor da média a variabilidade dos dados consistiu. Classificação de uma distribuição quanto à simetria Conforme a distribuição apresente relação entre as medidas de posição {média (µ), mediana (md) e moda (mo)}, ela poderá ser simétrica ou assimétrica. A classificação é a seguinte: 1 – Simétrica, pois µ = md = mo; 2 – Assimétrica à direita ou assimétrica positiva, pois mo < md < µ; 3 – Assimétrica à esquerda ou assimétrica negativa, pois µ < md < mo. Quanto ao achatamento ou curtose, as distribuições podem ser classificadas em: 1 – Platicúrtica; 2 – Mesocúrtica; 3 – Leptocúrtica. 21 Outra medida importante é o erro padrão da média, que será comentada em capítulos subseqüentes, mas que já poderá ser conhecida a partir deste momento. Erro padrão da média, a partir do desvio padrão populacional, sem fator de correção: n X X σ σ = Erro padrão da média, a partir do desvio padrão populacional, com fator de correção: 1 * − − = N nN n X X σ σ Erro padrão da média, a partir do desvio padrão amostral, sem fator de correção: n s s XX = Erro padrão da média, a partir do desvio padrão amostral, com fator de correção: 1 * − − = N nN n s s XX Erro padrão da proporção, a partir da estimativa da proporção, sem fator de correção: n qp sX ˆˆ = Erro padrão da proporção, a partir da estimativa da proporção, com fator de correção: 1 * ˆˆ − − = N nN n qp sX 22 Padronização de dados Muitas técnicas estatísticas necessitam que os dados estejam padronizados para que sejam aplicadas, pois eliminam o efeito de escala. Existem alguns tipos de padronização, mas um dos mais utilizados é o que subtrai cada valor individual da média e, em seguida, divide-se o resultado pelo desvio padrão, a saber: X i DOiPADRONIZA s XX x − = Neste caso, obtém-se um conjunto de dados em que a média é zero e a variância é igual a um. Dado o conjunto de dados 134 160 156 168 176 178 162 181 172 168 146 156 169 178 162 160 163 168 162 172 148 167 170 153 171 166 188 156 160 182 153 163 180 175 175 176 176 182 158 161 160 143 172 167 170 179 179 170150 175 152 151 162 173 180 174 197 187 188 174 170 150 163 174 161 167 192 179 178 150 Em que a média e a variância são: = = = 2611,12 3346,150 6857,167 2 X X S S X Graficamente a representação deste conjunto de dados seria da forma abaixo: Com a padronização dos dados, e a conseqüente retirada do efeito de escala, teríamos: 0 50 100 150 200 250 1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 23 -2,7474 -0,6268 -0,9531 0,0256 0,6781 0,8412 -0,4637 1,0859 0,3519 0,0256 -1,7687 -0,9531 0,1072 0,8412 -0,4637 -0,6268 -0,3822 0,0256 -0,4637 0,3519 -1,6055 -0,0559 0,1888 -1,1977 0,2703 -0,1375 1,6568 -0,9531 -0,6268 1,1675 -1,1977 -0,3822 1,0043 0,5965 0,5965 0,6781 0,6781 1,1675 -0,7900 -0,5453 -0,6268 -2,0133 0,3519 -0,0559 0,1888 0,9228 0,9228 0,1888 -1,4424 0,5965 -1,2793 -1,3609 -0,4637 0,4334 1,0043 0,5150 2,3908 1,5752 1,6568 0,5150 0,1888 -1,4424 -0,3822 0,5150 -0,5453 -0,0559 1,9830 0,9228 0,8412 -1,4424 Em que a média e a variância são: = = = 1 1 0 2 X X S S X Graficamente, ficaria distribuído conforme segue: -4,0000 -3,0000 -2,0000 -1,0000 0,0000 1,0000 2,0000 3,0000 1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70
Compartilhar