Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística Descritiva Rosani Brune de Almeida Dias Diretoria Interdisciplinar de Tecnologias na Educação - DINTE INTRODUÇÃO ❑ Geralmente a quantidade de informação é grande, assim fica difícil captar, intuitivamente, as informações que os dados contêm; ❑ É necessário reduzir as informações até o ponto em que se possa interpretá-las mais claramente. ❑ Coleta de dados; ❑ Organização e classificação destes dados; ❑ Apresentação através de gráficos e tabelas; ❑ Cálculo de coeficientes (estatísticos), que permitem descrever resumidamente os fenômenos. Papel da Estatística Descritiva ❑ Consiste em obter e generalizar conclusões; ou seja, inferir propriedades para o todo com base na parte, no particular. ❑ É tratada através de técnicas e métodos que se fundamentam na Teoria de Probabilidades. ❑ Em estatística utilizaremos extensivamente os termos população e amostra. Inferência Estatística Fases do Trabalho Estatístico População Amostra Inferência Estatística Estatística Descritiva População e Amostra População Amostra Inferência Estatística: • Estimação de quantidades desconhecidas • Extrapolação dos resultados • Teste de hipóteses Classificação das Variáveis Classificação das Variáveis Continua – assume valores em um intervalo do conjunto dos Reais. Resulta normalmente de mensurações. Ex: altura, peso, temperatura, etc. Discreta - Pertencem ao conjunto finito ou enumerável. Resulta de um processo de contagem. Ex: Número de alunos, numero de filhos, etc. Variáveis Quantitativas Classificação das Variáveis Ordinal - os valores representam atributos ou qualidades mas incluem uma relações de ordem. Ex: classe social, grau de instrução, etc. Nominal - os valores representam atributos ou qualidades mas não tem uma relação de ordem entre eles. Ex: sexo, grupo sanguíneo, raça, etc. Variáveis Qualitativas Tipos de Séries Estatística Série estatística é uma sucessão de dados estatísticos que medem a intensidade do fenômeno, segundo suas características qualitativas ou quantitativas. Tipos de Séries Estatística ❑ Série Histórica, cronológica ou temporal: dia, mês, ano. Tipos de Séries Estatística ❑ Série Geográfica ou territorial: estados, municípios, cidades. Tipos de Séries Estatística ❑ Série Específica ou qualitativa: fato, espécie. Tipos de Séries Estatística ❑ Série Mista: Mistura duas ou os três tipos de séries. Tipos de Séries Estatística ❑ Série Mista: Mistura duas ou os três tipos de séries. Apresentação de Dados ❑ Após a apuração dos dados, há necessidade de os dados e os resultados obtidos a partir daqueles serem dispostos de uma forma ordenada e resumida, a fim de auxiliar o pesquisador na análise e facilitar a compreensão das conclusões apresentadas ao leitor. ❑ A tabela geralmente é utilizada para organizar esses dados, além da tabela podemos utilizar outra forma de apresentação, os gráficos. Tabela ❑ Uma tabela é elaborada obedecendo à Resolução nº 886, de 26 de outubro de 1966, do Conselho Nacional de Estatística. ❑ Os elementos de uma tabela são: ❑ Fonte ❑ Notas ❑ Chamadas ❑ Título ❑ Corpo da tabela ❑ Cabeçalho ❑ Coluna Indicadora Essenciais Complementares Tabela Tabela ❑ Algumas observações: 1. Nenhuma casa da tabela deve ficar me branco 2. As tabelas devem ser fechadas no alto e embaixo por linhas horizontais, não sendo fechadas à direito ou à esquerda por linhas verticais. É facultativo o emprego de traços verticais para a separação de colunas do corpo da tabela 3. Em publicações com muitas tabelas, estas devem ser numeradas 4. Os totais e subtotais devem ser descartados 5. Deverá ser mantida a uniformidade da unidade decimal. Tabela ❑ Como montar uma tabela: ❑ Exemplo: Votos do sociograma ❑ Dados Brutos 0, 2 ,3, 7, 0, 2, 1, 3, 3, 2, 5, 6, 3, 2, 2, 0, 3, 1, 4, 3, 7, 6, 2, 1, 2 ,3 ,2, 4, 3, 5, 6 ❑ Ordenando (ROL) 0, 0, 0, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 5, 5, 6, 6, 6, 7, 7 Tabela Tabela Gráficos ❑ Os mesmos elementos essenciais e complementares utilizados na tabela devem ser usados para os gráficos. ❑Veremos alguns tipos de gráficos: ❑ Linha ❑ Barras ❑ Colunas ❑ Colunas agrupadas ❑ Setores (pizza) ❑ Histograma ❑ Pictogramas Gráfico de Linha Gráfico de Linha Gráfico de Barras Gráfico de Coluna Gráfico de Barras e Colunas Agrupadas Gráfico de Colunas Sobrepostas Gráfico de Pizza Histograma Gráfico Pictorial - Pictograma Pictograma Pictograma Pictograma Pictograma Mês de aniversário de meninos e meninas do curso Tabela ❑ Como montar uma tabela: ❑ Exemplo: Votos do sociograma ❑ Dados Brutos 0, 2 ,3, 7, 0, 2, 1, 3, 3, 2, 5, 6, 3, 2, 2, 0, 3, 1, 4, 3, 7, 6, 2, 1, 2 ,3 ,2, 4, 3, 5, 6 ❑ Ordenando (ROL) 0, 0, 0, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 5, 5, 6, 6, 6, 7, 7 Frequência ❑ Frequência Absoluta Simples (fi): é o número de vezes em que um elemento se repete na amostra. i Classe fi 1 Ruim 12 2 Médio 27 3 Bom 15 4 Ótimo 6 Total 60 Frequência ❑ Frequência Relativa (fri): expressa a proporção de elementos na classe i, ou seja fri = fi/n sendo n o total de elementos da amostra. fr1 = f1/n = 12/60 = 0,20 i Classe fi fri 1 Ruim 12 0,20 2 Médio 27 0,45 3 Bom 15 0,25 4 Ótimo 6 0,10 Total 60 1 Frequência ❑ Frequência Absoluta Acumulada (fai): é o número de elementos acumulados até a classe i i Classe fi fri fai 1 Ruim 12 0,20 12 2 Médio 27 0,45 39 3 Bom 15 0,25 54 4 Ótimo 6 0,10 60 Total 60 1 Frequência ❑ Frequência Relativa Acumulada (frai): é o número de elementos acumulados da frequência relativa até a classe i Classe fi fri fai frai Ruim 12 0,20 12 0,20 Médio 27 0,45 39 0,65 Bom 15 0,25 54 0,90 Ótimo 6 0,10 60 1,00 Total 60 1 Tabela com Intervalo de Classe 1. Por que utilizar o intervalo de classe? 2. Quando a tabela é muito grande e com poucas frequências, devemos utilizar o intervalo de classe. Exemplo: considere o seguinte rol sobre o total de pontos (acertos) obtidos em um teste de 175 questões por 40 alunos Se colocarmos em uma tabela sem intervalo de classe teríamos: 150 154 155 157 160 161 162 164 166 169 151 155 156 158 160 161 162 164 167 170 152 155 156 158 160 161 163 164 168 172 153 155 156 160 160 161 163 165 168 173 Tabela com Intervalo de Classe A apresentação ideal seria assim Pontos Freqüência 150 1 151 1 152 1 153 1 154 1 155 4 156 3 157 1 158 2 160 5 161 4 162 2 163 2 164 3 165 1 166 1 167 1 168 2 169 1 170 1 172 1 173 1 total 40 Total de pontos (acertos) obtidos em um teste de 175 questões por 40 alunos Total de pontos Freqüência 150 |- 154 4 154 |- 158 9 158 |- 162 11 162 |- 166 8 166 |- 170 5 170 |- 174 3 Total 40 Tabela com Intervalo de Classe 1. Ordenar os dados, ou seja, colocar os dados brutos em rol 2. Determinar o número de classes (k) da tabela. 3. Classes de frequência: são os intervalos de variação da variável, representados por i, sendo i = 1,2,3,4,...,k, onde k é o número total de classes. ❑ De modo geral, este valor não deverá ser inferior a 5 e nem superior a 15. ❑ Existem dois métodos: ❑ k = 1 + 3,32 x log n (Fórmula de Sturgues) ❑ Tabela com Intervalo de Classe 1. Voltando ao exemplo teremos: Exemplo: considere o seguinte rol sobre o total de pontos (acertos) obtidos em um teste de 175 questões por 40 alunos De acordo com os dois métodos, teríamos: ❑ k = 1 + 3,32 x log n ❑ k = 1 + 3,32 x log 40 = 6,318 e ❑ Ou seja k = 6 classes Tabela com Intervalo de Classe 2. Determinar a amplitude do intervalo h ❑ No próximo passo teremos que determinar a amplitude total (At) ❑ At = Ls – Li onde Ls é o maior valor da amostra e Li o menor valor da amostra ❑ Com a amplitude total podemos calcular a amplitude do intervalo (h) ❑ h = At/k Tabela com Intervalo de Classe Do exemplo teremos que: Ls será igual a 173 e Li será igual a 150 Assim a amplitude total (At), será: ❑ At = Ls – Li ❑ At= Ls – Li = 173 – 150 = 23 ❑ Com a amplitude total podemos calcular a amplitude do intervalo (h) ❑ h = At/k = 23/6 = 3,83; ou seja; aproximadamente 4 150 154 155 157 160 161 162 164 166 169 151 155 156 158 160 161 162 164 167 170 152 155 156 158 160 161 163 164 168 172 153 155 156 160 160 161 163 165 168 173 Tabela com Intervalo de Classe 4. Construindo a tabela de intervalos de classe: ❑ O limite inferior da classe da primeira classe será sempre o menor valor do conjunto de dados. ❑ O limite superior da classe será o limite inferior acrescido do valor da amplitude do intervalo de classe (h) ❑ A Simbologia para construção da tabela ❑ Limites da classe: são os extremos de cada classe. Limite superior ls Limite inferior li O símbolo li |- ls significa inclusão de li e exclusão de Li Tabela com Intervalo de Classe 4. Construindo a tabela de intervalos de classe: ❑ Do exemplo, teremos: ❑ O limite superior da classe será o limite inferior acrescido do valor da amplitude do intervalo de classe (h) ❑ li = 150 e ls = 150 + 4 = 154 ❑ Assim a primeira classe seria: ❑ h1 = 150 l- 154 ❑ Assim essa classe vai incluir todas as frequências de 150 a 153, o 154 entra na próxima classe. Exemplo Primeiramente vamos determinar o número de classes (k) Como o número de classes deve ser interiro, vamos considerar k = 7 Exemplo Com k = 7, vamos determinar o tamanho do intervalo da classe (h) At = 39 – 16 = 23 Assim h será h = 23/7 = 3,2857 Exemplo Exemplo i Classe fi fri fai frai 1 16,0 |- 19,3 7 0,12 7 0,12 2 19,3 |- 22,6 9 0,15 16 0,27 3 22,6 |- 25,9 15 0,25 31 0,52 4 25,9 |- 29,2 12 0,20 43 0,72 5 29,2 |- 32,5 9 0,15 52 0,87 6 32,5 |- 35,8 6 0,10 58 0,97 7 38,8 |- 39,1 2 0,03 60 1,00 Total 60 1 MEDIDAS DE POSIÇÃO • Representam a tendência de concentração dos dados • Devemos estar atentos ao comportamento dos dados para saber qual a medida mais adequada • As três medidas de tendência central mais utilizadas são: média aritmética, moda e mediana. MÉDIA ARITMÉTICA • A média aritmética é a medida mais utilizada para descrever um conjunto de dados • É obtida somando todos os valores e dividindo o valor encontrado pelo número de dados de um conjunto • Pode ser simples, onde todos os valores possuem a mesma importância, ou ponderada, quando considera pesos diferentes aos dados MÉDIA ARITMÉTICA • Fórmula média aritmética simples (dados não agrupados) ҧ𝑥 = σ𝑖=1 𝑛 𝑥𝑖 𝑛 ҧ𝑥 = 𝑥1 + 𝑥2 +⋯+ 𝑥𝑛 𝑛 • Sendo n o tamanho da amostra • Fórmula média aritmética ponderada (agrupados em tabela com e sem intervalo de classes) ҧ𝑥 = σ𝑖=1 𝑛 𝑥𝑖 . 𝑝𝑖 σ𝑖=1 𝑛 𝑝𝑖 ҧ𝑥 = 𝑥1. 𝑝1 + 𝑥2. 𝑝2 +⋯+ 𝑥𝑛.𝑝𝑛 𝑝1 + 𝑝2 +⋯+ 𝑝𝑛 • Sendo que 𝑝1 + 𝑝2 +⋯+ 𝑝𝑛 é igual a n EXEMPLO MÉDIA ARITMÉTICA SIMPLES • Temos uma amostra de 10 crianças de 5 anos de idade, com dados referentes a seus pesos (em kg): 23,0; 20,0; 22,0; 19,0; 25,0; 28,2; 24,0; 21,0; 27,0; 21,0 • Temos que n = 10, sendo assim ҧ𝑥 = 23,0 + 20,0 + 22,0 + 19,0 + 25,0 + 28,2 + 24,0 + 21,0 + 27,0 + 21,0 10 ҧ𝑥 = 230 10 = 23,0 EXEMPLO MÉDIA ARITMÉTICA SIMPLES • Lembrando que a amostra se trata de pesos (em kg) de 10 crianças de 5 anos de idade • Sendo assim o valor encontrado de 23,0 é interpretado como a média de peso dessas crianças, ou seja, o peso médio dessas crianças é de 23,0 kg • Quando estamos calculando o valor da média temos sempre que ter em foco a variável de estudo, pois o resultado deve ser interpretado • As média é calculada para variáveis quantitativas EXEMPLO MÉDIA ARITMÉTICA PONDERADA • Considere o número de cáries em crianças de 7 anos, apresentada na tabela abaixo: • Nesse exemplo os valores de x são a da variável (número de dentes careados) e os pesos será o número de crianças, sendo assim calcularemos da seguinte maneira: EXEMPLO MÉDIA ARITMÉTICA PONDERADA • Considere o número de cáries em crianças de 7 anos, apresentada na tabela abaixo: ҧ𝑥 = 0.3+1.2+2.4+3.2+4.1+5.1 13 ഥ𝑥 = 25 13 = 1,923 ≈ 2 • Assim a média de cárie de crianças de 7 anos dessa amostra é de 2 cáries EXEMPLO MÉDIA ARITMÉTICA PONDERADA • Esse exemplo considera a tabela com intervalo de classes, sendo assim teremos que calcular o ponto médio da classe antes. • Considere o número de pessoas com HIV, segundo a faixa etária • Lembrando que para calcular o ponto médio será a soma dos limites dividido por 2, ou seja, o ponto médio da primeira linha será (15+25)/2 que será 20 EXEMPLO MÉDIA ARITMÉTICA PONDERADA • Considere o número de pessoas com HIV, segundo a faixa etária • O cálculo da média será dada da seguinte maneira: ҧ𝑥 = 20.25+30.30+15.40+10.50 80 ҧ𝑥 = 2500 80 = 31,25 ≈ 31 • Assim a idade média de pessoas com HIV dessa amostra é de 31 anos MEDIANA • É definida como o valor que divide uma série ordenada de tal forma que pelo menos a metade dos itens sejam iguais ou maiores do que ela, e que a outra metade dos itens sejam menores do que ela. • Colocados em ordem crescente, a mediana é o elemento que ocupa a posição central. • Como a mediana divide os dados ordenados ao meio, ela não é sensível a valores discrepantes. • A depender de como estejam os dados, deve-se diferenciar a forma como encontra-se a mediana. MEDIANA • Para determinar dados não-tabulados devemos ter os seguintes passos: 1. Devemos ordenar os dados brutos, ou seja, determinar o rol dos dados. 2. Observar se o tamanho da amostra (n) é ímpar ou par. 3. Após determinar se é par ou ímpar devemos determinar a ordem em que se encontra a mediana na série, através do elemento mediano (Emd) 4. O passo seguinte será localizar a mediana na lista de valores, de acordo com o resultado obtido no cálculo do Emd MEDIANA NÚMERO ÍMPAR 1. Ordenar os dados 2. Determinar o Emd, através do cálculo: 𝐸𝑚𝑑 = 𝑛 + 1 2 • O passo seguinte será localizar a mediana na lista de valores, de acordo com o resultado obtido no cálculo do Emd • Nesse caso teremos um único valor representando a mediana EXEMPLO MEDIANA NÚMERO ÍMPAR Um programa de televisão registrou as medidas de audiência alcançadas ao longo de uma semana. 1. Definir o n, no caso desse exemplo n = 7 2. Ordenar 12 15 17 18 19 20 21 Dias Segunda-feira Terça-feira Quarta-feira Quinta-feira Sexta-feira Sábado Domingo Audiência 19 pontos 18 pontos 12 pontos 20 pontos 17 pontos 21 pontos 15 pontos EXEMPLO MEDIANA NÚMERO ÍMPAR Audiência registrada pela emissora 12 15 17 18 19 20 21 Após ordenar devemos localizar a media através do cálculo:𝐸𝑚𝑑 = 𝑛+1 2 𝐸𝑚𝑑 = 7 + 1 2 = 8 2 = 4 • Ou seja a mediana está localizada na posição de número 4 12 15 17 18 19 20 21 Sendo assim a mediana é 18. Conclusão: A mediana é de 18 pontos MEDIANA NÚMERO PAR 1. Ordenar os dados 2. Determinar o Emd, através dos cálculos: 𝐸𝑚𝑑 = 𝑛 2 e 𝐸𝑚𝑑 = 𝑛 2 +1 • O passo seguinte será localizar a mediana na lista de valores, de acordo com o resultado obtido no cálculo dos Emd • Nesse caso teremos dois valores representando a mediana • Sendo assim para determinar a mediana para número par, teremos que fazer a média dos dois valores centrais. EXEMPLO MEDIANA NÚMERO PAR João vende picolés em sua casa. Ele registrou a quantidade de picolés vendida em dez dias apresentada a seguir: 15 10 12 20 14 13 18 14 15 19 1. Definir o n, no caso desse exemplo n = 10 2. Ordenar 10 12 13 14 14 15 15 18 19 20 EXEMPLO MEDIANA NÚMERO PAR Quantidade de picolés vendida em dez dias 10 12 13 14 14 15 15 18 19 20 20 Após ordenar devemos localizar a media através do cálculo dos Emds 𝐸𝑚𝑑 = 10 2 = 5 e 𝐸𝑚𝑑 = 10 2 + 1 = 5 + 1 = 6 • Ou seja a mediana está localizada nas posições de 5 e 6 10 12 13 14 14 15 15 18 19 20 Sendo assim a mediana dada pela média (14+15)/2=14,5 Conclusão: A mediana é de 14,5 picolés MEDIANA • Determinação da Mediana de Valores tabulados • Os dados geralmente já estão ordenados na tabela então o processo para os dados agrupados em tabelas sem intervalo de classe será o mesmo para dadosnão agrupados em tabelas • Será utilizada a medida de frequência acumulada para ajudar na localização da mediana na tabela EXEMPLO MEDIANA TABELA SEM INTERVALO DE CLASSE • Considere o número de cáries em crianças de 7 anos, apresentada na tabela abaixo: • Como n = 13, devemos localizar a media através do cálculo:𝐸𝑚𝑑 = 𝑛+1 2 𝐸𝑚𝑑 = 13 + 1 2 = 14 2 = 7 A mediana está na 7ª posição EXEMPLO MEDIANA TABELA SEM INTERVALO DE CLASSE • Para localizar na 7ª posição na tabela devemos considerar a frequência acumulada • Considerando a tabela acima temos que a 7ª posição está na 3ª Classe • Sendo assim a mediana é de 2 cáries Na primeira classe estão as 3 primeiras posição, na segunda as 5 primeiras e na terceira classe se encontram da 5ª à 9ª posição, assim a 7ª posição está na 3ª classe MEDIANA PARA INTERVALO DE CLASSE • Determinação da Mediana de Valores tabulados com intervalo de classe • Neste caso, encontramos o elemento mediano através da fórmula 𝐸𝑚𝑑 = 𝑛 2 • não se fazendo distinção entre número par ou ímpar de observações MEDIANA PARA INTERVALO DE CLASSE • A partir daí, determinaremos a classe mediana, através da seguinte expressão: 𝑀𝑑 = 𝑙 + 𝐸𝑚𝑑 − 𝐹𝑎𝑛𝑡 𝑓𝑚𝑑 . ℎ EXEMPLO MEDIANA PARA INTERVALO DE CLASSE • Considere o número de pessoas com HIV, segundo a faixa etária • Primeiro encontrar o elemento mediano 𝐸𝑚𝑑 = 80 2 = 40, com o elemento mediano vamos localizar na tabela a classe da mediana • A localização é feita da mesma forma em que é realizada na tabela sem intervalo de classe, sendo assim a 40ª posição se encontra na segunda classe EXEMPLO MEDIANA PARA INTERVALO DE CLASSE • Assim temos que os elementos da fórmula serão: • 𝐸𝑚𝑑 = 80 2 = 40 • l = 25 • h = 10 • Fant = 25 Assim a mediana dos dados é de 30 anos. • fmd = 30 𝑀𝑑 = 𝑙 + 𝐸𝑚𝑑−𝐹𝑎𝑛𝑡 𝑓𝑚𝑑 . ℎ = 𝑀𝑑 = 25 + 40−25 30 . 10 = 30 MODA • A moda é outra medida de tendência central, sendo, no entanto a menos importante. Sua vantagem é que pode ser usada para variáveis qualitativas. Genericamente, pode-se definir a moda como o valor mais frequente da distribuição. MODA • Considerando um conjunto ordenado de valores, a moda será o valor predominante, o valor mais frequente desse conjunto. • A Moda é determinada da mesma maneira para dados não agrupados em tabelas e para dados agrupados em tabelas sem intervalo de classe. • Nem sempre a moda existe (distribuição amodal) e nem sempre é única. • Se apresentar apenas uma moda diremos que é unimodal; • se possuir duas modas diremos que é bimodal; • se tiver várias modas (mais que duas) diremos que é multimodal. EXEMPLO MODA • A Moda é determinada da mesma maneira para dados não agrupados em tabelas e para dados agrupados em tabelas sem intervalo de classe, assim o exemplo pode ser interpretado para as duas formas de apresentação Considere a temperatura de uma localidade registrada na tabela abaixo Como a moda leva em consideração a maior frequência, temos que a moda desses dados é de 2⁰ C MODA PARA INTERVALO DE CLASSE • Determinação da Moda de Valores tabulados com intervalo de classe • Para dados agrupados em tabelas com intervalo de classe, calcularemos através da seguinte expressão: Onde • l = limite inferior da classe modal • fmo = frequência simples da classe modal • fant = frequência simples da classe anterior à da classe modal • fpost = frequência simples da classe posterior à da classe modal • h = amplitude da classe modal h . )f (f- 2f f - f l Mo postanmo antmo + += EXEMPLO MODA PARA INTERVALO DE CLASSE • Como a moda é determina pela expressão apresentada no slide anterior, temos que determinar primeiro a classe da moda, que considera a maior frequência • Assim temos que os elementos da fórmula serão: • l = 58 • fmo = 11 • fant = 9 • fpost = 8 Sendo assim a moda é de 59,6 cm • h = 4 h . )f (f- 2f f - f l Mo postanmo antmo + += 59,6 4 . 8) (9- 2.11 9 - 11 58 = + += MEDIDAS DE DISPERSÃO • As medidas de posição apresentadas fornecem a informação dos dados apenas a nível pontual, sem ilustrar outros aspectos referentes à forma como os dados estão distribuídos na amostra. • As medidas de dispersão são utilizadas para avaliar o grau de variabilidade, ou dispersão, dos valores em torno da média. EXEMPLO DE MEDIDAS DE DISPERSÃO • Considerando três turmas de Cálculo das Probabilidades • Observações importantes i) As três turmas possuem a mesma média ii) As notas estão distribuídas sob diferentes formas iii) A média resume o conjunto de dados apenas posição central iv) A média não fornece informações sobre a variabilidade dos dados Solução: Apresentar junto da média uma medida que sumarize a variabilidade do conjunto de dados MEDIDAS DE DISPERSÃO • Visam descrever os dados no sentido de informar o grau de dispersão ou afastamento dos valores observados em torno de um valor central (média). • Elas indicam se um conjunto é homogêneo (pouca ou nenhuma variabilidade) ou heterogêneo (muita variabilidade). • A descrição do conjunto de dados é mais completa quando se considera além de uma medida de tendência central, uma medida de dispersão ou variação. VARIÂNCIA • Visam descrever os dados no sentido de informar o grau de dispersão ou afastamento dos valores observados em torno de um valor central (média). • Simbologia: σ² = população S² = amostra VARIÂNCIA • Fórmula da variância para dados não agrupados 𝑠2 = σ𝑖=1 𝑛 (𝑥𝑖 − ҧ𝑥) 2 𝑛 − 1 EXEMPLO DE VARIÂNCIA • dados não agrupados Considere o conjunto de dados A = 10, 12, 13, 20, 25, 34, 45 • A média dos dados é de 22,71 • Para saber a variância teremos que saber os desvios 𝑑𝑖 dosdados em relação a média, ou seja, 𝑥𝑖 − ҧ𝑥. 𝑑1 = 10 − 22,71 = -12,714 𝑑2 = 12 − 22,71 = -10,714 𝑑3 = 13 − 22,71 = -9,714 𝑑4 = 20 − 22,71 = -2,714 𝑑5 = 25 − 22,71 = 2,286 𝑑6 = 34 − 22,71 = 11,286 𝑑7 = 45 − 22,71 = 22,286 Se realizarmos a soma dos 𝑑𝑖𝑠 temos que essa some será sempre zero, por isso devemos elevar ao quadrado, ou seja, (𝑥𝑖 − ҧ𝑥) 2 (𝑑1) 2= (−12,714)2= 161,643 (𝑑2) 2= (−10,714)2= 114,790 (𝑑3) 2= (−9,714)2= 94,362 (𝑑4) 2= (−2,714)2= 7,366 (𝑑5) 2= (2,286)2= 5,226 (𝑑6) 2= (11,286)2= 127,374 (𝑑7) 2= (22,286)2= 496,666 Somando esses valores teremos, σ𝑖=1 𝑛 (𝑥𝑖 − ҧ𝑥) 2= 1.007,43 Assim, 𝑠2 = σ𝑖=1 𝑛 (𝑥𝑖 − ҧ𝑥) 2 𝑛 = 1.007,43 6 = 167,905 EXEMPLO DE VARIÂNCIA • Outra maneira de calcular a variância para o conjunto de dados A = 10, 12, 13, 20, 25, 34 e 45, seria aplicando direto na fórmula, considerando a média de 22,71 𝑠2 = σ𝑖=1 𝑛 (𝑥𝑖− ҧ𝑥) 2 𝑛−1 = (10−22,71)2+(12−22,71)2+(13−22,71)2+(20−22,71)2+(25−22,71)2+(34−22,71)2+(45−22,71)2 6 = 1.007,43 6 = 167,905 Lembrando que todas as vezes que calculamos a variância elevamos os valores ao quadrado, sendo assim, a medida de variação não estará na mesma unidade em estudo, por isso, o desvio padrão é mais utilizado para uma interpretação direta. VARIÂNCIA • Fórmula da variância para dados agrupados 𝑠2 = σ𝑖=1 𝑛 (𝑥𝑖 − ҧ𝑥) 2𝑓𝑖 𝑛 − 1 EXEMPLO DE VARIÂNCIA • Dados agrupados em tabelas • A variância é calculada da mesma maneira para tabelas com e sem intervalo de classes Considere o consumo de energia elétrica em Kwh apresentado na tabela Com os valores de xi estabelecidos podemos calcular a variância, direto na aplicação da fórmula • Primeiro temos que determinar os valores de xi , para isso temos que calcular a média das classes, ou seja, o valor de x da primeira classe será: (5+25)/2 =15 EXEMPLO DE VARIÂNCIA Considere a fórmula da variância, teremos: (A média é de 79,5) Assim, o cálculo da variância será dada por: Outra maneira de calcular é: 𝑠2 = σ𝑖=1 𝑛 (𝑥𝑖 − ҧ𝑥) 2𝑓𝑖 𝑛 − 1 = 80.780 79 = 1.022,53 𝑠2 = 15 − 79,5 2. 4 + 35 − 79,5 2. 6 + 55 − 79,5 2. 14 + 75 − 79,5 2. 26 + 95 − 79,5 2. 14 + 115 − 79,5 2. 8 + 135 − 79,5 2. 6 + 155 − 79,5 2. 2 79 = 1.022,53 DESVIO PADRÃO • Visam descrever os dados no sentido de informar o grau de dispersãoou afastamento dos valores observados em torno de um valor central (média). • Simbologia: σ = população S = amostra • É uma das medidas mais úteis da variação de um grupo de dados. • A vantagem do desvio padrão sobre a variância, é que este permite uma interpretação direta da variação do grupo, pois o mesmo é expresso na mesma unidade de medida em que estão expressas as variáveis amostradas. DESVIO PADRÃO • O desvio padrão é a raiz quadrada da variância • Para determinar o desvio padrão passa primeiramente pelo cálculo da variância • Depois de calculada a variância devemos tirar a raiz quadrada, assim teremos o desvio padrão Dados não agrupados Dados agrupados em tabelas com e sem intervalo de classe 𝑠 = σ𝑖=1 𝑛 (𝑥𝑖 − ҧ𝑥) 2 𝑛 − 1 𝑠 = σ𝑖=1 𝑛 (𝑥𝑖 − ҧ𝑥) 2𝑓𝑖 𝑛 − 1 DESVIO PADRÃO • Comparação do desvio padrão Amostra A Amostra B Amostra C Média =15,5 Média =15,5 Média =15,5 s = 3,338 s = 0,9258 s = 4,57 Observando os dados acima, a média é igual para os conjuntos de dados diferentes, mas isso só pode ser percebido através do desvio padrão. Outra medida que ajuda a compreender melhor a variação é o coeficiente de variação COEFICIENTE DE VARIAÇÃO • É uma medida de dispersão relativa, utilizada quando se deseja comparar a variação de conjunto de dados que apresentem diferentes unidades de medição e ou tamanhos diferentes, pois o coeficiente de variação independe da unidade de medida dos dados. • É expresso sempre em porcentagem (100%) • Fórmula: 𝐶𝑉 = 𝑆 ത𝑋 . 100 EXEMPLO COEFICIENTE DE VARIAÇÃO • É uma medida de dispersão relativa, utilizada quando se deseja comparar a variação de conjunto de dados que apresentem diferentes unidades de medição e ou tamanhos diferentes, pois o coeficiente de variação independe da unidade de medida dos dados. • Ação A: Preço médio do último ano = 50 u.m 𝐶𝑉 = 5 50 . 100 = 10% Desvio padrão = 5 u.m • Ação B: Preço médio do último ano = 100 u.m 𝐶𝑉 = 5 100 . 100 = 5% Desvio padrão = 5 u.m. Sendo assim a Ação B possui maior regularidade do que a Ação A, ou seja, o percentual de variação de B é menor do que A. EXEMPLO COEFICIENTE DE VARIAÇÃO • Comparação do desvio padrão Amostra A Amostra B Amostra C Média =15,5 Média =15,5 Média =15,5 s = 3,338 s = 0,9258 s = 4,57 CV=21,5% CV=5,97% CV=29,48% Nesse caso, como a média é igual em todas as amostras já poderíamos concluir que a amostra B tem menor variação, mas com o auxílio do CV conseguimos saber o percentual dessa variação, ou seja, a diferença de variação da B em relação as outras é muito diferente. Obrigada!
Compartilhar