Baixe o app para aproveitar ainda mais
Prévia do material em texto
MSc. Martins Abudo Mupuelque 2020 1 Conteúdos programáticos História da estatística Conceitos básicos: população, atributo, modalidades e amostra Variáveis estatísticas Frequências absolutas e relativas. Frequências acumuladas. Representação tabular e gráfica. 2 Conteúdos programáticos (cont.) Medidas de tendência central ou de posição: média aritmética, mediana, moda e quantis. Medidas de dispersão: variância e desvio padrão. Medidas de assimetria e curtose 3 4 História da Estatística A origem da palavra Estatística está associada à palavra latina STATUS (Estado). Há indícios de que 3000 anos A.C. já se faziam censos na Babilônia, China e Egito. Até mesmo o 4o livro do antigo Testamento faz referência a uma instrução dada a Moisés, para que fizesse um levantamento dos homens de Israel que estivessem aptos para guerrear. Seus fundamentos do ponto de vista matemático foram estabelecidos no século XVII com o surgimento da teoria das probabilidades, devido a Pascal e Fermat, inicialmente aplicados ao estudo dos jogos de azar. 5 História da Estatística (cont.) Atualmente, o uso de computadores modernos permite a computação e a análise de dados estatísticos em larga escala e também tornam possíveis novos métodos antes impraticáveis. Conceitos introdutórios Estatística: é a ciência que tem por objetivo planear, coletar, tabular, analisar e interpretar informações e delas extrair conclusões que permitam a tomada de decisões acertadas mediante incertezas. Áreas: Estatística Descritiva e Estatística Inferencial ou Indutiva e Probabilidade Bioestatística: aplicação da estatística nos campos relacionados a saúde, biologia, biotecnologia etc. 6 População: é o conjunto de elementos (valores, pessoas, medidas etc.) que tem pelos menos uma característica em comum. Amostra: é um subconjunto de elementos extraídos de uma população. Parâmetro: é uma medida numérica que descreve uma característica de uma população. Estatística: é uma medida numérica que descreve uma característica da amostra. 7 Conceitos introdutórios (cont.) Amostragem aleatória Se os dados amostrais não forem coletados de maneira apropriada, eles podem ser de tal modo inúteis que nenhuma manipulação estatística poderá salvá-los. A aleatoriedade comumente desempenha papel crucial na determinação de quais dados coletar. 8 Amostragem aleatória (cont.) Vantagens do levantamento por amostragem: custo menor, menor tempo e objetivos mais amplos. Situações para trabalho com amostras: população muito grande, dificuldade de acesso, grande número de variáveis. Tipos amostragens aleatórias Simples Estratificada Por grupos 9 Amostragem aleatória (cont.) simples: todos os indivíduos têm probabilidades iguais e independentes de serem seleccionados estratificada: a população é dividida em estratos, por uma variável de interesse, e dentro desses estratos são escolhidos, aleatoriamente, indivíduos. por grupos: há dois ou mais estágios no processo de amostragem. Em primeiro lugar, grupos de unidades são escolhidos, aleatoriamente, em seguida, dentro desses grupos são escolhidos todos os indivíduos ou são seleccionados, aleatoriamente, apenas alguns. 10 Dados primários: dados coletados pelo próprio pesquisador e sua equipe. Dados secundários: não foram obtidos pelo pesquisador e sua equipe (diversas fontes como artigos em revistas, institutos de pesquisa, OMS, INCAJU). 11 Conceitos introdutórios (cont.) Censo: é uma coleção de dados relativos a todos os elementos de uma população. Variável: é a característica de interesse que é medida em cada elemento da amostra ou população, podendo ter resultados numéricos ou não. Seus valores variam de elemento a elemento. 12 Conceitos introdutórios (cont.) Variáveis estatísticas - classificação VARIÁVEL qualitativa Quantitativa Nominal Ordinal Discreta Continua ----------------------------------------------- São representados por porcentagem -------------------------------------------------- São representados por média±desvio Padrão ou mediana (intervalo entre Quartis), etc 13 VARIÁVEIS QUALITATIVAS Nominais- aquelas que se definem exclusivamente por nomes (não são mensurados), ex: grupo sanguineo (A, AB, B e O), estado civil (casado/viúvo/solteiro,etc), raça, sexo. Ordinais – os dados são ordenados de alguma maneira (incluem escalas). Ex: estado de doença (avançada, moderada, branda, nenhuma), grau da dor (forte, moderada, branda, nenhuma), etc. Variáveis estatísticas – classificação (cont.) 14 VARIÁVEIS QUANTITATIVAS Discretas – só podem assumir valores numéricos inteiros, ex: número de consultas médicas, número de episódios de uma enfermidade. Contínuas – podem existir valores intermediários, ex: peso, altura, creatinina, hemoglobina. Variáveis estatísticas – classificação (cont.) 15 Exemplo 1: Num estudo para analisar a taxa de germinação de um certo tipo de cereal foram semeadas cinco sementes em cada um de 50 vasos iguais com o mesmo tipo de solo. O nº de sementes germinadas em cada vaso está registado a seguir: 1, 0, 1, 2, 1, 3, 2, 0, 0, 1, 4, 0, 2, 1, 0, 2, 4, 1, 2, 0, 3, 5, 3, 0, 2, 1, 3, 3, 0, 4, 0, 2, 5, 3, 0, 2, 5, 1, 1, 0, 4, 4, 1, 2, 1, 0, 5, 1, 2, 3 Construa uma distribuição com todas as frequências. 16 Apresentação de dados - Tabelas Exemplo 1 (cont.): Os dados são de natureza discreta, com um número pequeno de valores distintos. Dados deste tipo podem ser condensados numa tabela da forma: 17 Apresentação de dados – Tabelas (cont.) xi fi fac fr far 0 12 12 0,24 0,24 1 12 24 0,24 0,48 2 10 34 0,2 0,68 3 7 41 0,14 0,82 4 5 46 0,1 0,92 5 4 50 0,08 1 50 1 18 Xi=Nº de sementes germinadas. fi=frequência absoluta; fac=Frequência absoluta acumulada. fr=frequência relativa; far=frequência relativa acumulada. Tabela de frequências – Exemplo 1: Exemplo 2: Considere o seguinte conjunto de dados referente as idades de mulheres responsáveis pelos domicílios. 19 19 20 21 23 23 23 23 24 24 25 25 26 26 26 27 27 27 29 29 29 29 30 31 31 31 33 33 33 34 37 37 37 37 40 40 40 40 43 43 44 44 47 48 48 48 51 52 52 53 Construa uma distribuição com todas as frequências. Solução: 19 Apresentação de dados – Tabelas (cont.) Para a construção de tabelas de frequências para variáveis contínuas, os dados devem ser agrupados em intervalos de classes. Para a construção das classes algumas definições são necessárias: 20 Apresentação de dados – Tabelas (cont.) Considerando os dados do exemplo 2: Amplitude Total ou “Range” (AT): É a diferença entre o maior e o menor valor observado. Ex.: AT = 53 - 19 = 34. 21 Apresentação de dados – Tabelas (cont.) Intervalos de Classe: Conjunto de observações apresentadas na forma contínua, sem superposição de intervalos, de tal modo que cada valor do conjunto de observação possa ser alocado em um, e apenas um, dos intervalos. 22 Apresentação de dados – Tabelas (cont.) O número k de intervalos para cada conjunto de observações com n valores pode ser calculado como: k = 1 + 3,322(log10 n) (fórmula de Sturges) Para o conjunto de dados do exemplo 2 com 50 observações obtemos log10(50) ≈ 1,699; k = 1 + 3,322 x 1,699 ≈ 6,6 ≈ 7 intervalos O tamanho h de cada intervalo é obtido pela divisão do valor da diferença entre o maior e o menor valor, R, pelo número de intervalos k: h = AT/k = 34/7 ≈ 5 23 Apresentação de dados – Tabelas (cont.) Etapas para a construção de tabelas de frequência para dados agrupados: 1) Encontrar o menor e o maior valor (mínimo e máximo) do conjunto de dados. 2) Calcular o número de classes que englobem todos os dados sem haver superposição dos intervalos. 24 Apresentação de dados – Tabelas (cont.) 3) Contar o número de elementos que pertencem a cada classe. 4) Determinar a frequência relativa de cada classe. 25 Apresentação de dados – Tabelas (cont.) Tabela de frequências – Exemplo 2: Solução: se utilizar afórmula de Sturges R = 53 – 19 = 34 e n = 50 Então: K = 1 + 3,322 x 1,699 ≈ 7 intervalos h = 34/7 ≈ 5 idades em cada intervalo Intervalo de classe Freqüência 19 |------- 24 8 24 |------- 29 10 29 |------- 34 11 34 |------- 39 5 39 |------- 44 6 44 |------- 49 6 49 |------- 54 4 26 Representação de dados em tabelas Apresentação de tabelas A tabela deve ser simples, claras e objetivas. Grandes volumes de dados devem ser divididos em várias tabelas. A tabela deve ser auto-explicativa. Nenhuma casa da tabela deve ficar em branco, apresentando sempre um número ou um símbolo. As tabelas, excluídos os títulos, serão delimitadas, no alto e em baixo, por traços horizontais grossos, preferencialmente. 27 Apresentação de tabelas Recomenda-se não delimitar as tabelas à direita e à esquerda, por traços verticais. Será facultativo o emprego de traços verticais para a separação de colunas no corpo da tabela. Deve-se manter a uniformidade quanto ao número de casas decimais. Os totais e subtotais devem ser destacados. 28 Representação de dados em tabelas Tabelas de contingência São utilizadas para estudar a relação entre duas variáveis categóricas descrevendo a frequências das categorias de uma das variáveis relativamente às categorias de outra. 29 Tipo de vinho Estabilidade Total Péssima Problemática Regular Aceitável Branco 8 (4,3%) 29 28 7 72 Rosa 10 (5,3%) 22 10 3 45 Tinto 29 (15,4%) 21 13 8 71 Total 47 (25%) 72 51 18 188 Representação gráfica de dados Os gráficos são representações pictóricas dos dados. Tem por finalidade dar uma ideia, a mais imediata possível, dos resultados obtidos, permitindo chegar-se a conclusões sobre a evolução do fenômeno ou sobre como se relacionam os valores da série. 30 A escolha do gráfico mais apropriado ficará a critério do analista. Contudo, os elementos simplicidade, clareza e veracidade devem ser considerados quando da elaboração de um gráfico. 31 Representação gráfica de dados Gráficos para variáveis qualitativas Dentre os gráficos para representar variáveis qualitativas temos o gráfico de barras e em setores (gráfico de pizza). 32 Representação gráfica de dados Gráfico de barras consiste em construir rectângulos ou barras em que uma das dimensões é proporcional a magnitude a ser representada a frequência absoluta. Estas barras são dispostas paralelamente umas as outras horizontal ou verticalmente 33 Representação gráfica de dados Gráfico de barras (exemplo 1): 34 Gráfico de pizza: Destina-se a representar a composição, usualmente em porcentagem, de partes de um todo. Consiste num círculo de raio arbitrário, representando o todo, dividido e setores, que corresponde as partes de maneira proporcional. 35 Representação gráfica de dados Gráfico de pizza (exemplo 1): 36 Gráfico para variáveis quantitativas: Os tipos de gráficos geralmente são utilizados nesse caso: Gráfico de dispersão, Histograma, polígono de frequência e gráfico de linhas. Histograma: é um gráfico de barras contíguas, com bases proporcionais aos intervalos das classes e a área de cada retângulo proporcional à respectiva frequência 37 Representação gráfica de dados Histograma (exemplo 2): 38 Polígono de frequência: É um gráfico em linha, onde as frequências são marcadas sobre perpendiculares ao eixo horizontal, levantadas pelos pontos médios dos intervalos de classe. Para conseguir um polígono, ligamos os extremos da linha obtida aos pontos médios da classe anterior à primeira e da posterior à última, da distribuição. 39 Representação gráfica de dados É um gráfico de linha, sendo as frequências os pontos médios dos intervalos das classes. 40 Polígono de Frequências Gráfico de dispersão: São utilizados para estudar a relação entre duas variáveis contínuas. Os valores são representados por pontos ao longo da reta. Exemplo: Pesos das mães na admissão para o parto em relação o peso ao nascimento dos seus bebés. 41 Representação gráfica de dados Diagrama ou gráfico de dispersão 42 Gráfico de linhas: É indicado para dados coletados ao longo do tempo, ou de medidas repetidas. Através desse gráfico é possível constatar algum tipo de tendência e identificar alguns eventos inusitados, como por exemplo, o surto de uma determinada doença. 43 Representação gráfica de dados Diagrama de ramos e folha Representar Distribuições de Freqüências Utilização: Conjunto pequeno de dados Vantagem: Visualização completa das obs. Construção: Cada obs. dividida em duas partes: Ramo Folha 44 Diagrama de ramos e folha 45 Exemplo 1: 2,5 2,6 2,5 2,4 5,4 8,8 12,3 Unidade das folhas = 0,1 RAMOS FOLHAS 2 5 8 12 4 5 5 6 4 8 3 Diagrama de ramos e folha 46 Exemplo 2: 56 62 63 65 65 65 68 70 72 Unidade das folhas = 1 Ramos Folhas 5 6 7 6 2 3 5 5 5 8 0 2 Diagrama de ramos e folha 47 Exemplo 3: Unidade das Folhas = 0,1 Ramos Folhas 1 2 2 2 2 2 3 3 9 9 0 1 1 2 3 4 4 5 5 5 5 5 6 6 7 7 7 7 7 8 8 9 9 0 0 1 1 4 Medidas de Tendência Central Definição Representam os fenômenos pelos seus valores médios, em torno dos quais tendem a concentrar-se os dados. Dentre todas as medidas de tendência central, veremos: Média; Mediana; Moda 48 Média Definição É o valor médio de uma distribuição, determinado segundo uma regra estabelecida a priori e que se utiliza para representar todos os valores da distribuição. Representada por ҧ𝑥 Pode ser: Aritmética; Ponderada; Harmônica; Geométrica. 49 Média Aritmética É a mais utilizada dentre todas as médias. É dada pela fórmula: ҧ𝑥 = 1 𝑛 𝑖=1 𝑛 𝑥𝑖 = 1 𝑛 𝑥1 +⋯+ 𝑥𝑛 Onde: n é o número de valores em uma amostra; xi é cada variável que representa os valores individuais dos dados. 50 Média Aritmética Exemplo: considere os pesos de 10 recém- nascidos (em kgs): 3,3 3,1 2,8 2,7 2,9 3,1 3,2 3,0 3,5 3,4 ҧ𝑥 = 3,3+3,1+2,8+2,7+2,9+3,1+3,2+3,0+3,5+3,4 10 =3,1 51 Média aritmética para dados agrupados É calculada quando a informação disponível é o valor médio do intervalo i (Xi) e a frequência de intervalo i (fi): ത𝑋 = 𝑓1𝑋1 +⋯+ 𝑓𝑘𝑋𝑘 𝑓1 +⋯+ 𝑓𝑘 = σ𝑖=1 𝑘 𝑓𝑖𝑋𝑖 σ𝑖=1 𝑘 𝑓𝑖 52 Média aritmética para dados agrupados - exemplo Considere os seguintes dados: 12,58 12,97 13,45 13,53 13,59 13,61 13,62 13,78 13,97 14,21 14,47 14,51 14,53 14,58 14,65 14,78 14,83 14,97 15,06 15,13 15,17 15,23 15,29 15,37 15,40 15,45 15,51 15,62 15,67 15,73 15,83 15,98 16,01 16,11 16,17 16,23 16,35 16,43 16,49 16,52 16,67 16,83 16,97 17,05 17,13 17,22 17,30 17,48 17,80 18,47 53 ത𝑋 = 3 ⋅ 13 + 8 ⋅ 14 + 15 ⋅ 15 + 13 ⋅ 16 + 9 ⋅ 17 + 2 ⋅ 18 30 = 15,46 Intervalos de classes xi Frequência absoluta 12,51 a 13,50 13 3 13,51 a 14,50 14 8 14,51 a 15,50 15 15,51 a 16,50 13 16,51 a 17,50 9 17,51 a 18,50 2 Média aritmética para dados agrupados - exemplo 54 Média Ponderada Nos cálculos envolvendo média aritmética simples, todas as ocorrências têm exatamente a mesma importância ou o mesmo peso. No entanto, existem casos onde as ocorrências têm importância relativa ou pesos relativos diferentes. Nestes casos, o cálculo da média deve levar em conta esta importância relativa ou peso relativo. Este tipo de média chama-se média aritmética ponderada. 55 Média Ponderada É dada por: ത𝑋 = σ𝑖=1 𝑛 𝑤𝑖𝑥𝑖 σ𝑖=1 𝑛 𝑤𝑖 = 𝑤1𝑥1 +𝑤2𝑥2 +⋯+𝑤𝑛𝑥𝑛 𝑤1 +𝑤2 +⋯+𝑤𝑛 Ondewi é o peso de cada xi. 56 Média Ponderada Exemplo O exame de seleção pode ser composto de 3 provas onde as duas primeiras tem peso 1 e a terceira tem peso 2. Um candidato com notas 70, 75 e 90 terá média final: ത𝑋 = 1 ⋅ 70 + 1 ⋅ 75 + 2 ⋅ 90 4 = 81,25 57 Média Harmônica A média harmônica equivale ao inverso da média aritmética dos inversos de n valores. 𝐻 = 𝑛 σ𝑖=1 𝑛 1 𝑥𝑖 = 𝑛 1 𝑥1 + 1 𝑥2 +⋯+ 1 𝑥𝑛 Exemplo: a média harmônica de 12, 14 e 16 é: 𝐻 = 3 1 12 + 1 14 + 1 16 = 13,81 58 Média GeométricaÉ a raiz de ordem n do produto dos valores da amostra: 𝐺 = ෑ 𝑖=1 𝑛 𝑥𝑖 1 𝑛 = 𝑛 𝑥1 ⋅ 𝑥2 ⋅ … ⋅ 𝑥𝑛 Exemplo: a média geométrica de 12, 14 e 16 é: 𝐺 = 3 12 ⋅ 14 ⋅ 16 = 13,90 59 Relação entre Médias A média geométrica e a média harmônica são menores, ou no máximo, iguais, à aritmética. A igualdade só ocorre no caso em que todos os valores da amostra são idênticos. Quanto maior a variabilidade, maior será a diferença entre as médias harmônica e geométrica e a média aritmética. 𝐻 ≤ 𝐺 ≤ ത𝑋 60 Relação entre Médias (cont.) Exemplo: Para a amostra 12, 14, 16 temos: 13,81 < 13,90 < 14,00 61 Mediana – dados simples Definição É um número que caracteriza as observações de uma determinada variável de tal forma que este número de um grupo de dados ordenados separa a metade inferior da amostra, população ou distribuição de probabilidade, da metade superior. Representada por 𝑥 ou Md. Isto é, ½ da população terá valores inferiores ou iguais à mediana e ½ da população terá valores superiores ou iguais à mediana (a média não garante essa propriedade) 62 Mediana – dados simples Para valores ordenados crescentemente, dois modos de calcular: Se n é ímpar, mediana é o valor central: Na amostra 30 32 35 48 76 a mediana é 35 Se n é par, mediana é a média simples entre os dois valores centrais: Na amostra 30 32 35 48 76 81 a mediana é 35+48 2 = 41,5 63 Mediana para dados agrupados 1. Calcula-se n/2; 2. Achar qual das classes esse valor se encontra a partir das frequências absolutas; 3. Usar a fórmula 𝑀𝑑 = 𝑙𝑀𝑑 + 𝑛 2 − σ𝑓 ⋅ ℎ 𝑓𝑀𝑑 Aonde: 𝑙𝑀𝑑 é o limite inferior da classe mediana; 𝑓𝑀𝑑 é a frequência absoluta da classe mediana; σ𝑓 é a Soma das frequências anteriores à classe da mediana; ℎ é a amplitude da classe mediana. 64 1. Calcula-se n/2 50/2 2. Identifica-se a classe da mediana Terceira classe Intervalos de classe Frequência absoluta Frequência acumulada 12,51 a 13,50 3 3 13,51 a 14,50 8 11 14,51 a 15,50 15 26 15,51 a 16,50 13 39 16,51 a 17,50 9 48 17,51 a 18,50 2 50 Mediana para dados agrupados -exemplo 65 3. Utiliza-se a fórmula: 𝑀𝑑 = 𝑙𝑀𝑑 + 𝑛 2 − σ𝑓 ⋅ ℎ 𝑓𝑀𝑑 𝑙𝑀𝑑 = 14,51 𝑓𝑀𝑑 = 15 σ𝑓 = 11 ℎ = 0,99 𝑀𝑑 = 14,51 + 25 − 11 ⋅ 0,99 15 = 15,434 Mediana para dados agrupados –exemplo (cont.) 66 Moda – dados simples Definição É o valor que ocorre com mais frequência. Representada por Mo. Numa amostra, Mo pode não existir ou ser múltipla (amostra multimodal). Exemplos: Na amostra 21 24 27 27 28 28 31 31 31 Mo = 31 Na amostra 45 46 49 52 52 60 60 76 79 tem moda 52 e 60 67 Moda para Dados Agrupados Utiliza-se a fórmula de King: 𝑀𝑜 = 𝑙 + Δ1 Δ1 + Δ2 ⋅ ℎ Aonde: • 𝑙é o limite inferior da classe modal = 14,51 • Δ1 é a diferença entre a frequência da classe e a anterior = 7 • Δ2 é a diferença entre a frequência da classe e a posterior = 2 • ℎ é a amplitude da classe modal = 0,99 68 Moda para Dados Agrupados Determinar a classe modal pela maior frequência absoluta. Na tabela, a terceira, utilizando a fórmula: 𝑀𝑜 = 𝑙 + Δ1 Δ1 + Δ2 ⋅ ℎ Notas Número de Alunos 0 |- 20 2 20 |- 40 7 40 |- 60 23 60 |- 80 16 80 |- 100 3 Total 51 69 Moda para dados agrupados Onde: • 𝑙- limite inferior da classe modal = 40 • Δ1- diferença entre a frequência da classe e a anterior = 16 • Δ2- diferença entre a frequência da classe e a posterior = 7 • ℎ- amplitude da classe modal = 20 𝑀𝑜 = 𝑙 + Δ1 Δ1 + Δ2 ⋅ ℎ = 40 + 16 16 + 7 ⋅ 20 = 53,91 70 Comparação Para distribuições simétricas, a média, mediana e moda são aproximadamente iguais; Para assimétricas, observa-se o seguinte: 71 Relações Empíricas entre Medidas de Posição Exemplo A relação entre média e mediana para as amostras a seguir é: A Distribuição Simétrica 10 12 14 16 18 ҧ𝑥 = 14 = 𝑥 = 14 B Distribuição Assimétrica à direita 10 12 14 16 23 ҧ𝑥 = 15 > 𝑥 = 14 C Distribuição Assimétrica à esquerda 05 12 14 16 18 ҧ𝑥 = 13 < 𝑥 = 14 72 Medidas de Posição Definição São medidas que dividem a área de uma distribuição de frequências em regiões de áreas iguais. As principais medidas de posição são: Quartil; Percentil. 73 Medidas de Posição 74 São os valores que subdividem uma disposição em rol Medidas: QUARTIS, DECIS E PERCENTIS Os Quartis são medidas que dividem o conjunto ordenado de dados em quatro partes iguais, e assim cada parte representa ¼ da amostra ou população Q1, Q2, Q3 Medidas de Posição – cont. 75 Os Decis são medidas que dividem o conjunto ordenado de dados em 10 partes iguais D1, D2, D3, D4, D5, D6, D7, D8, D9 Os Percentis são medidadas que dividem o conjunto ordenado de dados em 100 partes iguais P1, P2, P3, P4, P5, P6, ... , P99 Quartis para dados simples 76 Os Quartis dividem a disposição em 4 partes iguais Q1, Q2, Q3 Entre cada quartil há 25% dos dados da disposição Posição do Primeiro Quartil (Q1) = (n + 1) / 4 Posição do Segundo Quartil (Q2) = 2.(n + 1) / 4 Posição do Terceiro Quartil (Q3) = 3.(n + 1) / 4 O segundo quartil coincide com a Mediana (Q2 = Md) Quartil – dados simples 77 Os Quartis dividem a disposição em 4 partes iguais Q1, Q2, Q3 1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 5, 5, 6, 7, 7, 7, 8, 8, 8, 8, 9, 9, 9 Q1 Q2 Q3 7o termo 14o termo 21o termo n = 27 Decil – dados simples 78 Os Decis dividem a disposição em 10 partes iguais D1, D2, D3, D4, D5, D6, D7, D8, D9 Entre cada decil há 10% dos dados da disposição Posição do Primeiro Decil (D1) = (n + 1) / 10 Posição do Segundo Decil (D2) = 2.(n + 1) / 10 Posição do Nono Decil (D9) = 9.(n + 1) / 10 O Quinto Decil coincide com a Mediana (D5 = Md) Percentil – dados simples 79 Os percentis dividem a disposição em 100 partes iguais P1, P2, P3, P4, P5, P6, ... , P99 Entre cada percentil há 1% dos dados da disposição Posição do Primeiro Percentil (P1) = (n + 1) / 100 Posição do Segundo Percentil (P2) = 2.(n + 1) / 100 Posição do Nonagésimo Nono Percentil (P99) = 99.(n + 1) / 100 P50 = Md P25 = Q1 P75 = Q3 Exercícios 80 1) Dado o conjunto de dados: a) apresente a disposição em rol; b) o Percentil 50, c) o Primeiro Quartil, d) a Média, e) a Moda e f) a Mediana 10 13 24 45 66 77 11 14 26 33 65 21 57 Quartil para dados agrupados Para dados agrupados: Determinação de Q1: 1º Passo: calcula-se n/4 2º Passo: Identifica-se a classe Q1 pela Fac Aplica-se a fórmula: 𝑄1 = 𝑙𝑄1 + 𝑛 4 −σ 𝑓 ⋅ℎ 𝐹𝑄1 81 Quartil para dados agrupados Para dados agrupados: Determinação de Q3: 1º Passo: calcula-se 3n/4 2º Passo: Identifica-se a classe Q3pela Fac Aplica-se a fórmula: 𝑄3 = 𝑙𝑄3 + 3𝑛 4 −σ 𝑓 ⋅ℎ 𝐹𝑄3 82 Percentil para dados agrupados Definição É um valor que divide o conjunto ordenado de dados em cem partes iguais, e assim cada parte representa 1/100 da amostra ou população. O k-ésimo percentil Pk corresponde a frequência cumulativa de N k/100, onde N é o tamanho amostral. 𝑃𝑘 = 𝑁 ⋅ 𝑘 100 (arredondar para o inteiro mais próximo) 83 Percentil para dados agrupados Para dados agrupados: 𝑃𝑖 = 𝑙𝑃𝑖 + 𝑖𝑛 100 − σ𝑓 ⋅ ℎ 𝐹𝑃𝑖 𝑖 ∈ {1,2,3,4, … , 96,97,98,99,100} Aonde: 𝑙𝑃𝑖 é o limite inferior de 𝑃𝑖 σ𝑓 é a soma das frequências anteriores de 𝑃𝑖 ℎ é a amplitude da classe de 𝑃𝑖 𝐹𝑃𝑖 é a frequência da classe 𝑃𝑖 84 Percentis: Exemplo com dados agrupados 1º Quartil = 25º Percentil 𝑃25 = 14,51 + 25 ⋅ 50 100 − 11 ⋅ 1,01 15 = 14,51 + 0,1 = 14,52 Intervalos de classe Frequência absoluta Frequência acumulada 12,51 a 13,50 3 0,06 13,51 a 14,50 8 0,22 14,51 a 15,50 15 0,52 15,51 a 16,50 13 0,78 16,51 a 17,50 9 0,96 17,51 a 18,50 2 1 85 Relações 1º quartil = 25º percentil; Mediana = 5º decil = 50º percentil; 3º quartil = 75º percentil. 86 Diagrama dos Cinco Números (Box-Plot) 87 Representação Gráfica dos Quartis Q1, Q2 e Q3 Utilização Identficar Obs. Discrepantes (Outliers) Comparar dispersão de diferentes conjuntos de dados Diagrama dos Cinco Números (Box-Plot) 88 Construção Calcular o Intervalo Interquartis [Q1 – 1,5(Q3 –Q1) ; Q3 + 1,5(Q3 –Q1) ] Obs. fora desse intervalos, são consideradas discrepantes Construir um retângulo com base inferior igual a Q1, e base superior igual a Q3. A partir do pto. médio da base superior, levantar haste indo até a maior obs,que esteja dentro do Intervalo Interquartis. Diagrama dos Cinco Números (Box-Plot) 89 A partir do pto. médio da base inferior, traçar haste indo até a menor obs,que esteja dentro do Intervalo Interquartis Assinalar com um traço, dentro do retângulo, a mediana Observações que estão fora do intervalo (Discrepante), assinalar com *, acima da haste superior, ou abaixo da inferior, conforme o caso 90 Box-Plot Exemplo 6: 7 9 12 15 17 21 23 Q1 = 9Q2 = 15 Q3 =21 Inter. = (-9,39) 25 20 15 10 C 1 23 7 Max Min Q2 Q3 Q1 Medidas de Dispersão Definição É um valor que busca quantificar o quanto os valores da amostra estão afastados ou dispersos relativos à média amostral; As medidas utilizadas para representar dispersão são: Amplitude Total Desvio Padrão; Variância; Amplitude Interquartílica. 91 Amplitude Total Definição Também chamado simplesmente de Amplitude, é a diferença entre o maior e o menor valor de um conjunto de dados. 𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 = 𝑚𝑎𝑖𝑜𝑟 𝑣𝑎𝑙𝑜𝑟 − (𝑚𝑒𝑛𝑜𝑟 𝑣𝑎𝑙𝑜𝑟) A amplitude é muito fácil de ser calculada, mas como depende apenas dos valores maior e menor, não é tão útil quanto as outras medidas de variação que usam todos os valores. 92 Amplitude Total Exemplo 8,5 8,7 8,9 10,1 10,5 10,7 11,5 11,9 A amplitude é total: 𝑅 = 11,9 − 8,5 = 3,4 93 Desvio Padrão Definição É uma medida da variação dos valores em torno da média em um conjunto de valores amostrais. Representado por s (para amostral) e σ (para populacional). 94 Desvio Padrão Para uma população de N indivíduos: 𝜎 = 1 𝑁 σ𝑖=1 𝑁 𝑥𝑖 − 𝜇 2; Para uma amostra de nobservações, x1, ..., xn: 𝑆 = 1 𝑛−1 σ𝑖=1 𝑛 𝑥𝑖 − ҧ𝑥 2 Aonde: 𝑥𝑖é o valor de cada variável; ҧ𝑥 é a média amostral e 𝜇 é a média populacional. 95 Desvio Padrão Exemplo Para a amostra 10 12 14 16 18: A média é 14 e o desvio-padrão é calculado: Os desvios de cada valor em relação à média totalizam zero, pois a média é o valor central: 10 − 14 = −4 12 − 14 = −2 14 − 14 = 0 16 − 14 = +2 18 − 14 = +4 𝑆 = 10−14 2+ 12−14 2+ 14−14 2+ 16−14 2+ 18−14 2 𝑛−1 = 3,16 96 Desvio padrão: dados agrupados Considere os seguintes dados: 12,58 12,97 13,45 13,53 13,59 13,61 13,62 13,78 13,97 14,21 14,47 14,51 14,53 14,58 14,65 14,78 14,83 14,97 15,06 15,13 15,17 15,23 15,29 15,37 15,40 15,45 15,51 15,62 15,67 15,73 15,83 15,98 16,01 16,11 16,17 16,23 16,35 16,43 16,49 16,52 16,67 16,83 16,97 17,05 17,13 17,22 17,3 17,48 17,8 18,47 97 Desvio padrão: dados agrupados Considere os seguintes dados: 𝑆 = 3 ⋅ 13 − 15,46 2 + 8 ⋅ 14 − 15,46 2 +15 ⋅ 15 − 15,46 2 + 13 ⋅ 16 − 15,46 2 +9 ⋅ 17 − 15,46 2 + 2 ⋅ 18 − 15,46 2 50 = 1,308 Intervalos de Classe Frequência Absoluta 12,50 a 13,50 3 13,51 a 14,50 8 14,51 a 15,50 15 15,51 a16,50 13 16,51 a 17,50 9 17,51 a 18,50 2 98 Coeficiente de Variação Definição Para um conjunto de dados amostrais ou populacionais, expresso como um percentual, descreve o desvio padrão relativo à média, e é dado pelo seguinte: Para população: 𝑐𝑣 = 𝜎 𝜇 Para amostra: 𝑐𝑣 = 𝑠 ҧ𝑥 99 Coeficiente de Variação É uma medida dimensional, útil para comparar resultados de amostras ou populações cujas unidades podem ser diferentes; Uma desvantagem do coeficiente de variação é que ele deixa de ser útil quando a média é próxima de zero. 100 Coeficiente de Variação 101 Classificação da proporção que o desvio padrão apresenta sobre a média GRAU DE HOMOGENEIDADE DOS DADOS até 10% ÓTIMO de 10% a 20% BOM de 20% a 30% REGULAR acima de 30% RUIM Variância Definição É uma medida da variação igual ao quadrado do desvio padrão. Representada por s2 ou σ2; Para a população: 𝜎2 = 1 𝑁 σ𝑖=1 𝑁 𝑥𝑖 − 𝜇 2 Para a amostra: s2 = 1 𝑛−1 σ𝑖=1 𝑛 𝑥𝑖 − ҧ𝑥 2 Aonde: 𝑥𝑖 é o valor de cada variável; ҧ𝑥 é a média amostral e 𝜇 é a populacional. 102 Variância Uma dificuldade é que a variância não é expressa nas mesmas unidades dos dados originais; Exemplo Em uma amostra o desvio padrão é de 7,0 minutos; a variância é dada em unidade de min2; variância amostral = s2 = 7,02 = 49,0 min2 103 Amplitude interquartil Definição É a amplitude do intervalo entre o primeiro e o terceiro quartil. Representada por Q; 𝑄 = 𝑄3 − 𝑄1 Às vezes também é usada a semi-amplitude interquartílica, que é a metade da anterior. 104 Amplitude interquartil Trata-se de uma medida de variabilidade bastante robusta, que é pouco afetada pela presença de dados atípicos; Guarda a seguinte relação aproximada com o desvio-padrão: 𝑄 = 4 3 𝑠 ou 𝑄 = 4 3 𝜎 105 Medida de Assimetria e Curtose As medidas de assimetria possibilitam analisar uma distribuição de acordo com as relações entre suas medidas de moda, média e mediana, quando observadas graficamente ou analisando apenas os valores; Uma distribuição é dita simétrica quando apresenta o mesmo valor para a moda, a média e a mediana; É dita assimétrica quando essa igualdade não ocorre. 106 Medida de Assimetria e Curtose Para o cálculo de assimetria, usa-se o coeficiente de assimetria de Pearson: 𝑆𝑘 = ത𝑋 −𝑀𝑜 𝑆 Valores entre -1 e +1. 107 Medida de Assimetria e Curtose Quando a cauda da curva da distribuição declina para direita, temos uma distribuição com curva assimétrica positiva; Coeficiente > 0. 108 Medida de Assimetria e Curtose Quando a cauda da curva da distribuição declina para esquerda, temos uma distribuição com curva assimétrica negativa; Coeficiente < 0; 109 Medida de Assimetria e Curtose Definição Curtose é o grau de achatamento da distribuição. Ou o quanto uma curva de frequência será achatada em relação a uma curva normal de referência. Para o cálculo da curtose, usa-se o coeficiente de curtose de Pearson: 𝑎4 = 𝑚4 𝑠4 , onde 𝑚4 = σ 𝑋− ҧ𝑥 4 𝑛 ; Pode ser: Mesocúrtica (𝑎4 = 3); Leptocúrtica (𝑎4 > 3); Platocúrtica (𝑎4 < 3); 110 Medida de Assimetria e Curtose Mesocúrtica Leptocúrtica Platocúrtica 111 Exercícios 1) Foram feitas coletas do tempo (ms) de acesso de uma página na internet e obteve-se os valores: 85,3 84,3 79,5 82,5 80,2 84,6 79,2 70,9 78,6 86,2 74,0 83,7 Calcule: a) Média b) Mediana c) Desvio Padrão 112 Exercícios 2) Dada a amostra: 28 33 27 30 31 30 33 30 33 29 27 33 31 27 31 28 27 29 31 24 31 33 30 32 30 33 27 33 31 33 23 29 30 24 28 34 30 30 18 17 18 15 16 17 17 18 19 19 20 29 a) Construir a tabela com a distribuição de frequência; b) Calcular a média; c) Moda; d) Mediana; e) O coeficiente de variação; f) Determinar a curtose. 113
Compartilhar