Baixe o app para aproveitar ainda mais
Prévia do material em texto
ESTATÍSTICA Dsc. Maximiniano Gouveia � 41. Introdução � 41.1. Conceitos Iniciais � 51.2. Classificação dos Dados � 51.2.1. Dados Qualitativos � 51.2.2. Dados Quantitativos � 51.3. Representação Gráfica � 51.3.1. Representação Gráfica dos Dados Discretos � 71.3.2. Representação Gráfica de Dados Contínuos � 112. Medidas de Posição ou de Tendência Central � 112.1. Somatório e Produtório � 112.1.1. Somatório � 122.1.2. Produtório � 132.2. Média Aritmética � 132.2.1. Média Aritmética Simples � 132.2.2. Média Aritmética Ponderada � 142.3. Média Geométrica � 142.3.1. Média Geométrica Simples � 152.3.2. Média Geométrica Ponderada � 162.4. Média Harmônica � 162.4.1. Média Harmônica Simples � 162.4.2. Média Harmônica Ponderada � 172.5. Média Quadrática � 172.5.1. Média Quadrática Simples � 182.5.2. Média Quadrática Ponderada � 182.6. Relação entre as Médias � 192.7. Moda � 192.7.1. Moda de Valores Não Tabulados � 192.7.2. Moda de Valores Tabulados Individualmente � 202.7.3. Valores Tabulados em Classes � 212.8. Mediana � 212.8.1. Mediana de Valores Não Tabulados � 222.8.2. Mediana de Valores Tabulados Não Agrupados em Classes � 242.8.3. Mediana de Valores Tabulados Agrupados em Classes � 252.9. Relação entre Média, Moda e Mediana � 252.10. Quartis, Decis e Centis � 252.10.1. Quartis � 262.10.2. Decis � 272.10.3. Centis � � 313. Medidas de Dispersão � 313.1. Medidas de Dispersão Absoluta � 313.1.1. Amplitude Total � 323.1.2. Desvio Quartil � 333.1.3. Desvio Médio � 333.1.4. Desvio Padrão � 353.1.5. Variância � 353.2. Medidas de Dispersão Relativa � 353.2.1. Coeficiente de Variação de Pearson � 374. Assimetria e Curtose � 374.1. Assimetria � 374.1.1. Tipos de Curvas Assimétricas � 394.1.2. Medidas de Assimetria � 404.2. Curtose � 404.2.1. Tipos de Curvas em Curtose � 414.2.2. Coeficiente de Curtose � 435. Correlação e Regressão � 435.1. Correlação Linear Simples � 435.1.1. Medida de Correlação � 435.1.2. Tipos de Correlação � 455.2. Regressão � 455.2.1. Regressão Linear � 475.2.2. Regressão Linear por Transformação � 475.2.3. Regressão Polinomial – Ajuste por Parábola � 486. Estimação � 486.1. Definições � 486.2. Intervalos de Confiança � 486.2.1. Intervalo de Confiança para a Média � 496.3. Cálculo do Tamanho da Amostra � 507. Introdução às Séries Temporais � 507.1. Introdução - Algumas considerações � 54Bibliografia � � � 1. Introdução 1.1. Conceitos Iniciais Estatística: É a ciência que dispõe de processos apropriados para recolher, organizar, classificar, apresentar e interpretar um conjunto de dados. População: Coleção de dados (que podem ser pessoas, valores, medidas) a serem estudados. Observação: Nem sempre é possível estudar todos os elementos de uma população. Pois, a população pode ser infinita; Exemplo 1: os valores das pressões atmosféricas numa cidade. a população pode ser destruída com o estudo; Exemplo 2: a quantidade de fósforos com qualidade em uma caixa. o estudo pode ser complicado; Exemplo 3: pesquisa eleitoral. Amostra: É uma sub-coleção de elementos extraídos de uma população com o objetivo de tirar conclusões para a população. Observação: A escolha da amostra deve ser feita com extremo cuidado, pois se ela não representar a população corretamente, teremos conclusões errôneas. Exemplo 4: Utilizar uma amostra de 10 vascaínos para prever o resultado de Vasco e Flamengo. Censo: Estudo científico de um universo de dados com o objetivo de adquirir conhecimento sobre esse universo. � 1.2. Classificação dos Dados Podemos classificar os dados que constituem a amostra em 2 tipos: 1.2.1. Dados Qualitativos Representam a informação que identifica alguma característica não numérica. Exemplo 5: Estado Civil de um indivíduo. 1.2.2. Dados Quantitativos Representam a informação de característica numérica. Exemplo 6: Idade de um indivíduo. Os dados quantitativos ainda podem ser sub-divididos em: Dados Discretos Resultam de um conjunto finito de valores possíveis. Exemplo 7: Quantidade de filhos de uma família. Dados Contínuos Resultam de um conjunto infinito de valores possíveis. Exemplo 8: Altura dos alunos em uma escola. 1.3. Representação Gráfica 1.3.1. Representação Gráfica dos Dados Discretos Os dados discretos são organizados em forma de uma tabela, chamada de tabela de freqüências. Exemplo 9: Numa amostra com 20 alunos, foi questionado o número de irmãos. Obtivemos os seguintes valores: Nº de irmãos freqüência 0 4 1 8 2 4 3 3 4 1 Chamamos freqüência absoluta ao número de observações correspondentes a cada valor. Temos várias maneiras de representar graficamente as tabelas de freqüência absoluta de dados discretos. A mais usual é: Diagrama de Barras Baseia-se em desenhar barras com alturas iguais as freqüências centradas nos valores correspondentes.Utilizando o exemplo acima, teríamos: Também podemos representar a tabela utilizando as freqüências relativas, que representam a proporção de observações de um dado em relação ao total de observações. Ou seja, A maneira mais usual de representar as freqüências relativas é: Diagrama de Setores Também conhecido como o gráfico da pizza. Consiste em dividir um círculo em partes proporcionais a freqüência relativa. No exemplo anterior as freqüências relativas são: Nº de irmãos frelativa 0 1 2 3 4 1.3.2. Representação Gráfica de Dados Contínuos Para os dados contínuos a organização dos dados é um pouco mais elaborada. Chamamos o gráfico para dados contínuos de Histograma. Sua elaboração deve seguir alguns passos. Para facilitar a compreensão vamos utilizar um exemplo. Exemplo 10: Seja a seguinte amostra das notas obtidas por uma determinada turma: 6,1 2,9 10,0 2,2 3,8 9,1 8,5 7,4 8,7 1,5 2,8 6,4 9,9 9,2 7,5 8,6 9,5 6,5 5,0 4,5 Devemos seguir os seguintes passos: Determinar a amplitude (a) da amostra, isto é, a diferença entre o valor máximo e o valor mínimo dos dados. a = 10,0 – 1,5 = 8,5 Dividir essa amplitude pelo número de classes (K) desejado, encontrando assim o intervalo de amplitude (h) entre as classes. Se K = 5, então h = Construir as classes. C1 = [ 1,5 ; 3,2 [ C2 = [ 3,2; 4,9 [ C3 = [ 4,9 ; 6,6 [ C4 = [ 6,6 ; 8,3 [ C5 = [ 8,3 ; 10,0 ] � Montar a tabela de freqüências, contando o número de observações em cada classe. classe fi C1 4 C2 2 C3 4 C4 2 C5 8 e) Por último, desenhamos o gráfico tomando uma sucessão de retângulos adjacentes, cujas alturas são as freqüências. � � Exercícios: Foi feito um levantamento do número de filhos entre os empregados de uma empresa obtendo o seguinte quadro: Número de filhos Número de empregados 0 82 1 28 2 45 3 15 4 5 Determine as freqüências relativas e construa o diagrama de barras. Número de filhos frelativa 0 1 2 3 4 � Numa turma foi questionada a altura dos 30 alunos. Segue abaixo os resultados: 1,72 1,68 1,82 1,65 1,70 1,58 1,60 1,85 1,90 1,66 1,74 1,75 1,81 1,62 1,79 1,55 1,78 1,59 1,61 1,70 1,72 1,68 1,87 1,88 1,79 1,62 1,75 1,59 1,80 1,70 Desenhe o histograma. a = 1,90 – 1,55 = 0,35 2K > 30 ( K = 5 h = C1 = [1,55; 1,62[ C2 = [1,62; 1,69[ C3 = [1,69; 1,76[ C4 = [1,76; 1,83[ C5 = [1,83 ; 190] Classe f C1 6 C2 6 C3 8 C4 6 C5 4 � 2. Medidas de Posição ou de Tendência Central Através das tabelas de freqüências, tambémchamadas de distribuições de freqüências, podemos tirar alguma conclusões sobre um determinado fenômeno estatístico. Porém em alguns casos pode ser difícil trabalhar com a distribuição de freqüência completa, dessa maneira calculamos algumas medidas que resumem as características dessa distribuição. Antes de estudarmos alguns tipos de medidas, vamos recordar uma noção da matemática que facilitará esse nosso estudo. 2.1. Somatório e Produtório 2.1.1. Somatório O operador somatório facilita a indicação da operação da adição. O símbolo do somatório é a letra grega sigma: (. Exemplo 12: Seja o conjunto X = {3,6,9,12,15}. A soma desses elementos pode ser indicada por: O sub-índice i indica a posição de cada elemento do conjunto: � Exemplo 13: Em um teste com 20 alunos, chegaram-se as seguintes notas: 6 10 9 2 8 3 7 4 6 8 1 9 7 10 8 0 9 6 6 9 Calcular: a) b) c) d) e) f) 2.1.2. Produtório Facilita a indicação dos produtos. O símbolo utilizado é a letra grega pi: (. Exemplo 14: Seja Y ={1,2,4,5}.Calcular: a) b) Agora já podemos iniciar o estudo das Medidas de Posição. 2.2. Média Aritmética Notação: Pode ser de dois tipos: 2.2.1. Média Aritmética Simples É igual ao quociente entre a soma dos valores de um conjunto e o número total de elementos desse conjunto: onde n é o número total de elementos. Exemplo 15: Suponha que em um escritório há 5 contínuos que recebem os seguintes salários mensais: $800, $780, $820, $810 e $790. Qual é o salário médio mensal? 2.2.2. Média Aritmética Ponderada A média aritmética é dita ponderada quando os valores do conjunto tiverem pesos diferentes, no nosso caso quando tiverem freqüências relacionadas. É igual ao somatório do produto dos valores da variável e seus respectivos pesos, dividido pela soma dos pesos: onde k é a soma dos pesos. Exemplo 16: Um professor pode realizar 4 provas por ano em sua matéria atribuindo a cada uma os seguintes pesos: 1, 2, 3, 3. Se um aluno tiver recebido as notas: 8, 7, 9, 6, qual será sua média final? Provas Notas Pesos xi.fi 1ª 8 1 8 2ª 7 2 14 3ª 9 3 27 4ª 6 3 18 soma 9 67 Uma maneira de tornar mais rápida as nossas contas é aproveitarmos a tabela e criarmos colunas extras, ou seja, nesse caso precisamos saber o valor de , para isso criamos a coluna xi.fi. E também calculamos os somatórios necessários. Assim, Exemplo 17: Calcule a média aritmética da tabela abaixo: classes fi Ponto médio xi.fi [5, 10[ 3 7,5 22,5 [10, 15[ 4 12,5 50 [15, 20[ 5 17,5 87,5 [20, 25] 8 22,5 180 soma 20 340 Quando precisamos calcular a média de uma tabela dividida em classes, uma questão aparece: quem será o valor xi? A reposta é: o ponto médio das classes. Utilizando a tabela mais uma vez teríamos: 2.3. Média Geométrica Notação: 2.3.1. Média Geométrica Simples É a raiz n-ésima do produto dos valores do conjunto com n elementos. � Exemplo 18: Calcular a média geométrica: X = {10, 60, 360} Y = {2, 2, 2, 2} Z = {1, 3, 7, 9} 2.3.2. Média Geométrica Ponderada É a raiz k-ésima do produto dos valores do conjunto elevados aos seus repetitivos pesos: onde k é a soma dos pesos, ou seja, o total de observações. Exemplo 19: Calcular a média geométrica: xi fi 1 2 3 4 9 2 27 1 soma 9 Utilizando a tabela teremos: � 2.4. Média Harmônica Notação: É o inverso da média aritmética dos inversos dos valores do conjunto. 2.4.1. Média Harmônica Simples Exemplo 20: Calcular a média geométrica: X = {10, 60, 360} Y = {2, 2, 2, 2} Z = {1, 3, 7, 9} 2.4.2. Média Harmônica Ponderada onde k é a soma das freqüências. � Exemplo 21: Calcule a média harmônica: xi fi 2 2 1 4 4 1 6 8 8 4 10 2 soma 20 2.5. Média Quadrática Notação: É a raiz quadrada da média aritmética dos quadrados dos valores do conjunto. 2.5.1. Média Quadrática Simples � Exemplo 22: Calcular a média quadrática: X = {2, 2, 2} Y = {2, 3, 4, 5} 2.5.2. Média Quadrática Ponderada onde k é a soma das freqüências. Exemplo 23: Calcular a média quadrática: xi fi xi2 xi2.fi 3 5 9 45 5 10 25 250 7 12 49 588 9 10 81 810 11 5 121 605 soma 42 2298 2.6. Relação entre as Médias Quando os valores não forem muito diferentes verifica-se: Sempre teremos: � 2.7. Moda Notação: Mo Também chamada de norma, valor dominante ou valor típico. É definida como o valor de maior freqüência. 2.7.1. Moda de Valores Não Tabulados Considerando um conjunto ordenado de valores, a moda será o valor predominante. Exemplo 24: Calcular a moda: X = {4, 5, 5, 6, 6, 6, 7, 7, 8, 8} Mo = 6 Y = {4, 4, 5, 5, 6, 6} Nesse caso não há predominância de nenhum valor. Esse conjunto é dito Amodal. Z = {1, 2, 2, 2, 3, 3, 4, 5, 5, 5, 6, 6} Mo1 = 2 Mo2 = 5 Conjunto Bimodal. W = {1, 2, 3, 4, 5} Conjunto Amodal. 2.7.2. Moda de Valores Tabulados Individualmente A moda é o elemento de maior freqüência. Exemplo 25: Calcular a moda: xi fi 0 2 1 4 2 6 3 8 4 4 5 2 6 1 Mo = 3, pois é o elemento de maior freqüência (8). 2.7.3. Valores Tabulados em Classes Quando os elementos estão divididos em classes o procedimento não é tão imediato. Veremos 3 métodos e para isso precisamos definir o conceito de classe modal: classe de maior freqüência. Moda Bruta Consiste em tomar o ponto médio da classe modal. Exemplo 26: Calcular a Moda Bruta classes fi [10, 20[ 3 [20, 30[ 5 [30, 40[ 7 [40, 50] 6 Classe Modal: [ 30 , 40 [ Moda Bruta: Método de King Esse método baseia-se na influência das freqüências adjacentes sobre a classe modal. onde l ( limite inferior da classe modal a ( amplitude do intervalo fpost ( freqüência da classe posterior à classe modal fant ( freqüência da classe anterior à classe modal Exemplo 27: Utilizando a tabela do exemplo anterior, calcular a moda pelo Método de King: � Método de Czuber Leva em consideração as freqüências adjacentes e a freqüência da classe modal. onde fmo ( freqüência da classe modal. Exemplo 28: Utilizando a tabela anterior, calcular a moda pelo Método de Czuber: 2.8. Mediana Notação: Md Definida como o valor que divide uma série ordenada em duas partes, de forma que pelo menos metades dos itens sejam iguais ou menores do que ela e a outra metade sejam maiores do que ela. Antes de calcularmos o valor da mediana, precisamos saber a porsição em que ela se encontra. A esse valor damos o nome de elemento mediano cujo símbolo é EMd. 2.8.1. Mediana de Valores Não Tabulados Primeiro devemos por o conjunto em ordem e então calcular o elemento mediano. Temos 2 casos: Número Ímpar de Observações Exemplo 29: Calcular a mediana: X = {2, 3, 6, 12, 15, 23, 30} A mediana está na quarta posição. Y = {4, 6, 7, 8, 15} Número Par de Observações Exemplo 30: Calcular a mediana: X = {3, 6, 9, 12, 14, 15, 17, 20} Se seguirmos o mesmo raciocínio anterior teríamos Md = 12.Porém teríamos 3 valores menores e 4 maiores que 12 no conjunto, o que contradiz a definição de mediana. Assim quando tivermos um número par de observações, a mediana será igual a média aritmética dos 2 valores centrais. Y = {2, 3, 4, 5, 6, 7} 2.8.2. Mediana de Valores Tabulados Não Agrupados em Classes Antes precisamos falar de freqüência acumulada, que é a soma das freqüências absoluta a cada elemento. Exemplo 31: Determinar as freqüências acumuladas: a) xi fi Fi 1 12 12 3 14 26 5 8 34 7 12 46 9 7 53 � b) xi fi Fi 2 5 5 3 10 15 4 15 30 5 12 42 6 5 47 7 3 50 Para determinarmos o elemento mediano utilizamos as mesmas definições do caso anterior, o único diferencial é que em valores tabulados utilizamos o número da soma das freqüências. Exemplo 32: Utilizando as tabelas do exemplo anterior determine a mediana: a) Devemos procurar o elemento que está na 27\ª posição. Olhando para a coluna das freqüências acumuladas, vemos que o elemento da 27ª posição é o 5 . Assim, Md = 5. b) Devemos fazer a média aritmética dos elementos que estão na 25ª e 26ª posições. Olhando para a coluna das freqüências acumuladas, vemos que o elemento da 25ª posição é 4 e da 26ª posição também é 4. Assim, Md = 4 Exemplo 33: Determine a Mediana xi fi Fi 3 3 3 4 6 9 5 9 18 6 8 26 7 6 32 8 3 35 Exemplo 34: Determine a mediana xi fi Fi 3 3 3 4 6 9 5 9 18 6 8 26 7 6 32 8 4 36 2.8.3. Mediana de Valores Tabulados Agrupados em Classes Para calcular o elemento mediano seguimos o raciocínio anterior. Porém o cálculo do valor da mediana é um pouco mais complicado, sendo utilizada a seguinte fórmula: onde l ( limite inferior da classe a que o elemento mediano (classe mediana). a ( amplitude da classe mediana EMd ( elemento mediano Fant ( freqüência acumulada até a classe anterior a classe mediana fMd ( freqüência da classe mediana Exemplo 35: Calcular a Mediana: classes fi Fi [10, 20[ 10 10 [20, 30[ 20 30 [30, 40[ 35 65 [40 ,50[ 40 105 [50, 60[ 25 130 [60, 70[ 15 145 [70, 80] 5 150 classe mediana: [40, 50[ Exemplo 36: Calcular a Mediana: classes fi Fi [5, 25[ 10 10 [25, 45[ 20 30 [45, 65[ 35 65 [65, 85] 40 105 2.9. Relação entre Média, Moda e Mediana Existe uma relação entre essas 3 medidas, chamada de Relação Empírica de Pearson : 2.10. Quartis, Decis e Centis Essas medidas são chamadas de separatrizes, pois são elementos que dividem de alguma maneira os elementos de uma distribuição de freqüências. Os quartis dividem a distribuição em 4 partes iguais, os decis em 10 partes iguais e os centis em 100 partes iguais. Para dividir uma série em 4 partes iguais, precisamos de 3 separatrizes; para dividi-la em 10 partes precisamos de 9 separatrizes e para dividi-la em 100 partes de 99 separatrizes. Da mesma forma que procedemos com a Mediana, nessas medidas também devemos calcular inicialmente a posição do elemento e depois então o seu valor numérico. 2.10.1. Quartis 1º Quartil: Q1 Nesse caso 25% dos valores da distribuição são menores do que Q1 e a sua posição é: 2º Quartil: Q2 Nesse caso 50% dos valores da distribuição são menores do que Q2, por essa razão é igual a Mediana, e a sua posição é: 3º Quartil: Q3 Nesse caso 75% dos valores da distribuição são menores do que Q3 e a sua posição é: Assim de forma geral, temos: onde n é o número de observações e i é o número do quartil que desejamos calcular. Depois de calculada a posição do quartil, para calcularmos o seu valor utilizamos a seguinte fórmula: onde l ( limite inferior da classe a que o elemento quartil pertence. a ( amplitude da classe do quartil EQi ( elemento quartil Fant ( freqüência acumulada até a classe anterior à classe do quartil fQi ( freqüência da classe do quartil 2.10.2. Decis Podemos calcular o valor de 9 decis. E seguindo o raciocínio análogo, teremos de forma geral: onde n é o número de observações e i é o número do quartil que desejamos calcular. Depois de calculada a posição do quartil, para calcularmos o seu valor utilizamos a seguinte fórmula: onde l ( limite inferior da classe a que o elemento decil pertence. a ( amplitude da classe do decil EDi ( elemento decil Fant ( freqüência acumulada até a classe anterior à classe do decil fDi ( freqüência da classe do decil 2.10.3. Centis Da mesma forma para calcular os 99 centis possíveis, teremos de forma geral: onde n é o número de observações e i é o número do quartil que desejamos calcular. Depois de calculada a posição do quartil, para calcularmos o seu valor utilizamos a seguinte fórmula: onde l ( limite inferior da classe a que o elemento centil pertence. a ( amplitude da classe do centil ECi ( elemento centil Fant ( freqüência acumulada até a classe anterior à classe do centil FCi ( freqüência da classe do centil Exemplo 37: Dada a tabela abaixo, calcule: classes fi Fi [5, 25[ 4 4 [25, 45[ 6 10 [45, 65[ 14 24 [65, 85[ 26 50 [85, 105[ 14 64 [105, 125[ 8 72 [125, 145[ 6 78 [145, 165] 2 80 � C30 C50 D9 Q3 � Exercícios: Dada a tabela abaixo, calcule: � Média aritmética Média geométrica Média Harmônica Media quadrática Mediana Moda Bruta Moda pelo método de King Moda pelo método de Czuber Q1 D5 C25 � classes fi Fi xi xi.fi 1/xi fi/xi xi2 [2, 5[ 3 3 3,5 10,5 2/7 6/7 12,25 [5, 8[ 6 9 6,5 39 2/13 12/13 42,25 [8, 11[ 5 14 9,5 47,5 2/19 10/19 90,25 [11,14] 2 16 12,5 25 2/25 4/25 156,25 soma 16 112 2,4665 301 � a. b. c. d. e. f. g. h. i. j. l. � 3. Medidas de Dispersão Já sabemos tirar conclusões estatísticas de dados através de gráficos e tabelas. Além disso também já sabemos calcular medidas que podem descrever um fenômeno estatístico. Vejamos agora esse exemplo: Exemplo 38: Suponhamos que se deseja comparar a performance de dois empregados com base na produção diária de determinada peça: Empregado A: 70, 71, 69, 70, 70 Empregado B: 60, 80, 70, 62, 83 Se calcularmos a produção média de cada um, obteremos: E assim concluímos que a performance de B é melhor do que de A. Porém a produção de A varia de 69 a 71 peças, enquanto a de B, varia de 60 a 83. Num processo produtivo espera-se uma uniformidade. Assim precisamos de mais algumas medidas para um conhecimento mais completo do fenômeno estatístico estudado. 3.1. Medidas de Dispersão Absoluta 3.1.1. Amplitude Total Notação: AT É a diferença entre os valores extremos do conjunto. Já foi vista por nós na construção de histogramas. AT = limite superior do conjunto – limite inferior do conjunto Exemplo 39: Calcular a amplitude total: A = {10, 12, 13, 20, 25, 34, 45} AT = 45 – 10 = 35 b) B = {17, 18, 19, 20, 21, 22, 23} AT = 23 – 17 = 6 c) C = {-4, -3, -2, 3, 5} AT = 5 – (-4) = 5 + 4 = 9 Exemplo 40: Calcular a amplitude total: classes fi [ 10, 20 [ 4 [ 20, 30 [ 12 [ 30, 40 [ 20 [ 40, 50 [ 12 [ 50, 60 [ 9 [ 60, 70 ] 3AT = 70 – 10 = 60 Essa medida é pouco utilizada pois se os valores forem muito diferentes, não teremos nenhuma conclusão interessante: Observação: X = {10, 12, 13, 15, 20, 25, 45} AT = 45 – 10 = 35 Porém o último número está muito distante do penúltimo. 3.1.2. Desvio Quartil Notação: DQ É baseada nos quartis e definida por: Exemplo 41: Calcular o desvio quartil: classes fi Fi [10, 20[ 4 4 [20, 30[ 12 16 [30, 40[ 20 36 [40, 50[ 12 48 [50, 60[ 9 57 [60, 70] 3 60 3.1.3. Desvio Médio Notação: DM É igual a média aritmética dos valores absolutos dos desvios tomados em relação a uma das seguintes medidas de posição: média ou mediana. ou 3.1.4. Desvio Padrão Notação: DP É a medida de dispersão mais usada. Desvio Padrão para Valores Não Tabulados onde n é o número de elementos do conjunto. Exemplo 42: Calcular o desvio padrão: A = {2, 4, 5, 8, 9} B = {10, 12, 13} Desvio Padrão para Valores Tabulados onde k é a soma total das freqüências. Existe uma maneira prática para calcular o desvio padrão fazendo uso da tabela. Construímos colunas extras, calculando os valores que necessitamos para substituir na fórmula. Exemplo 43: Calcular o desvio padrão: a) classes fi xi xi.fi xi2 xi2.fi [5, 25[ 4 15 60 225 900 [25, 45[ 6 35 210 1225 7350 [45, 65] 14 55 770 3025 42350 soma 24 1040 50600 b) classes fi xi xi.fi xi2 xi2.fi [1, 3[ 3 2 6 4 12 [3, 5[ 2 4 8 16 32 [5, 7[ 4 6 24 36 144 [7, 9] 2 8 16 64 128 soma 11 54 316 � 3.1.5. Variância Notação: Var É o quadrado do desvio padrão. Na prática calculamos o desvio padrão e o elevamos ao quadrado.Ou seja, a variância é o valor que está na última raiz. Exemplo 44: Utilizando os exemplos acima, calcule a variância: Var = 240,5797 Var = 5,9909 3.2. Medidas de Dispersão Relativa 3.2.1. Coeficiente de Variação de Pearson Notação: CVP É igual ao quociente entre o desvio padrão e a média aritmética. É indicado como uma porcentagem, dessa maneira 0 ( CVP ( 1. Exemplo 45: Utilizando as tabelas do exemplo 43, calcule o coeficiente de variação de Pearson: a) b) � Exercícios: Dada a tabela abaixo, calcule: Amplitude Desvio quartil Desvio padrão Variância Coeficiente de Variação de Pearson classes fi xi xi.fi xi2 xi2.fi Fi [2, 4[ 3 3 9 9 27 3 [4, 6[ 6 5 30 25 150 9 [6, 8[ 5 7 35 49 245 14 [8, 10] 2 9 18 81 162 16 soma 16 92 584 AT = 10 – 2 = 8 c) d) Var = 3,6666 e) 4. Assimetria e Curtose Vimos no capítulo 1, que podemos representar graficamente dados contínuos pelo histograma. Uma outra maneira de representarmos uma distribuição de freqüências é por meio de curvas. Uma dessas curvas é a Curva de Gauss que representa a distribuição Normal, distribuição de grande importância por possuir propriedades importantes, uma delas é possuir área igual a 1. Com isso seria interessante estudar a curva da distribuição. Assim , juntamente com as medidas de posição e de dispersão, as medidas de assimetria e curtose completam a compreensão das distribuições de freqüências. As características mais importantes relacionadas a forma da curva são o grau de deformação e o grau de achatamento. 4.1. Assimetria Significa desvio ou afastamento da simetria. Em outras palavras, é o grau de deformação de uma curva de freqüências comparada a uma curva de Gauss. 4.1.1. Tipos de Curvas Assimétricas Quanto ao grau de deformação temos 3 tipos de curvas. Curva Simétrica Uma curva simétrica apresenta como característica principal o fato de as três principais medidas de posição, (média, moda e mediana), serem iguais. Em termos gráficos a curva será bem parecida com a curva de Gauss: Curva Assimétrica Positiva Toda distribuição deformada é sempre assimétrica. Entretanto, a assimetria pode estar na direita ou na esquerda. Uma curva assimétrica positiva apresenta uma cauda mais alongada à direita. Nesse caso temos, Curva Assimétrica Negativa Neste caso a curva apresenta uma cauda mais longa à esquerda. E temos: 4.1.2. Medidas de Assimetria Método da Comparação Esse método permite saber qual é o tipo de assimetria da distribuição. A comparação é bem simples: Se > Mo, então a curva é assimétrica positiva. Se = Mo, então a curva é simétrica. Se < Mo, então a curva é assimétrica negativa. Exemplo 46: Verificar o tipo de assimetria. a) classes fi xi xi.fi [10, 20[ 5 15 75 [20, 30[ 10 25 250 [30, 40[ 15 35 525 [40, 50[ 20 45 900 [50, 60] 5 55 275 soma 55 2025 Portando a curva é assimétrica negativa. b) classes fi xi xi.fi [10, 20[ 5 15 75 [20, 30[ 10 25 250 [30, 40[ 15 35 525 [40, 50[ 10 45 450 [50, 60] 5 55 275 soma 45 1575 Portando a curva é simétrica. Coeficiente de Pearson Usada para calcular o grau de deformação. 4.2. Curtose Indica se a distribuição se apresenta mais alongada ou mais achatada do que uma curva padrão de Gauss. 4.2.1. Tipos de Curvas em Curtose Curva Mesocúrtica Se o achatamento for igual ao da curva de Gauss. Curva Platicúrtica Alto grau de achatamento. Curva Leptocúrtica Alto grau de alongamento. 4.2.2. Coeficiente de Curtose É definido pela expressão: Calculado o valor de C, utilizamos uma comparação já existente para determinar o tipo de curva: Se C > 0,263, então a curva é platicúrtica. Se C = 0,263, então a curva é mesocúrtica. Se C < 0,263, então a curva é leptocúrtica. Exemplo 47: Verifique o tipo de curtose: a) classes fi F [10, 20[ 5 5 [20, 30[ 10 15 [30, 40[ 15 30 [40, 50[ 20 50 [50, 60] 10 60 soma 60 b) classes fi F [0, 2[ 3 3 [2, 4[ 4 7 [4, 6[ 3 10 [6, 8[ 5 15 [8, 10] 5 20 soma 20 � Correlação e Regressão Frequentemente é necessário verificar se existe relação entre duas ou mais variáveis. Por exemplo, o consumo das famílias pode estar relacionado com a sua renda; as vendas de um certo produto pode relacionar-se com a sua demanda. Este é o estudo da Correlação. Uma vez determinada a existência de uma relação é necessário a estimação de uma função matemática que descreva essa relação. Este é o objetivo da Regressão. 5.1. Correlação Linear Simples A Correlação Linear procura medir a relação entre as variáveis X e Y através da disposição dos pontos (X, Y) em torno de uma reta. 5.1.1. Medida de Correlação Sempre teremos: Onde n é a quantidade de elementos. 5.1.2. Tipos de Correlação A) Correlação Positiva: 0 < R(X,Y) < 1. B) Correlação Positiva Perfeita: R(X,Y) = 1. C) Correlação Negativa: -1 < R(X,Y) < 0. D) Correlação Negativa Perfeita: R(X,Y) = -1. E) Correlação Nula: R(X,Y) = 0. Exemplo 48: Determine o tipo de correlação existente entre as variáveis X, que representa o gasto em milhões de reais na produção de um determinado produto, e Y, que representa a quantidade de unidades vendidas em milhares. Mês X Y X2 Y2 XY Jan 2 10 4 10020 Fev 4 8 16 64 32 Mar 6 6 36 36 36 Abr 8 10 64 100 80 mai 10 12 100 144 120 30 46 220 444 288 Determine a correlação, sabendo que X representa o gasto em milhões de reais na manutenção de fazenda de gado leiteiro e Y representa a produção de leite em milhares de litros. X Y X2 Y2 XY 2 6 4 36 12 3 9 9 81 27 6 18 36 324 108 8 24 64 576 192 19 57 113 1017 339 5.2. Regressão A análise de regressão tem por objetivo descrever através de um modelo matemático, a relação existente entre duas variáveis. 5.2.1. Regressão Linear Dado um conjunto de valores X e Y, construir um modelo de regressão linear de Y sobre X consiste em obter uma reta que melhor represente a relação entre as variáveis. A determinação dos parâmetros dessa reta é denominada Ajustamento. A reta ajustada é representada por: Onde Exemplo 49: Utilizando as tabelas do exemplo 48, determine a equação de regressão: a) b) Exemplo 50: A tabela abaixo representa as vendas de um determinado produto em milhares de unidades (X) e os gastos com propaganda de TV em milhões de reais (Y). Determine: a) o ajustamento dos dados; b) a estimativa de gasto com propaganda se desejarmos que a venda seja de 5 milhares de unidades; c) a estimativa de vendas para o mês de junho caso o gasto seja de 50 milhões. Mês X Y X2 XY Jan 2 20 4 40 Fev 4 28 16 112 Mar 6 35 36 210 Abr 8 48 64 384 Mai 10 54 100 540 30 185 220 1286 a) b)Y = 4,4.5 + 10,6 = 22 + 10,6 = 32,6 50 = 4,4X + 10,6 ( 4,4X = 39,4 ( X = 8,9545 5.2.2. Regressão Linear por Transformação Em muitos casos a relação entre X e Y não é linear. Nesses casos, o ajustamento é feito por outras funções como, por exemplo, pela função exponencial. Teríamos assim: 5.2.3. Regressão Polinomial – Ajuste por Parábola Entre as funções não lineares, as mais encontradas são as parábolas, teríamos: � Estimação 6.1. Definições Estimador: Dada uma amostra de uma variável, um estimador é uma função desses dados. Exemplo: a média é um estimador da média populacional. Estimativa: É o valor numérico assumido pelo estimador. Exemplo: é uma estimativa da média populacional Estimação por ponto ou por intervalo: Quando a estimativa de um parâmetro é dada por um único valor, tem-se uma estimativa pontual. Porém, as vezes, é mais interessante determinar um intervalo que apresente uma probabilidade de conter o verdadeiro valor do parâmetro populacional. Nesses casos, a média é determinada por uma distribuição normal. Exemplo: Se tivermos uma amostra de 500 universitários e desejamos saber a altura média se tivermos temos uma estimativa pontual. Se agora dissermos que temos uma estimativa por intervalo. 6.2. Intervalos de Confiança Conhecendo a distribuição amostral de um estimador pode-se determinar um intervalo que apresente confiança com uma probabilidade (1 - () onde ( é o grau de confiança desejado. 6.2.1. Intervalo de Confiança para a Média Onde é a média da amostra DP é o desvio padrão da amostra n é o tamanho da amostra z é a variável da distribuição normal (valor esse sempre dado) � Exemplo 51: Uma máquina produz rolamentos com desvio padrão de 0,042cm em seu diâmetro. Desejando-se conhecer o diâmetro médio dos rolamentos produzidos por essa máquina, extraiu-se 100 rolamentos, observando-se uma média igual a 0,824cm. Obter o intervalo com 90% de confiança para o verdadeiro diâmetro médio. Exemplo 52: Numa amostra de 106 temperaturas temos =36,7º e DP = 0,32º. Para um grau de confiança de 95%, determine o intervalo para a média. 6.3. Cálculo do Tamanho da Amostra Até aqui utilizamos dados já conhecidos para obter estimativas da média populacional. Suponha agora que ainda não tenhamos coletado os dados. Quantos elementos da população devem ser escolhidos para a amostra? Onde E é a margem de Erro. Observação: O tamanho da amostra deve ser um número inteiro. Exemplo 52: Deseja-se estimar a renda média de uma família. Quantos valores devem ser tomados para termos 95% de confiança em que a média amostral esteja a menos de $500,00 da verdadeira média populacional? Suponhamos que sabemos que DP = 6250. � 7. Introdução às Séries Temporais Neste capítulo faremos uma introdução às séries temporais. O nosso objetivo aqui é puramente informativo e estaremos mais preocupados com as definições básicas e alguns exemplos simples, já que o estudo de séries temporais é muito extenso. 7.1. Introdução - Algumas considerações Definição de Série Temporal: Uma Série Temporal é um conjunto de observações ordenadas no tempo (não necessariamente igualmente espaçadas), e que apresentam dependência serial (isto é, dependência entre instantes de tempo). A notação usada aqui para denotar uma Série Temporal é Z1, Z2, Z3..., ZT , que indica uma série de tamanho T. O instante T geralmente indica o último instante disponível. De uma maneira um pouco mais formal, dizemos que uma série temporal é uma realização de um processo estocástico. Definição de Processo Ergódico: Um processo estocástico é dito ergódico se uma única realização do processo é o suficiente para caracterizá-lo. Na análise de séries temporais existe apenas uma realização do processo disponível e, portanto precisamos supor que o processo subjacente é ergódico, pois iremos usar apenas uma de suas realizações para caracteriza - lo. Em geral, ao estudarmos uma Série Temporal estaremos interessados em dois aspectos: a) Análise e Modelagem da Série Temporal - descrever a série, verificar suas características mais relevantes e suas possíveis relações com outras séries; b) Previsão da Série Temporal - a partir de valores passados da série (e talvez de outras séries também) encontrar boas previsões (de curto prazo) de valores futuros da série. A previsão da série no instante T + k será denotada por . O número de instantes à frente para o qual é feita a previsão (neste caso, k) é chamado de horizonte de previsão. Por exemplo, a previsão de ZT+1 é denotada por A dependência serial entre os valores da série é um aspecto essencial, pois nos permite gerar previsões de valores futuros da série. Estas previsões seriam puro “chute” se não houvesse dependência serial. Também, diferentes séries possuem diferentes “graus” de previsibilidade; por exemplo, é freqüentemente mais fácil prever uma série de temperaturas médias mensais do que a taxa mensal de inflação. Logo, não se pode garantir que a previsão encontrada por este ou aquele método será sempre “boa”, tudo depende das características da série que está sendo estudada. No entanto, um aspecto deve ser levado em conta ao fazermos previsões de séries temporais: o nível de incerteza aumenta com o horizonte de previsão – quanto mais longe no futuro, maior é a incerteza associada à previsão. Isto é intuitivamente razoável, é sempre mais difícil prever o futuro distante, e a nossa previsão estará cercada de incertezas! Uma medida do “acerto” das nossas previsões é o erro de previsão k-passos à frente, definido a seguir. Definição do Erro de Previsão k passos à frente: O erro de previsão k passos à frente no instante t (onde k é um inteiro maior ou igual a um) é definido como a diferença entre o valor real da série no instante t e a previsão deste valor feita k instantes antes, isto é: Um caso particular importante é o erro de previsão um passo à frente, dado por: Um “bom” modelo de previsão produz previsões com erro pequeno, e assim é interessante acompanhar quantidades como a soma dos quadrados dos erros de previsão,ou a soma dos valores absolutos dos erros de previsão. E como funcionam estas ferramentas quantitativas que nos permitem prever o futuro de uma série temporal? • Vamos utilizar o passado (dados históricos) para descrever a trajetória mais provável da série no futuro. • Na maioria dos problemas o passado traz informações relevantes sobre o que irá ocorrer no futuro, pois existe “correlação” entre as variáveis em diversos instantes. • É claro que o conhecimento do passado não nos diz exatamente como será o futuro, e então sempre existe incerteza associada às nossas previsões. • Mas, podemos ter uma boa idéia de quais serão os valores mais prováveis no futuro. • Ou seja, podemos especificar previsões futuras e limites de confiança. Afinal, o que queremos ao modelar uma série temporal? • Capturar “toda” a estrutura de dependência existente na série; • Logo, nos resíduos não deve “sobrar” estrutura, pois ela já foi captada pelo modelo. Nota: o resíduo é apenas a diferença entre o valor real e o ajustado por um modelo qualquer. Por exemplo, seja Zt o valor real da série no instante t, e seu valor ajustado pelo modelo. • Em particular, se o modelo é bom, os resíduos não devem apresentar correlação serial (isto é, correlação entre os resíduos em diferentes instantes de tempo); • Explicar o comportamento da série com o menor número de parâmetros (parcimônia). Dica Prática.... Por onde começar Em geral, a primeira coisa que fazemos ao estudar uma série temporal é construir um gráfico para mostrar a sua evolução ao longo do tempo. Este procedimento simples costuma ser bastante esclarecedor, e nos permite identificar como evolui a tendência da série. Séries temporais ocorrem com enorme freqüência na prática. No quadro a seguir exibimos os gráficos de algumas séries temporais reais. Podemos fazer uma distinção básica entre duas grandes classes de modelos: • Modelos Univariados: a série temporal é explicada (prevista) apenas pelos seus valores passados; • Modelos Multivariados ou Causais: a série temporal é explicada (prevista) pelos seus valores passados e também pelos valores passados de outras variáveis. � Quadro 7.1.1. - algumas séries temporais Preços Mensais Internacionais de Celulose em US$ fixos Vendas Mensais de Refrigerantes em embalagens de 290 ml Temperatura Máxima Mensal no Rio de Janeiro (média das máximas diárias) Preços de Títulos da Dívida Externa do Brasil, Argentina e México Consumo Médio de Energia Elétrica Inflação Mensal do Rio de Janeiro � Bibliografia Triola, M. – Introdução à Estatística. Editora LTC. Soares, J. F.; Farias, A. A. e César C. C. – Introdução à estatística. Editora Guanabara. Tanaka, O. K. e Pereira, W. – Estatística: conceitos básicos. Editora Makron Books. www.mbarros.com – Download do capítulo de séries temporais. CURIOSIDADE: Áreas de Aplicação da Estatística: Estudos de Mercado: lançamento de novos produtos. Medicina: efeito de um novo medicamento. Controle de Qualidade: verificação da porcentagem de peças defeituosas. Pedagogia: nova técnica de ensino. QUESTÃO: Qual é o melhor número K de intervalos? Devemos tomar o menor inteiro K de modo que 2K > n, onde n é o tamanho da amostra. No exemplo 10, n = 20. Assim o menor inteiro que satisfaz a 2K > 20 é K = 5. Exemplo 11: Qual deve ser o valo de K para uma amostra com 50 elementos? 2K > 50 ( K = 6 �PAGE � �PAGE �4� _1170161073.unknown _1170238868.unknown _1170242732.unknown _1170681989.unknown _1174997200.unknown _1174999646.unknown _1175000249.unknown _1175001051.unknown _1240142964.unknown _1240143083.unknown _1175001298.unknown _1175001455.unknown _1175001128.unknown _1175000501.unknown _1175000946.unknown _1175000450.unknown _1174999854.unknown _1175000193.unknown _1174999787.unknown _1174998207.unknown _1174999026.unknown _1174999572.unknown _1174998365.unknown _1174998022.unknown _1174998096.unknown _1174997625.unknown _1174994798.unknown _1174996442.unknown _1174996591.unknown _1174996031.unknown _1170682384.unknown _1170682669.unknown _1170682250.unknown _1170676885.unknown _1170681370.unknown _1170681660.unknown _1170681707.unknown _1170681469.unknown _1170677288.unknown _1170681121.unknown _1170677077.unknown _1170675879.unknown _1170676471.unknown _1170676534.unknown _1170676237.unknown _1170243196.unknown _1170675678.unknown _1170243012.unknown _1170239805.unknown _1170242150.unknown _1170242443.unknown _1170242563.unknown _1170242393.unknown _1170240228.unknown _1170241054.unknown _1170239864.unknown _1170239588.unknown _1170239678.unknown _1170239742.unknown _1170239624.unknown _1170239382.unknown _1170239511.unknown _1170239268.unknown _1170165934.unknown _1170167264.unknown _1170167757.unknown _1170167911.unknown _1170168907.unknown _1170167844.unknown _1170167381.unknown _1170167656.unknown _1170167369.unknown _1170166984.unknown _1170167003.unknown _1170167158.unknown _1170166995.unknown _1170166266.unknown _1170166975.unknown _1170166927.unknown _1170166102.unknown _1170162179.unknown _1170163106.unknown _1170163342.unknown _1170165830.unknown _1170163183.unknown _1170162739.unknown _1170162883.unknown _1170162242.unknown _1170161685.unknown _1170161815.unknown _1170162023.unknown _1170161769.unknown _1170161386.unknown _1170161611.unknown _1170161327.unknown _1170146045.unknown _1170148470.unknown _1170151531.unknown _1170152154.unknown _1170160781.unknown _1170160867.unknown _1170152244.unknown _1170151764.unknown _1170152012.unknown _1170151619.unknown _1170148527.unknown _1170148839.unknown _1170151524.unknown _1170148717.unknown _1170148511.unknown _1170148521.unknown _1170148479.unknown _1170148487.unknown _1170147895.unknown _1170148385.unknown _1170148453.unknown _1170148462.unknown _1170148405.unknown _1170148072.unknown _1170148230.unknown _1170148000.unknown _1170146628.unknown _1170147700.unknown _1170147833.unknown _1170147579.unknown _1170146225.unknown _1170146301.unknown _1170146126.unknown _1170143863.unknown _1170144567.unknown _1170145390.unknown _1170145817.unknown _1170145906.unknown _1170145541.unknown _1170144850.unknown _1170144979.unknown _1170144638.unknown _1170144071.unknown _1170144336.unknown _1170144396.unknown _1170144142.unknown _1170143982.unknown _1170144017.unknown _1170143946.unknown _1170142154.unknown _1170142325.unknown _1170143586.unknown _1170143671.unknown _1170142449.unknown _1170142291.unknown _1170142316.unknown _1170142274.unknown _1170071852.unknown _1170071882.unknown _1170072491.unknown _1170071870.unknown _1170071817.unknown _1170071836.unknown _1170071641.unknown
Compartilhar