Baixe o app para aproveitar ainda mais
Prévia do material em texto
�PAGE �22� �PAGE �30� �Apostila de Estatística Airton Prati 2016 CURSO DE ESTATÍSTICA Ementa: Introdução a cálculos estatísticos. Amostragem. Estatística Descritiva. Correlação e Regressão. Probabilidades. Distribuições de Probabilidade. Testes de Hipóteses. CONTEÚDO PROGRAMÁTICO: 1. Introdução a Cálculos Estatísticos 2. Amostragem 2.1 Conceitos 2.2 Tipos de Amostragens 3. Estatística Descritiva 3.1 Variáveis: discreta e contínua. 3.2 Tabelas: de categorias e de classes 3.3 Gráficos: de linhas, de coluna, de setores, histograma e polígono de freqüência 3.4 Medidas de posição: média, moda, mediana, quartil, decil e percentil. 3.5 Medidas de dispersão: desvio médio, variância, desvio padrão e coeficiente de variação. 4. Correlação e Regressão 4.1 Correlação Linear: 4.2 Regressão Linear: 5. Probabilidade 5.1 Introdução.: 5.2 Definições. 5.3 Operações com eventos. 5.4 Função de probabilidade. 5.5 Probabilidade condicional. 5.6 Teorema do produto. 5.7 Eventos independentes. 5.8 Variáveis aleatórias discretas. 6. Distribuições Teóricas de Probabilidades: 6.1 Distribuição Binomial 6.2 Distribuição Normal 7. Testes de Hipóteses 7.1 Teste unilateral 7.2 Teste Bilateral Bibliografia [1] MORETTIN, L.G., “ESTATÍSTICA BÁSICA -Estatística”, S.P.,Makron Books , 1999. [2] VIEIRA, S., Elementos de Estatística, 3ª ed, Atlas, São Paulo, 1999 [3] LIPSCHUTZ, S., “Probabilidade”, S.P.,Makron Books , 1994. [4] SPIEGEL, M. R., “Estatística e Probabilidade”, S.P.,McGraw-Hill, 1978. [5] SPIEGEL, M. R., “Estatística”, São Paulo, McGraw-Hill, 1976. [6] VIEIRA, S., Introdução a bioestatística, 3ª ed, Atlas, São Paulo, 1999. Capitulo 1 – Amostragem Neste capítulo serão apresentadas apenas as noções básicas de amostragem e suas principais técnicas. 1.1 Conceitos População – é um conjunto de indivíduos ou de objetos com pelo menos uma variável comum e observável. Usa-se N para indicar o tamanho da população. Amostra – é uma parte, um subconjunto dos elementos da população. Usa-se n para indicar o número de elementos da amostra. Amostragem – é o processo de obtenção (ou extração) de amostras de uma população. Parâmetro – é a medida usada para descrever uma característica numérica da população. Genericamente representa-se o parâmetro por (. A média ((), a variância ((2) e o coeficiente de correlação (() são alguns exemplos de parâmetros populacionais. Estimador – também denominado estatística de um parâmetro populacional – é uma característica numérica determinada na amostra. Genericamente, representa-se o estimador por (teta chapéu). A média amostral ( ), a variância amostral (s2) e o coeficiente de correlação amostral (r) são exemplos de estimadores. Estimativa – é o valor numérico determinado pelo estimador, representa-se genericamente por . Erro amostral – é o erro que ocorre justamente pelo uso da amostra. Ele é designado pelo símbolo ( e é definido por: Amostragem probabilística – é o processo de seleção de uma amostra no qual cada unidade da população tem probabilidade de pertencer à amostra, diferente de zero e conhecida. Amostragem não-probabilística – neste processo a probabilidade de seleção é desconhecida para alguns ou todos os elementos da população, podendo alguns destes elementos ter probabilidade nula de pertencer à amostra. Exemplo: amostras intencionais, amostras a esmo, amostras de voluntários, etc. 1.2 Tipos de Amostragens Amostragem Probabilística Amostragem Casual Simples ou Aleatória. Amostragem Sistemática. Amostragem por Conglomerados. Amostragem Estratificada. Amostragem não-probabilística Amostragem com inacessibilidade a toda a população. Amostragem a esmo ou sem norma. Amostragem de material contínuo. Amostragem intencional. Amostragem Casual Simples ou Aleatória Definição. É aquela em que todo elemento da população tem igual probabilidade de pertencer à amostra e todas as amostras possíveis têm igual probabilidade de ocorrer. Exemplo: Os elementos da amostra são sorteados entre todos os elementos da população por algum dispositivo adequado (Tabela 5, por exemplo). Amostragem Sistemática Definição: É aquela em que os elementos da população se apresentam ordenados e a retirada é feita periodicamente. Exemplo: Numa lista telefônica, sorteia-se um entre os 100 primeiros assinantes e a partir deste retira-se outro a cada 100. Amostragem por Conglomerados Definição: É aquela em que a população está subdividida em pequenos grupos chamados conglomerados e tem as seguintes características: (a) dentro de cada conglomerado há uma grande variabilidade ou heterogeneidade; (b) entre conglomerados há uma pequena heterogeneidade ou grande homogeneidade. Exemplo: Os trabalhadores da indústria automobilística estão dispostos em conglomerados, isto é, cada montadora é um conglomerado. Então, sorteia-se um conglomerado e em seguida retira-se a amostra desse conglomerado por sorteio, representando todos os trabalhadores da indústria automobilística. Amostragem Estratificada Definição: É aquela obtida de uma população que se divide em sub-populações ou estratos, sendo razoável supor que, de estrato para estrato, a variável de interesse apresente um comportamento bastante diverso, tendo comportamento razoavelmente homogêneo dentro de cada estrato. Exemplo: Numa pesquisa de renda média familiar podemos dividir uma cidade nos seguintes estratos: bairros de classe A, bairros de classe B, bairros de classe C, etc. e em seguida retirar um número proporcional de elementos de cada estrato para formar a amostra estratificada. Amostragem com inacessibilidade a toda a população. Definição: É aquela na qual a população não se encontra toda disponível para formar a amostragem. Exemplo: A população de peças fabricadas por uma máquina. Uma parte das peças dessa população ainda não foram fabricadas, portanto, não estão disponíveis para serem retiradas no processo de amostragem. Amostragem a esmo ou sem norma Definição: É aquela na qual o amostrador, para simplificar o processo, procura ser aleatório sem, no entanto, realizar propriamente o sorteio usando algum dispositivo aleatório confiável. Exemplo: A extração de uma amostra de 100 parafusos de uma caixa contendo10000, evidentemente não se faz através de sorteio por ser extremamente trabalhoso, faz-se então através de retiradas a esmo. Amostragem de material contínuo Definição: É aquela na qual é impraticável a realização de um sorteio rigoroso para a retirada da amostra. Exemplo: A extração de uma amostra de uma população líquida ou gasosa. Neste caso, o que se faz é homogeneizar bem a população e em seguida retirar a amostra a esmo. Amostragem intencional Definição: É aquela em que o amostrador deliberadamente escolhe certos elementos para pertencer à amostra, por julgar tais elementos bem representativos da população. Exemplo: Muitas amostragens de pesquisa de opinião são obtidas dessa maneira, por motivo de tempo e custo. Exercícios Propostos 1.1 Dada uma população com seis elementos, A, B, C, D, E e F, explique como você faria para obter, dessa população, uma amostra aleatória com três elementos. 1.2 Descreva uma forma de obter uma amostra sistemática com 10 elementos de uma população de 100 elementos. 1.3 Descreva a forma de obter uma amostra estratificada dos empregados de uma firma, considerando que existem empregados de escritório, empregados de oficina e representantes da firma. 1.4 Se uma moeda for jogada 20 vezes, os resultados constituirão uma amostra de tamanho 20 da população infinita de resultados que podem ocorrer quando se joga uma moeda. Obtenha três amostras desse tipo, isto é, jogue uma moeda 20 vezes e depois repita a experiência mais duas vezes. Compare a população de caras obtidas nas três amostras. 1.5 Dada a população da tabela abaixo (rendas em R$ 1000,00), Retire uma amostrealeatória simples de tamanho 10 e calcule sua média; Calcule o erro absoluto entre a média calculada na amostra e na população. 29 6 34 12 15 31 34 20 8 30 8 15 24 22 35 31 25 26 20 10 30 4 16 21 14 21 16 18 20 12 31 20 12 18 12 25 26 13 10 5 13 19 30 17 25 29 25 28 32 15 10 21 18 7 16 14 11 22 21 36 32 17 15 13 8 12 23 25 13 21 5 12 32 21 10 30 30 10 14 17 34 22 30 48 19 12 8 7 15 20 26 25 22 30 33 14 17 13 10 9 � Capitulo 2 ESTATÍSTICA DESCRITIVA 2.1 Conceitos Fundamentais O conhecimento científico não é um conhecimento definitivo sobre a realidade, mas um conhecimento hipotético, que pode ser questionado e corrigido. Ensinar ciência não significa apenas descrever fatos, enunciar leis e apresentar novas descobertas, mas ensinar o método científico, que é a maneira crítica de buscar o conhecimento. O método científico exige, porém, organizar dados, analisar e tomar decisões em condições de incerteza. Dá suporte técnico a esse trabalho a Estatística, que pode ser vista, pelo pesquisador, como uma ferramenta do método científico. O Pensamento Científico e a Estatística. A ciência não é a verdade, mas antes ela é uma maneira de pensar especial, metódica. É um processo pelo qual a experimentação é usada para responder questões. Este processo de experimentação é chamado “Método Científico” e envolve vários passos, que podem ser resumidos em: Observação: Os cientistas são geralmente curiosos sobre seus campos de estudo. Esta curiosidade faz com que eles indaguem sobre as coisas que observam no decorrer de suas pesquisas. Hipóteses: À medida que os cientistas formulam questões, eles naturalmente tentam respondê-las. Estas tentativas para responder as questões levam a hipóteses sobre as respostas das questões. Testes: De todos os passos do método científico, aquele que realmente separa ciência de outras disciplinas é o processo de experimentação. Na tentativa de provar ou negar a hipótese, um cientista projeta um experimento para testar a teoria. Um aspecto importante da experimentação científica é sua repetibilidade. Em outras palavras, se duas pessoas diferentes em duas partes diferentes do mundo realizam o mesmo experimento, sob as mesmas condições, eles devem obter os mesmos resultados. Em muitos fenômenos naturais, principalmente os sociais, os biológicos, os econômicos e os tecnológicos, a ferramenta mais adequada para testar hipóteses é a Estatística. Daí o grande carinho e interesse que o estudante de Ciências e de Tecnologias deve dar ao estudo da estatística. Ela lhe será um instrumento de incomensurável valor na evolução de sua carreira como pesquisador e cientista de sua área. Mas afinal, o que é a Estatística? Estatística A Estatística é a disciplina que trata dos métodos científicos de coleta, organização, resumo, apresentação e análise de dados, bem como da obtenção de conclusões válidas e da tomada de decisões razoáveis em tais análises. Por outro lado a Estatística se divide em duas partes mais ou menos distintas: a Estatística Descritiva e a Estatística Indutiva. Estatística Descritiva A Estatística Descritiva é a parte da estatística que procura descrever o comportamento de uma variável em estudo, resumindo dados observados e apresentando-os através de tabelas, gráficos ou medidas que permitam interpretá-los rapidamente. Estatística Indutiva A Estatística Indutiva é a parte da estatística que trata das condições sob as quais inferências sobre uma população, a partir de amostras, são válidas. 2.2 Definições Básicas A seguir serão apresentados, em forma de definições, os conceitos básicos da Estatística Descritiva. Definição 2.1 População - é o grupo total de elementos (pessoas ou objetos) em estudo. Definição 2.2 Amostra - é uma parte da população (na prática, é uma pequena parte da população).ou, mais precisamente, Amostra é qualquer subconjunto de elementos, retirados da população. Definição 2.3 Dado Estatístico - é toda a informação devidamente coletada e registrada, quer seja na forma de contagem ou medição. Todo o dado estatístico se refere a uma variável aleatória. Definição 2.4 Dados Brutos - são aqueles dados estatísticos que ainda não foram numericamente organizados. Definição 2.5 Rol ou Dados Tratados - é um arranjo de dados brutos em ordem crescente ou decrescente. Definição 2.6 Tabelas Estatísticas - são estruturas para armazenamento e visualização de dados estatísticos organizados, e se constituem dos seguintes elementos básicos: Título, Cabeçalho, Coluna Indicadora e Corpo; e dos seguintes elementos anexos: Fonte, Notas e Chamadas. Para facilitar a compreensão dos elementos de uma tabela estatística, considere a Tabela 2.1. Tabela 2.1 - População residente no Brasil, segundo o sexo, de acordo com o censo demográfico de 1991 Sexo População residente1 Percentual Homens.................... 72.485.122 49,4 Mulheres.................. 74.340.353 50,6 Total......................... 146.825.475 100,0 Fonte: IBGE (1996). Nota: Os dados desta tabela são do censo de 1991 que só foram publicados em 1996. (1) Inclusive os estrangeiros. Definição 2.7 Título - é o texto que explica o tipo de dados que a tabela contém. Exemplo 2.1 Observe a Tabela 2.1. O título dessa tabela é: “População residente no Brasil, segundo o sexo, de acordo com o censo demográfico de 1991. Definição 2.8 Cabeçalho - é a linha de texto que especifica a informação apresentada em cada coluna Exemplo 2.2 Observe a Tabela 2.1. O cabeçalho desta tabela é: Sexo População residente Percentual Definição 2.10 Coluna indicadora - é a coluna de texto que identifica o tipo de informação que cada linha contém. Exemplo 2.3 Observe a Tabela 2.1. A coluna indicadora desta tabela é: Homens.............................. Mulheres............................ Total.................................. Definição 2.11 O Corpo da tabela - é formado pelos dados. Exemplo 2.4 Observe a Tabela 2.1. O corpo desta tabela é: 72.485.122 49,4 74.340.353 50,6 146.825.475 100,0 Definição 2.12 Fonte - é o nome da entidade responsável pelo fornecimento dos dados. Exemplo 2.5 Observe a Tabela 2.1. A fonte desta tabela é: “IBGE (1996)”. Definição 2.13 Notas - são informações de natureza geral que servem para esclarecer o conteúdo da tabela ou para explicar o método utilizado no levantamento dos dados. Exemplo 2.6 Observe a Tabela 2.1. A nota desta tabela é : “Os dados desta tabela são do censo de 1991 que só foram publicados em 1996”. Definição 2.14 Chamadas - são informações de natureza específica que servem para explicar ou conceituar determinados dados. Exemplo 2.7 Observe a Tabela 2.1. A chamada desta tabela é: “(1) Inclusive os estrangeiros. 2.3 Distribuição de freqüências Os conceitos de freqüência e distribuição de freqüências são mais fáceis de serem apresentados e entendidos através de um exemplo. Considere o Exemplo 2.8. Exemplo 2.8 Sejam os dados de 45 empregados de uma empresa. Os dados se referem ao número de filhos com idade inferior a 18 anos de cada empregado. Os dados estão na Tabela 2.2. Tabela 2.2 - Número de filhos vivos, menores de 18 anos, dos empregados de uma empresa. 2 2 2 1 3 3 0 1 3 3 2 1 0 2 2 0 3 4 4 1 1 4 1 1 6 4 1 1 2 2 2 2 2 0 1 5 3 4 0 3 2 1 2 0 6 A distribuição de freqüências é sempre apresentada por uma tabela ou por um gráfico. No caso da Tabela 2.2, tem-se dados brutos de uma variável discreta, isto é, a variável “número de filhos” assume apenas valores inteiros. Logo, cada um dos valores observados dessa variável constitui uma categoria ou classe deempregados segundo essa característica. Então, tem-se , neste caso, sete categorias que irão formar a coluna indicadora da Tabela 2.3. Tabela 2.3 Distribuição de freqüências do número de filhos vivos, menores de 18 anos, dos empregados de uma empresa. Categoria (nº de filhos) Freqüência f F fr Fr fp Fp 0 6 6 0,1333 0,1333 13,333 13,333 1 11 17 0,2444 0,3778 24,444 37,777 2 13 30 0,2889 0,6667 28,889 66,667 3 7 37 0,1556 0,8222 15,556 82,222 4 5 42 0,1111 0,9333 11,111 93,333 5 1 43 0,0222 0,9556 2,222 95,556 6 2 45 0,0444 1,0 4,444 100,0 Definição 2.15. Freqüência absoluta simples (f) é a quantidade de elementos (empregados, no caso acima) que se encaixam em cada uma das categorias. Definição 2.16. Freqüência absoluta Acumulada (F) de cada categoria é a soma das freqüências simples das categorias anteriores mais a da categoria em questão. Definição 2.17. Freqüência relativa simples (fr) é a razão entre a freqüência absoluta simples e o número total (n) de elementos da amostra. Definição 2.18. Freqüência relativa acumulada (Fr) é a soma das freqüência relativas simples das categorias anteriores mais da categoria em questão. Definição 2.19. Freqüência percentual simples (fp) é obtida diretamente da freqüência relativa simples multiplicando-se por 100. Definição 2.20. Freqüência percentual acumulada (Fp) é obtida diretamente da freqüência relativa acumulada multiplicando-se por 100. 2.4 Tabela de dados agrupados em classes Quando se trabalha com grandes massas de dados brutos, costuma-se distribuí-los em classes. O número de elementos pertencentes a cada classe denomina-se freqüência da classe. Os valores que delimitam os intervalos de classe são denominados extremos de classe. O da esquerda é chamado extremo inferior da classe e o da direita é chamado extremo superior da classe. Definição 2.21. O ponto médio de classe é a média aritmética dos extremos de classe. Definição 2.22. A amplitude do intervalo de classe é a diferença entre o limite superior e inferior de classe. A Tabela 2.4 é um exemplo de tabela de distribuição de freqüências de classe. Tabela 2.4 - Alcoólatras crônicos segundo a idade que tinham quando iniciaram o hábito de ingerir bebidas alcoólicas. Classe Ponto médio Freqüência 5 |( 10 7,5 2 10 |( 15 12,5 9 15 |( 20 17,5 34 20 |( 25 22,5 28 25 |( 30 27,5 12 30 |( 35 32,5 9 35 |( 40 37,5 2 40 |( 45 42,5 4 Fonte: DANTAS (1979) Exercícios Propostos 2.1 Construa uma tabela para mostrar que, em determinado curso, o número de alunos matriculados na 1ª , 2ª e 3ª séries era, respectivamente, 40, 35, e 29 em 1997 e 42, 36, 32 em 1998. 2.2 A altura, em centímetros, e o peso, em quilogramas, de 8 crianças com idades entre 3 e 10 anos, inclusive, em ordem crescente de idade, são dadas em seguida: Altura média: 94; 100; 107; 113, 118; 124; 129; 133. Peso médio: 14,4; 16,0; 18,0; 19,9; 21,6; 24,1; 26,5; 29,0. Faça uma tabela para mostrar altura e peso das crianças, segundo a idade. 2.3 Imagine que foi obtida a opinião de 1000 pessoas a respeito da liberação de determinado filme para exibição em televisão. Dessas 1000 pessoas, 432 mostraram-se favoráveis, 322 eram contrárias, 122 não quiseram declarar sua opinião e as restantes disseram não ter opinião. Mostre esses dados numa tabela. 2.4 Jogue um dado 30 vezes e anote os resultados. Construa depois uma tabela para apresentar os resultados obtidos. Discuta a possibilidade de o dado ser viciado. 2.5 São dadas as notas de 40 alunos. Construa uma tabela de distribuição de freqüências (absolutas, relativas e percentuais) considerando classes com os seguintes intervalos: 0 ( 5, 5 ( 7, 7 ( 9, 9 ( 10. Notas de 40 alunos, em Matemática 7 3 4 9 5 8 5 3 8 7 9 3 1 9 9 5 7 7 10 3 4 8 8 8 7 8 8 9 3 8 9 9 7 8 1 6 10 7 7 9 2.5 Apresentação de Dados em Gráficos. Uma segunda maneira de se apresentar dados estatísticos é através de gráficos. Aliás, os gráficos facilitam muito a compreensão da distribuição de freqüências e de outras características dos mesmos. Para se fazer um bom gráfico, são necessários alguns cuidados: Todo gráfico deve ter título e escala, para que possa ser interpretado sem que haja necessidade de esclarecimentos adicionais no texto. O título do gráfico pode ser escrito acima ou abaixo do gráfico. O IBGE escreve o título acima do gráfico. No eixo das abscissas, a escala cresce da esquerda para a direita e é escrita embaixo do eixo. No eixo das ordenadas, a escala cresce de baixo para cima e é escrita à esquerda do eixo. A variável apresentada em cada eixo deve ser claramente identificada no próprio eixo. Para facilitar a leitura, podem ser feitas linhas auxiliares (grades). Neste caso, o gráfico é feito dentro de um retângulo. Os gráficos podem exibir, em rodapé, a fonte do gráfico ou dos dados que possibilitaram a construção do mesmo. Gráfico de Colunas. Para entender como se faz esse gráfico, primeiro observe os dados da Tabela 2.5. Tabela 2.5 População residente no Brasil, segundo o ano de censo demográfico. Ano do censo demográfico População 1940(1). 41.236.315 1950(1). 51.944.397 1960(1). 70.191.370 1970 93.139.037 1980 119.002.706 1991 146.815.796 Fonte: IBGE (1984); IBGE (1996). (1) População presente. Para apresentar os dados da Tabela 2.5 em um gráfico de colunas, como mostra a Figura 2.1, siga os seguintes passos: Trace o sistema de eixos cartesianos; Escreva os anos de censo no eixo das abscissas e a população no eixo das ordenadas; Construa as colunas para representar a população em cada ano de censo. As colunas terão bases de mesma largura, mas a altura igual à população no ano do censo; Coloque o título na figura. Figura 2.1 População presente no Brasil, segundo o ano do censo demográfico. 2.5.2 Gráfico de Setores O gráfico de setores (gráfico em forma de pizza ou de torta) é usado para evidenciar a composição percentual de uma amostra ou população. Para entender o uso desse gráfico, primeiro observe os dados apresentados na Tabela 2.6. Tabela 2.6 Número de famílias brasileiras, segundo a classe social, em 1998. Classe social Número de famílias (em milhões) Miseráveis................. 3,0 Pobres....................... 8,5 Emergentes............... 21,7 Classe média............. 6,3 Ricos........................ 0,3 Total........................ 39,8 Fonte: Instituto InterScience (1998) É mais fácil ver o tamanho relativo das classes sociais em um gráfico de setores. Veja a Figura 2.2. Para fazer o gráfico de setores siga o roteiro: Trace uma circunferência. A área do círculo representará o total, isto é, 39,8 milhões de famílias, ou seja, 100%; Lembre-se de que uma circunferência tem 360°. Então, se 39,8 milhões correspondem a 360°, aos 3,0 milhões de famílias miseráveis corresponderá um setor cujo ângulo x que é dado por: donde De maneira semelhante, obtém-se os ângulos dos setores para as demais categorias de famílias; Marque os valores dos ângulos calculados na circunferência e trace os raios, separando os setores; Para facilitar a distinção dos setores, faça diferentes hachuras para cada setor; Coloque título e legendas. Figura 2.2 Número de famílias brasileiras, segundo a classe social, em 1998. Histograma. Os dados organizados em classes podem ser apresentados em um histograma. É mais fácil entender como se faz um histograma por meio de um exemplo. Observe os dados apresentados na Tabela 2.6. Para fazer um histograma quando os intervalos são iguais, siga os seguintes passos: Trace o sistema de eixos cartesianos; Marqueos extremos de classes no eixo das abscissas; No eixo das ordenadas, escreva as freqüências ou as freqüências relativas; Para cada classe da distribuição de freqüências, trace um retângulo com base igual ao intervalo de classe e altura igual à freqüência, ou à freqüência relativa da classe; Coloque o título no gráfico. Os dados da Tabela 2.4 estão apresentados em histograma na Figura 2.3. Figura 2.3 Alcoólatras crônicos segundo a idade em que iniciaram o hábito de ingerir bebidas alcoólicas. Polígono de freqüências. É mais fácil mostrar como se faz um polígono de freqüências usando um exemplo. Para fazer um polígono de freqüências, considere os dados apresentados na Tabela 2.6 e siga os seguintes passos: Trace o sistema de eixos cartesianos; Marque os pontos médios de classe no eixo das abscissas; No eixo das ordenadas, coloque as freqüências; Faça um ponto para representar cada classe. Esses pontos terão abscissa igual ao ponto médio de classe e ordenada igual à freqüência de classe; Marque, no eixo das abscissas, um ponto que corresponda ao ponto médio de uma classe anterior à primeira; marque também um ponto que corresponda ao ponto médio de uma classe posterior à última; Una todos esses pontos por segmentos de reta; Coloque o título e está pronto o gráfico. Os dados da Tabela 2.4 estão mostrados em polígono de freqüências na Figura 2.4. Figura 2.4 Alcoólatras crônicos segundo a idade em que iniciaram o hábito de ingerir bebidas alcoólicas. Exercícios Propostos 2.6 Imagine que se perguntou a 1000 pessoas se elas acreditavam em horóscopos. Dessas 1000 pessoas, 488 disseram acreditar, 292 disseram não acreditar, 120 disseram que tinham dúvidas e as restantes expressaram opiniões diversas. Faça um gráfico de colunas para representar esses dados. 2.7 Construa um gráfico de linhas para mostrar que, em determinada escola, a taxa de evasão escolar (porcentagem de alunos que abandonam a escola) foi 12.1; 11,3; 10,7; 15,0; 14,7; e 10,5 em 1993, 1994, 1995, 1996, 1997 e 1998, respectivamente. 2.8 A estimativa da população brasileira, de acordo com a Pesquisa Nacional por Amostragem de Domicílio (PNAD) feita pelo IBGE em 1996, é de 152.374.603 pessoas, e a PEA (População Economicamente Ativa) é de 74.138.441 pessoas. Mostre esses dados em um gráfico de setores. 2.9 Faça um histograma para apresentar os dados de idade da população brasileira. Para isso, reorganize a tabela, usando intervalos de classe iguais (todos com 10 anos). Considere que o extremo superior da última classe é 80 anos. Dica: use freqüências relativas. � Grupos de idade População 0 a 4 anos 16 521 114 5 a 9 anos 17 420 159 10 a 14 anos 17 047 159 15 a 19 anos 15 017 472 20 a 24 anos 13 564 878 25 a 29 anos 12 638 078 30 a 39 anos 20 527 256 40 a 49 anos 13 959 402 50 a 59 anos 9 407 252 60 a 69 anos 6 412 918 70 e mais 4 309 787 Total 146 825 475 Fonte: IBGE (1984). 2.10 É dada uma tabela de distribuição de freqüências que apresenta pesos, em quilogramas, de recém-nascidos vivos. Faça um polígono de freqüências para apresentar seus dados. Dica: use freqüências relativas. Classe Ponto médio Freqüência 0,5 |( 1,0 0,75 1 1,0 |( 1,5 1,25 3 1,5 |( 2,0 1,75 22 2,0 |( 2,5 2,25 115 2,5 |( 3,0 2,75 263 3,0 |( 3,5 3,25 287 3,5 |( 4,0 3,75 99 4,0 |( 4,5 4,25 32 2.6 CÁLCULO DE ESTATÍSTICAS Todo o parâmetro calculado em função de dados amostrais de uma determinada população, é chamado de “Estatística”. Exemplos: média, moda, desvio padrão, etc. As estatísticas são muitas vezes agrupadas em Medidas de Posição, Medidas de Dispersão, Medidas de Assimetria, Medidas de Curtose, etc. Nesta seção serão definidas as principais estatísticas de cada um dos grupos acima citados. Medidas de Posição As médias, a mediana, a moda, o quartil, o decil e o percentil são denominados Medidas de Posição. As médias, medianas e modas são também denominadas Medidas de Tendência Central, porque seus valores tendem a se localizar no centro do intervalo de dados que lhes deram origem. Médias Existem vários tipos de médias: a média aritmética, a média ponderada, a média geométrica e a média harmônica. Nesta apostila, será considerada apenas a média aritmética. Definição: A média aritmética, ou simplesmente média, de um conjunto de n dados amostrais: , , ..., é representada por (lê-se: “x barra”) e definida por: (2.1) Se os k dados amostrais , , ..., ocorrerem vezes, respectivamente (isto é, se ocorrerem com as freqüências ), a média aritmética será obtida por: (2.2) Quando os dados são apresentados agrupados em classes numa tabela de distribuição de freqüências, todos os valores incluídos numa certa classe são considerados coincidentes com o ponto médio da classe. A fórmula (2.2) é válida para esses dados agrupados quando se interpretar como o ponto médio e como a freqüência de classe correspondente. Exemplo 2.9 Considere os dados da Tabela 2.7 e calcule a nota média dos estudantes do exame vestibular considerado. Solução: Usando a fórmula 2.2 e considerando x como o ponto médio das classes obtém-se (k=10): Logo, a nota média dos vestibulandos é aproximadamente 36,16. Tabela 2.7 - Distribuição das notas obtidas pelos estudantes em um exame vestibular. Indice (i) Classe (Nota) Freqüência (fi) Freqüência Acumulada (Fi) Ponto Médio (xi) fi(xi 1 0 |( 10 4 4 5 20 2 10 |( 20 109 113 15 1635 3 20 |( 30 216 329 25 5400 4 30 |( 40 209 538 35 7315 5 40 |( 50 135 673 45 6075 6 50 |( 60 80 753 55 4400 7 60 |( 70 32 785 65 2080 8 70 |( 80 15 800 75 1125 9 80 |( 90 12 812 85 1020 10 90 |( 100 5 817 95 475 817 29545 Moda A moda é o valor que ocorre com maior freqüência num conjunto de dados. Alguns conjuntos de dados são multimodais, isto é, possuem mais que uma moda. Um exemplo facilita o entendimento do conceito moda. Considere o exemplo 2.10, moda desse conjunto é o 7 porque ele aparece três vezes, enquanto os outros aparecem apenas uma vez. Exemplo 2.10 Imagine que um estudante obteve as seguintes notas: 7; 8; 5; 7; 7; 9. Quando os dados são organizados em classes, em geral, basta informar a classe modal, isto é, a que tem maior freqüência, não é preciso informar o valor da moda, embora isso também possa ser feito. Considere a Tabela 2.7 com dados agrupados em classes de notas. A moda de dados agrupados em classes de intervalos iguais pode ser obtida através da seguinte fórmula: (2.3) onde, = limite inferior da classe modal; c = amplitude do intervalo de classe; = diferença entre a freqüência da classe modal e a imediatamente anterior; = diferença entre a freqüência da classe modal e a imediatamente posterior; Para os dados apresentados na Tabela 2.7, a classe modal é “20 |( 30”, pois tem a maior freqüência absoluta simples, isto é, f = 216, logo = 20; c = 30 – 20 = 10; = 216 – 109 = 107; = 216 – 209 = 7. Segue-se que a moda é: 2.6.1.3 Mediana A mediana é o valor que ocupa a posição central de um conjunto de dados ordenados (Rol). Observe os dados: 5,0; 5,5; 7,0; 8,0; 8,5. A mediana é o valor que ocupa o centro dos dados ordenados, o 7, portanto. Se o número de elementos for par, a mediana é a média aritmética dos dois valores centrais. No caso de dados agrupados (organizados em classes), o processo de obtenção da mediana é um pouco mais complexo. Para facilitar a compreensão, utiliza-se um exemplo. A Tabela 2.7 mostra a distribuição de notas de 817 alunos que prestaram o vestibular. Então, a mediana é o valor de ordem. Ou seja, no conjunto de notas organizado em ordemcrescente, a mediana é a nota que ocupa a posição 409. Para determinar em que classe está a mediana é preciso observar as freqüências acumuladas a partir da primeira linha e ir descendo até encontrar o primeiro valor maior ou igual a 409. É fácil de concluir que a mediana está na quarta classe, “30 |( 40”, porque esta contém as notas de ordem 330 a 538, portanto a nota de ordem 409 está neste intervalo de classe ou ainda porque F4 = 538 >409. O valor da mediana é obtido por meio da fórmula: (2.4) Onde: = limite inferior da classe que contém a mediana; c = amplitude do intervalo de classe; = freqüência da classe que contém a mediana; n = número de dados; = freqüência acumulada até a classe anterior à classe que contém a mediana. No exemplo da Tabela 2.7, temos: = 30; c = 40 – 30 = 10; = 209; n = 817; = 329 Então, o valor da mediana é : Quartil Os quartis subdividem um Rol em quatro partes iguais. No caso de dados agrupados (organizados em classes), a obtenção dos quartis é semelhante ao caso da mediana. Para facilitar a compreensão, vamos usar o exemplo da Tabela 2.7. Então, os quartis são obtidos pela fórmula: (2.5) Sendo, , e , o primeiro, segundo e terceiro quartil e = limite inferior da classe que contém o quartil i; c = amplitude do intervalo de classe do quartil i; = freqüência da classe que contém o quartil i; n = Número de dados; = freqüência acumulada até a classe anterior à classe que contém o quartil i. A ordem do primeiro quartil é n/4, do segundo é 2n/4 e a do terceiro é 3n/4. Com estes valores localiza-se as classes que contém os quartis, usando o mesmo procedimento usado para localizar a classe da mediana. Isto é, observando a coluna das freqüências acumuladas de cima para baixo até encontrar o primeiro valor maior ou igual ao valor de ordem calculado. No exemplo da Tabela 2.7, para o quartil 1,tem-se: n/4 = 204,25. O que implica que a classe do primeiro quartil é a terceira classe, “20 |( 30”, pois F3 = 329 > 204,25. Donde vem: = 20; c = 30 – 20 = 10; = 216; n = 817; = 113; Então, o valor do primeiro quartil (fórmula 2.5) é: De maneira semelhante, a ordem do segundo quartil é dada por: 2n/4 = 2(817/4 = 408,5 e a ordem do terceiro quartil é dada por: 3n/4 = 3(817/4 = 612,75. Decil Os decis subdividem um Rol em dez partes iguais. A maneira de obtê-los é semelhante aos casos da mediana e dos quartis. Essas separatrizes só são úteis para grandes conjuntos de dados e são geralmente obtidas para dados agrupados em classes. A fórmula para se obter os decis para dados agrupados em classe é a seguinte: (2.6) Sendo, , , ... , , o primeiro, segundo, ... e nono decis, e = limite inferior da classe que contém o decil i; c = amplitude do intervalo de classe do decil i; = freqüência da classe que contém o decil i; n = Número de dados; = freqüência acumulada até a classe anterior à classe que contém o decil i. A ordem do primeiro decil é n/10, do segundo é 2n/10, ... e a do nono é 9n/10. Com estes valores localizam-se as classes que contém os decis. No exemplo da Tabela 2.7, para o decil 1, tem-se: n/10 = 81,7. O que implica que a classe do primeiro decil é a segunda classe, “10 |( 20”, pois F2 = 113 > 81,7. Donde vem: = 10; c= 20 – 10 = 10; = 109; n = 817; = 4; Então, o valor do primeiro decil (fórmula 2.6) é: Para os demais decis procede-se de maneira similar. Percentil (ou Centil) Os percentis ou centis subdividem um Rol em cem partes iguais. A maneira de obtê-los é semelhante ao caso dos decis. Essas separatrizes só são úteis para grandes conjuntos de dados e são geralmente obtidas para dados agrupados em classes. A fórmula para se obter os percentis para dados agrupados em classe é a seguinte: (2.7) Sendo, , , ... , , o primeiro, segundo, ... e nonagésimo nono percentil, e = limite inferior da classe que contém o percentil i; c = amplitude do intervalo de classe do percentil i; = freqüência da classe que contém o percentil i; n = Número de dados; = freqüência acumulada até a classe anterior à classe que contém o percentil i. A ordem do primeiro percentil é n/100, do segundo é 2n/100, ... e a do nonagésimo nono é 99n/100. Com estes valores localizam-se as classes que contém os percentis. No exemplo da Tabela 2.7, para o percentil 1, tem-se: n/100 = 8,17. O que implica que a classe do primeiro percentil é a segunda classe, “10 |( 20”, pois F2 = 113 > 8,17. Donde vem: = 10; c = 20 -10 = 10; = 109; n = 817; = 4; Então, o valor do primeiro percentil (fórmula 2.7) é: Para os demais percentis procede-se de maneira semelhante. Exercícios Propostos 2.11 Os salários-hora de cinco funcionários de uma empresa são: R$ 75,00; R$ 90,00; R$ 183,00; R$ 242,00 e R$ 88,00. Determine: (a) a média dos salários ; (b) a mediana dos salários. 2.12 As notas de um candidato em um concurso, em seis provas, foram: 8,4; 9,1; 7,2; 6,8; 8,7; e 7,2. Determine: (a) a nota média; (b) a nota mediana; (c) a nota modal. 2.13 São dadas as idades das pessoas que se apresentaram como voluntárias para um estudo do efeito da ingestão de bebida alcoólica sobre a habilidade de dirigir veículos: 20, 25, 18, 32, 21, 27, 19, 18, 23, 21. (a) Calcule a média; (b) Calcule a moda, a mediana e os quartis. 2.14 É dado o número de atendimentos, por dia, em um serviço de emergência, durante um mês. a) Calcule o número médio de atendimentos por dia; b) Calcule a moda, a mediana e os quartis. Número de atendimentos, por dia, em um serviço de emergência. Número de atendimentos (x) 0 1 2 3 4 5 6 Freqüências (f) 2 3 3 5 10 6 1 2.15 Considere os dados apresentados na tabela abaixo. a) Calcule o tempo médio de duração de uma chamada telefônica interurbana; b) Calcule a moda, a mediana, os quartis, os decis e os percentis. Duração das chamadas telefônicas interurbanas feitas em uma cidade. Duração da Chamada (min) 0 |( 2 2 |( 6 6 |( 10 10 |( 15 15 |( 20 20 |( 30 30 |( 40 40 |( 60 Freqüência (f) 100 50 30 20 5 5 1 1 2.6.2 Medidas de Dispersão O grau em que os dados numéricos tendem a se dispersarem em torno de um valor médio (central) chama-se dispersão dos dados. As métricas usadas para medir essa dispersão chamam-se Medidas de dispersão. Existem várias dessas medidas. Neste trabalho serão abordadas somente as mais usadas: Amplitude Total, Desvio Médio, Variância, Desvio Padrão e Coeficiente de Variação. Amplitude Total A amplitude total (R) é a diferença entre o maior e o menor dos valores observados em um conjunto de dados. Exemplo: 31; 27; 42; 35; 47; 28; 7; 45; 15; 20. Como o maior número é 47 e o menor é 7, a amplitude total desse conjunto é: R = 47 –7 = 40. Desvio Médio O desvio médio (D.M.) de um conjunto de n números , , ..., é definido por: (2.8) onde é a média aritmética dos números e é o valor absoluto do desvio de em relação a . Exemplo 2.11: Determinar o desvio médio do conjunto de números 2, 3, 6, 8, 11. Solução: Média Aritmética = = Desvio Médio = D.M. = = Se , , ..., ocorrerem com as freqüências , respectivamente, o desvio médio poderá ser obtido pela seguinte fórmula: (2.9) Ocasionalmente, o desvio médio é definido em relação a mediana ou à outra média. É interessante ressaltar que o desvio médio em relação à mediana é um mínimo. No caso de dados agrupados em classes usa-se a fórmula (2.9) sendo que o representa o Ponto Médio da classe. Exemplo 2.12: Determinar o desvio médio das notas da Tabela 2.8. Tabela 2.8 - Distribuição das notas obtidas pelos estudantes em um exame vestibular. Indice (i) Classe (Nota) Freqüência (fi) Ponto Médio (xi) fi(xifi |xi - | 1 0 |( 10 4 5 20 124,64 3883,7824 2 10 |( 20 109 15 1635 2306,44 48804,2704 3 20 |( 30 216 25 5400 2410,56 26901,8496 4 30 |( 40 209 35 7315 242,44 281,2304 5 40 |( 50 135 45 6075 1193,40 10549,6560 6 50 |( 60 80 55 4400 1507,20 28395,6480 7 60 |( 70 32 65 2080 922,88 26615,8592 8 70 |( 80 15 75 1125 582,60 22628,1840 9 80 |( 90 12 85 1020 586,08 28624,1472 10 90 |( 100 5 95 475 294,20 17310,7280 817 29545 10170,44 213995,3552 Variância A variância de um conjunto de n dados amostrais , , ..., é definida por: (2.10) Se , ..., ocorrerem com as freqüências , respectivamente, a variância poderá ser obtida pela seguinte fórmula: (2.11) Onde, . Exemplo 2.13: Determinar a variância das notas da Tabela 2.8. Desvio Padrão O desvio padrão (s), por definição, é a raiz quadrada, com sinal positivo, da variância. Ou seja (2.12) ou (2.13) Exemplo 2.14. Imagine que um estudante fez quatro provas, com 60 questões cada uma. Na primeira acertou 35 questões, na segunda acertou 55, na terceira acertou 45 e na quarta 25. Determine a variância e o desvio-padrão do número de questões certas. Solução. Exemplo 2.15: Determinar o desvio padrão das notas da Tabela 2.8. Coeficiente de Variação O coeficiente de variação é uma medida de dispersão relativa porque estabelece uma relação entre o desvio-padrão (medida de dispersão absoluta) e a média. E é definido por: (2.14) É geralmente expresso em porcentagem (%). Exemplo 2.16. Para entender a idéia de dispersão relativa, imagina dois grupos de pessoas. No primeiro grupo, as pessoas têm idades: 1; 3; 5 e no segundo grupo as pessoas têm idades: 53; 55; 57. Solução: A média de idade do primeiro grupo é: A média de idade do segundo grupo é: A variância do primeiro grupo é: A variância do segundo grupo é: O desvio-padrão do primeiro grupo é: O desvio-padrão do segundo grupo é: O coeficiente de variação do primeiro grupo é: O coeficiente de variação do segundo grupo é: O desvio padrão do primeiro grupo é exatamente igual ao do segundo grupo. Logo, a dispersão dos dados em torno da média é exatamente a mesma nos dois grupos. Entretanto, diferenças de dois anos são muito importantes no primeiro grupo, onde a idade média é 3 anos. Dois anos de diferença, neste grupo, significam grandes mudanças físicas e de comportamento. Enquanto que para as pessoas do segundo grupo, cuja idade média é 55 anos, dois anos a mais ou dois anos a menos, não faz grande diferença. Neste caso, o valor do coeficiente de variação confirma as observações acima, de que a dispersão dos dados, em relação à média, é muito importante no primeiro grupo (CV =66,7%) e pouco importante no segundo grupo (CV = 3,6%). Exercícios Propostos 2.16 É dado o rendimento mensal de 20 pessoas. Calcule: a) a amplitude total; b) o desvio médio; c) o desvio-padrão; c) o coeficiente de variação. Rendimento mensal, em salários mínimos, de 20 pessoas. 1,2 1,3 2,9 3,5 2,8 4,2 1,2 2,2 1,7 1,1 8,9 2,4 4,1 1,0 1,0 1,9 7,2 2,3 7,0 3,0 2.17 Dados os pesos de dez casais, calcule o desvio-padrão do peso dos homens e o desvio-padrão do peso das mulheres. Onde ocorre maior dispersão? Peso do esposo e peso da esposa, em quilogramas Esposo 82 75 67 65 90 58 78 61 79 65 Esposa 61 56 71 49 62 57 58 54 65 65 2.18 As notas de 30 alunos de uma classe foram agrupadas em quatro grandes grupos. Calcule: a) a média, b) o desvio médio e c) o desvio-padrão das notas. Distribuição das notas finais dos alunos Classe Ponto médio Freqüência 50 |( 60 55 11 60 |( 70 65 11 70 |( 80 75 5 80 |( 90 85 3 2.19 São dados o peso e a estatura de quatro pessoas. Calcule os coeficientes de variação. Qual é a variável que tem maior dispersão relativa ? Peso e estatura de quatro pessoas Peso (kg) Estatura (cm) 60 160 75 170 70 175 75 165 Capitulo 3 – CORRELAÇÃO E REGRESSÃO Nos capítulos anteriores, esta apostila considerou apenas a existência de uma única variável aleatória de interesse. Neste, examinará os problemas de Estatística envolvendo duas ou mais variáveis quantitativas. Por ser este, um curso básico de Estatística, será considerado somente o caso de duas variáveis de interesse. Para facilitar o entendimento dos conceitos envolvidos, será examinado, inicialmente, um exemplo. Seja uma amostra de dez pessoas adultas, do sexo masculino, e sejam a altura (cm), X, e o peso (kg), Y, as variáveis de interesse a serem investigadas. Considere a Tabela 3.1. A Figura 3.1 mostra o gráfico dos pontos dessa tabela. Este tipo de gráfico é conhecido como Diagrama de Dispersão. Sua principal utilidade é, através de visualização, ter uma boa idéia da correlação das duas variáveis. Tabela 3.1 Valores de altura e de peso de 10 pessoas Pessoa Altura (cm) Peso (kg) 1 174 73 2 161 66 3 170 64 4 180 94 5 182 79 6 164 72 7 156 62 8 168 64 9 176 90 10 175 81 Figura 3.1 Diagrama de dispersão para os dados da Tabela 3.1 3.1 Correlação Linear Observados os pontos do diagrama de dispersão da Figura 3.2 (a), vê-se que existe, para valores maiores de x, uma tendência de se obter valores menores de y e vice-versa. Quando isso ocorre diz-se que há uma correlação linear negativa. No caso da Figura 3.3 (a), o diagrama de dispersão está indicando que para maiores valores de x há uma tendência de se obter maiores valores de y e vice-versa. Nesse caso, diz-se que existe uma correlação linear positiva entre x e y. Entretanto, pode-se ter casos intermediários de variáveis não-correlacionadas, ou de correlação nula, onde o diagrama de dispersão deve mostrar algo como a Figura 3.2 (b). Além disso, outros tipos de correlação podem existir, como a não-linear mostrada na Figura 3.3 (b), que não serão vistos neste curso. Figura 3.2 (a) Correlação linear negativa. (b) Correlação linear nula Figura 3.3 (a) Correlação linear positiva. (b) Correlação não-linear Vê-se dos diagramas de dispersão que o sinal da correlação indica qual a tendência da variação conjunta das duas variáveis consideradas. Entretanto, deve-se considerar também a intensidade ou o grau da correlação. Uma medida do grau e do sinal da correlação linear é dada pela covariância entre as duas variáveis, definida por (3.1) Apesar de a covariância ser um indicador do grau e do sinal da correlação, em geral, é mais conveniente usar-se, para a medida da correlação, o chamado Coeficiente de Correlação Linear de Pearson, definido por (3.2) onde, e são os desvios padrão das variáveis X e Y na amostra. Como e resulta que (3.3) Não é difícil mostrar que (3.4) (3.5) (3.6) Substituindo as expressões (3.4), (3.5) e (3.6) em (3.3) resulta (3.7) Exemplo 3.1 Calcular o coeficiente r para os dados da Tabela 3.1. Solução: O valor de r será obtido pela fórmula (3.7). Para facilitar sua utilização, os seus somatórios serão trabalhados numa extensão da Tabela 3.1 que será chamada Tabela 3.2. Tabela 3.2 Valores para o cálculo de r. i xi yi 1 174 73 12702 30276 5329 2 161 66 10626 25921 4356 3 170 64 10880 28900 4096 4 180 94 16920 32400 8836 5 182 79 14378 33124 6241 6 164 72 11808 26896 5184 7 156 62 9672 24336 3844 8 168 64 10752 28224 4096 9 176 90 15840 309768100 10 175 81 14175 30625 6561 1706 745 127753 291678 56643 Da Tabela 3.2 na fórmula (3.7) resulta: Conforme era esperado, obtivemos para r um valor positivo e relativamente alto, pois os pontos indicam uma correlação linear positiva razoavelmente alta. 3.2 Regressão Linear Muitas vezes a posição dos pontos experimentais no diagrama de dispersão sugere a existência de uma relação funcional entre as duas variáveis, como mostra a Figura 3.4. Surge então o problema de se determinar uma função que exprima esse relacionamento. Figura 3.4 Curva ou linha de regressão Assim, se os pontos experimentais se apresentarem como na Figura 3.4, admite-se existir um relacionamento funcional entre os valores x e y, responsável pelo aspecto do diagrama, e que explica grande parte da variação de y com x, ou vice-versa. Esse relacionamento funcional corresponderia à linha existente na figura, que seria a “linha de regressão”. Uma parcela da variação, entretanto, permanece em geral sem ser explicada, e será atribuída ao acaso. A forma da função que representa a linha de regressão pode ser, em princípio, qualquer. Neste curso introdutório, será apresentada apenas a forma linear da linha de regressão que será obtida pelo método dos mínimos quadrados. Logo, a função que desejamos obter é da forma, (3.9) Estima-se os parâmetros a e b ( esse chamado coeficiente de regressão linear) da reta teórica através dos pontos experimentais. Segundo o método dos quadrados mínimos, a reta a ser adotada é aquela que torna mínima a soma dos quadrados das distâncias da reta aos pontos experimentais, medidas no sentido da variação aleatória. Ou seja, deve-se procurar a reta para a qual se consiga minimizar , sendo as distâncias as indicadas na Figura 3.5. A idéia central desse procedimento é simplesmente a de minimizar a variação residual em torno da reta estimativa. Figura 3.5 Distâncias cuja soma dos quadrados deve ser minimizada. Definindo-se, (3.10) e (3.11) onde é o valor experimental para , este considerado com erro desprezível, e dado pela reta teórica (3.9). Os valores dos parâmetros a e b da equação (3.9), serão obtidos através da minimização da expressão (3.10). Pode ser provado que os valores de a e b que minimizam (3.10), são aqueles que anulam as derivadas parciais dessa expressão. Ou seja, deve-se ter (3.12) Substituindo-se (3.9) em (3.10) resulta, (3.13) Aplicando-se (3.12) em (3.13), resulta, Após umas poucas manipulações algébricas, se transforma no seguinte sistema de duas equações a duas incógnitas: (3.14) Os pontos experimentais fornecem os elementos para a montagem desse sistema, cuja solução forneceria os coeficientes a e b. Entretanto, é mais fácil considerar de uma vez a solução analítica, a qual fornece (3.15) As expressões de (3.15) dão diretamente os coeficientes da reta teórica (3.9), ajustada pelos quadrados mínimos. Exemplo 3.2 Obter a equação da reta de mínimos quadrados para os seguintes pontos experimentais: 1 2 3 4 5 6 7 8 0,5 0,6 0,9 0,8 1,2 1,5 1,7 2,0 Traçar a reta no diagrama de dispersão. Calcular o coeficiente de correlação linear. Solução: Para facilitar o cálculo dos coeficientes da reta, faz-se uso de uma tabela ampliada dos dados experimentais, como a Tabela 3.3 abaixo. Para obtermos os valores de a e b das expressões (3.15), necessita-se calcular . Usando-se as expressões (3.4) e (3.5), obtém-se: Tabela 3.2 Valores para o cálculo da reta e do coeficiente de correlação linear. i 1 1 0,5 0,5 1 0,25 2 2 0,6 1,2 4 0,36 3 3 0,9 2,7 9 0,81 4 4 0,8 3,2 16 0,64 5 5 1,2 6,0 25 1,44 6 6 1,5 9,0 36 2,25 7 7 1,7 11,9 49 2,89 8 8 2,0 16,0 64 4,00 36 9,2 50,5 204 12,64 Assim, a reta de regressão, determinada pelo método dos quadrados mínimos, tem a seguinte equação: Figura 3.6 Gráfico da reta dos quadrados mínimos do Exemplo 3.2. Para o cálculo do coeficiente de correlação, equação (3.3), é necessário usar os valores da coluna da Tabela 3.2 para o cálculo de . Assim, e Esse valor do coeficiente de correlação de Pearson justifica o gráfico da reta de regressão. Exercícios propostos. 3.1 Calcule o coeficiente de correlação linear de Pearson para os oito pontos seguintes: (1,1), (4,1), (5,3), (3,2), (3,4), (4,2), (1,4) e (3,3). Construa um diagrama de dispersão e comente o resultado obtido. 3.2 Para cinco volumes de uma solução, foram medidos os tempos de aquecimento em um mesmo bico de gás e as respectivas temperaturas de ebulição, obtendo-se: tempo (min.) 20 22 19 23 17 Temperatura(ºC) 75 80 75 82 78 Calcule o coeficiente de correlação. 3.3 Dados os sete pares de valores experimentais abaixo ( ), estabelecer a regressão linear , calculando os coeficientes a e b pelo método dos quadrados mínimos, supondo os valores de isentos de erro. 0 2 4 6 8 10 12 1 2 6 9 11 14 20 3.4 Ajuste uma reta de mínimos quadrados aos dados abaixo, adotando: (a) x como variável independente; (b) y como variável independente. Verifique se as duas equações obtidas correspondem à mesma função implícita. 2 4 5 6 7 10 12 9 9 7 4 5 3 1 (b) (b) (a) � EMBED Equation.3 ��� � EMBED Equation.3 ��� �PAGE �10� _1199704307.unknown _1199704323.unknown _1199704331.unknown _1200139464.unknown _1200139472.unknown _1228212723.unknown _1228213934.unknown _1228214093.unknown _1232258046.unknown _1228214319.unknown _1228213955.unknown _1228212747.unknown _1228213923.unknown _1228127728.unknown _1228203368.unknown _1200139473.unknown _1200139468.unknown _1200139470.unknown _1200139471.unknown _1200139469.unknown _1200139466.unknown _1200139467.unknown _1200139465.unknown _1199704336.unknown _1200139456.unknown _1200139460.unknown _1200139462.unknown _1200139463.unknown _1200139461.unknown _1200139458.unknown _1200139459.unknown _1200139457.unknown _1200139452.unknown _1200139454.unknown _1200139455.unknown _1200139453.unknown _1200139448.unknown _1200139450.unknown _1200139451.unknown _1200139449.unknown _1199704338.unknown _1200139446.unknown _1200139447.unknown _1200139445.unknown _1200139444.unknown _1199704337.unknown _1199704333.unknown _1199704334.unknown _1199704332.unknown _1199704327.unknown _1199704329.unknown _1199704330.unknown _1199704328.unknown _1199704325.unknown _1199704326.unknown _1199704324.unknown _1199704315.unknown _1199704319.unknown _1199704321.unknown _1199704322.unknown _1199704320.unknown _1199704317.unknown _1199704318.unknown _1199704316.unknown _1199704311.unknown _1199704313.unknown _1199704314.unknown _1199704312.unknown _1199704309.unknown _1199704310.unknown _1199704308.unknown _1199693729.unknown _1199704291.unknown _1199704299.unknown _1199704303.unknown _1199704305.unknown _1199704306.unknown _1199704304.unknown _1199704301.unknown _1199704302.unknown _1199704300.unknown _1199704295.unknown _1199704297.unknown _1199704298.unknown _1199704296.unknown _1199704293.unknown _1199704294.unknown _1199704292.unknown _1199704281.unknown _1199704285.unknown _1199704287.unknown _1199704290.unknown _1199704286.unknown _1199704283.unknown _1199704284.unknown _1199704282.unknown _1199704277.unknown _1199704279.unknown _1199704280.unknown _1199704278.unknown_1199704273.unknown _1199704275.unknown _1199704276.unknown _1199704274.unknown _1199695293.unknown _1199704271.unknown _1199704272.unknown _1199695294.unknown _1199695292.unknown _1028119331.doc _1125128436.unknown _1136404756.unknown _1136557111.unknown _1162298136.unknown _1173721372.unknown _1199693728.unknown _1162299372.unknown _1136617270.unknown _1136557123.unknown _1136555773.unknown _1136557079.unknown _1136554956.unknown _1136404420.unknown _1136404584.unknown _1136404357.unknown _1123498631.unknown _1123498737.unknown _1123682659.unknown _1123684914.unknown _1123766907.unknown _1123766922.unknown _1123765124.unknown _1123765053.unknown _1123684666.unknown _1123684855.unknown _1123684567.unknown _1123682012.unknown _1123682550.unknown _1123499215.unknown _1123498664.unknown _1123498675.unknown _1123498643.unknown _1123496301.unknown _1123497906.unknown _1123498619.unknown _1123497896.unknown _1123483162.unknown _1123483179.unknown _1123483140.unknown _1123483091.unknown _1011194391.unknown _1011207768.unknown _1011370294.unknown _1011427211.unknown _1011964799.unknown _1011964957.unknown _1011964982.unknown _1011427319.unknown _1011427380.unknown _1011376352.unknown _1011376736.unknown _1011370311.unknown _1011370229.unknown _1011370243.unknown _1011370212.unknown _1011207207.unknown _1011207216.unknown _1011207193.unknown _1011185391.unknown _1011192352.unknown _1011192423.unknown _1011192065.unknown _1011185143.unknown _1011185230.unknown _1010914968.unknown
Compartilhar