Baixe o app para aproveitar ainda mais
Prévia do material em texto
AULA 1 - INTRODUÇÃO Estatística 1 CONSIDERAÇÕES GERAIS A Estatística exerce um papel crescente na atividade humana (científica, comercial ou governamental): • áreas econômicas (públicas ou privadas) → decisões importantes dependem do significado e da precisão de indicadores como taxas de desemprego, de crescimento econômico, de preços ao consumidor; • área agrícola → a adoção de novas técnicas depende de complexos esquemas de coleta e análise de dados; • área médica → a avaliação do sucesso da administração de tratamentos clínicos (vacinação) obedece a critérios estatísticos; 2 • estudos demográficos (crescimento populacional, migração) → contam com a fundamental contribuição dos métodos estatísticos; • estudos sociológicos ou políticos → só são possíveis porque a Estatística dispõem de métodos que possibilitam o estudo de populações enormes a partir de pequenos grupos. 3 • POPULAÇÃO – conjunto de todos os elementos com uma ou mais características em comum. • AMOSTRA – é uma parte representativa da população. Estatística ⇒ ferramenta necessária à compreensão dos fenômenos que ocorrem nas mais diferentes áreas. 4 SÍNTESE HISTÓRICA ORIGEM necessidade que o Estado Político tinha de conhecer os seus domínios. A Estatística é tão antiga quanto a humanidade Os fatos mais antigos de aplicação da Estatística datam: 5 − do antigo Egito → anualmente, efetuavam-se levantamentos cadastrais e censitários que permitiam conhecer a repartição de propriedades e dos bens para que fossem restituídos após as inundações do rio Nilo. 6 − da época do Império Romano → periodicamente eram feitos levantamentos dos bens para cobrança de impostos. 7 Metade do século XIX, a palavra estatística, derivada da palavra latina “status” (= estado), era utilizada basicamente para designar informações a respeito do Estado. O avanço no estudo do cálculo de probabilidades permitiu, contudo, que a Estatística fosse estruturada e ampliasse o seu campo de ação. 8 Um marco significativo no desenvolvimento da Estatística foram as publicações dos ingleses Graunt (1666) e Petty (1683) que deram início ao que hoje se chama demografia. Na mesma época, iniciou-se o cálculo das probabilidades a partir do interesse do matemático e filósofo francês Blaise Pascal em resolver jogos de azar. Em 1708, foi organizado o primeiro curso de estatística na Universidade de Yena na Alemanha. 9 Século XVIII, destacaram-se impulsionando o estudo das probabilidades: o suíço Bernoulli, os franceses Moivre e Laplace, o alemão Gauss, o astrônomo belga Quételet e os ingleses Galton e Pearson. 10 1920 à 1940 - foi ainda muito fecundo, contando com os estudos do inglês Fisher, que, entre as muitas contribuições que trouxe à estatística, criou a técnica da Análise da Variação, até hoje uma das mais importantes utilizadas na estatística. 11 Outro marco decisivo no desenvolvimento dos métodos estatísticos foi o advento da computação eletrônica, ferramenta que permitiu que a estatística alargasse ainda mais os seus horizontes. 12 ESTATÍSTICA NO BRASIL Início → com o domínio português→ saber dos recursos disponíveis, no Brasil, para exploração conveniente. Séculos XVII e XVIII → diversos levantamentos, principalmente em Minas Gerais, com relação a existência e a exploração de ouro. 1854→ fundação da 1a Sociedade Brasileira de Estatística. 1871 → criação da Diretoria Geral de Estatística, encarregada de fazer levantamentos da população brasileira. 1872→ 1o recenseamento geral do país. Instituto Brasileiro de Geografia e Estatística (IBGE) promove estudos de natureza estatística, visando permitir o conhecimento da realidade física, econômica e social do país, possibilitando assim, o planejamento econômico e social e a segurança nacional. 13 CONCEITO E DIVISÃO Estatística moderna é o conjunto de conceitos e métodos, fundamentados na matemática, que se preocupa com o processo de descrição e inferência, particularmente com: a eficiente sumarização dos dados; o planejamento e a análise de experimentos e levantamentos; a natureza dos erros de observação e outras causas que provocam variação em um conjunto de dados. Estatística é a matemática aplicada a dados de observação, na organização, descrição, análise e interpretação desses dados. � dados numéricos apresentados em tabelas e gráficos incluindo médias, porcentagens, etc. � parte do método científico instrumento auxiliar de real importância na pesquisa científica. 14 A Estatística pode ser dividida em duas partes principais: Estatística Descritiva ou Dedutiva: que tem como objetivo o resumo, a apresentação e a descrição dos dados de observação por meio de tabelas, de gráficos e de medidas, dentre as quais se destacam as medidas de posição e de dispersão. Estatística Analítica ou Inferência Estatística: que tem como objetivo fornecer métodos que proporcionem a realização de inferência sobre populações a partir de amostras dela provenientes, tendo por base o cálculo de probabilidades. Compreende basicamente dois grandes tópicos: a estimação de parâmetros e os testes de hipóteses. Conhecimento da população através de uma amostra. 15 LIMITAÇÕES DA ESTATÍSTICA � a estatística não serve para corrigir erros grosseiros, nem técnicas defeituosas; � a estatística não substitui o julgamento crítico; � os testes estatísticos não devem ser empregados para verificar hipóteses sugeridas apenas pela inspeção dos dados; � o emprego da estatística requer concordância satisfatória entre o modelo matemático utilizado e os dados reais obtidos. 16 AULA 2 – SÉRIES, TABELAS E GRÁFICOS Estatística 17 SÉRIES ESTATÍSTICAS - CONSIDERAÇÕES GERAIS Dado Estatístico: é a representação numérica de um fenômeno. a) dados de enumeração: dados obtidos através de contagem. Geralmente são números inteiros. b) dados de mensuração: referem-se à intensidade de uma grandeza contínua como peso, altura, tempo, volume, etc., são dados obtidos através de medições, dependem da precisão do instrumento de medida. SÉRIE ESTATÍSTICA: é o conjunto de dados estatísticos dispostos de acordo com o tempo, o local ou a espécie. 18 Estes3 fatores fundamentais se referem a: Tempo – data ou época que o assunto foi investigado. Local (ou espaço) – espaço geográfico ou região onde o fato ocorreu. Espécie – fato ou fenômeno que foi investigado e cujos valores numéricos estão sendo apresentados na tabela. 19 Série Temporal (Histórica, Cronológica ou Evolutiva) – varia o tempo, permanecendo fixos o local e a espécie do fenômeno estudado. Anos Número de casos 2000 61.435 2001 45.532 2002 7.934 2003 5.849 Tabela 1 – Casos notificados de sarampo no Brasil, de 2000 à 2003 Fonte: Anuários Estatísticos – IBGE. 20 Série Geográfica (Territorial ou de Localização) – varia o local, permanecendo fixos o tempo e a espécie do fenômeno estudado. Países Número de anos Itália 7,5 Alemanha 7,0 França 7,0 Holanda 5,9 Inglaterra 4,0 Tabela 2 – Duração média dos estudos superiores, 2004 Fonte: Revista Veja. 21 Série Especificativa (Qualitativa ou Categórica) – varia o fenômeno estudado, permanecendo fixos o local e o tempo. Alimentos Número de crianças Leite Artificial 25 Sucos 40 Sopas 46 Caldo de Feijão 56 Ovo 51 Tabela 3 – Introdução de novos alimentos à crianças de 3 a 6 meses de idade, em 2007 Fonte: Trabalho de alunos do Curso de Nutrição 22 Séries Mistas – varia mais de um fator. Receberá o nome de acordo com os fatores que variam, por exemplo, se variam o tempo e o local, a série será Temporal Geográfica ou Geográfica Temporal. Regiões Anos 1991 1992 1993Norte 342.938 375.658 403.494 Nordeste 1.287.813 1.379.101 1.486.649 Sudeste 6.234.501 6.729.467 7.231.634 Sul 1.497.315 1.608.989 1.746.232 Centro-oeste 713.357 778.925 884.822 Tabela 4 - Efetivo do rebanho bovino nas regiões do Brasil Fonte: Ministério das Comunicações 23 Causas Anos 1996 1997 1998 Doenças Infecciosas 17,9 16,8 16,4 Pneumonia 12,0 10,8 11,4 Causas perinatais 45,3 48,0 47,1 Tabela 5 – Mortalidade proporcional (%) em menores de 1 ano, segundo as três principais causas, no Brasil, de 1996-98. Fonte: Informe Epidemiológico SUS 24 Distribuição de Frequências – são séries onde não variam nenhum dos 3 fatores (tempo, local e espécie). Os dados são agrupados em classes com limites pré-estabelecidos. Classes Frequência 155 | 160 39 160 | 165 30 165 | 170 10 170 | 175 1 Total 80 Tabela 6 – Estatura de 80 alunos da Escola X, 1995 Fonte: dados fictícios 25 TABELAS Forma não discursiva de apresentar informações Dado numérico se destaca como informação central Finalidade: apresentar os dados numéricos de modo ordenado, simples e de fácil interpretação, fornecendo o máximo de informação num mínimo de espaço. Construção: deve obedecer uma série de normas técnicas (do IBGE - "Normas de Apresentação Tabular“ - orienta a apresentação racional e uniforme de dados estatísticos na forma tabular. 26 Elementos da tabela elementos essenciais Tabela Estatística elementos complementares ELEMENTOS ESSENCIAIS: * Título: é a indicação que precede a tabela contendo a designação do fato observado, do local e da época em que foi registrado. * Corpo: é conjunto de linhas e colunas onde estão inseridos os dados numéricos. * Cabeçalho: é a parte superior da tabela que indica o conteúdo das colunas. * Coluna indicadora: é a parte da tabela que indica o conteúdo das linhas. 27 Tabela: modelo IBGE Corpo Cabeçalho Título Rodapé 28 ELEMENTOS COMPLEMENTARES: * Fonte: entidade que fornece os dados ou elabora a tabela. * Notas: informações de natureza geral, destinadas a esclarecer o conteúdo das tabelas. * Chamadas: informações específicas destinadas a esclarecer ou conceituar dados numa parte da tabela. Deverão estar indicadas no corpo da tabela, em números arábicos entre parênteses. Os elementos complementares devem situar-se no rodapé da tabela, na mesma ordem em que foram descritos. 29 NÚMERO DA TABELA Uma tabela deve ter número para identificá-la, sempre que o documento apresentar uma ou mais tabelas, permitindo assim, a sua localização. A identificação da tabela deve ser feita em números arábicos, de modo crescente, precedidos da palavra Tabela, podendo ou não ser subordinada a capítulos ou seções de um documento. Exemplos: Tabela 5, Tabela 10.4 30 APRESENTAÇÃO DE DADOS NUMÉRICOS Toda tabela deve ter dado numérico para informar a quantificação de um fato específico observado, o qual deve ser apresentado em números arábicos. A parte inteira dos dados numéricos deve ser separada por pontos ou espaços de três em três algarismos, da direita para a esquerda. A separação da parte inteira da decimal deve ser feita por vírgula. Obs.: No sistema inglês, a separação da parte inteira é feita por vírgula, e a separação da parte inteira da decimal é feita por ponto, ou seja, é o inverso do sistema brasileiro. Algarismos romanos devem ser evitados, inclusive em datas 31 SINAIS CONVENCIONAIS Sempre que um dado numérico não puder ser apresentado, o mesmo deve ser substituído por um sinal convencional, como: a) - (traço): indica dado numérico igual a zero; b) ... (três pontos): indica dado numérico não disponível c) 0; 0,0 ou 0,00: indica dado numérico igual a zero resultante de arredondamento d) ?: quando há dúvida sobre a veracidade da informação Os sinais convencionais deverão ser apresentados em nota geral com seus respectivos significados. 32 ARREDONDAMENTO Quando o primeiro algarismo a ser abandonado for menor que 5, fica inalterado o último algarismo a permanecer. Quando o primeiro algarismo a ser abandonado for maior ou igual a 5, aumenta-se de uma unidade o último algarismo a permanecer. < 5 ≥ 5 33 UNIDADE DE MEDIDA TABELA unidade de medida, inscrita no cabeçalho ou nas colunas indicadoras, sempre que houver necessidade de se indicar, complementarmente ao título, a expressão quantitativa ou metrológica dos dados numéricos. INDICAÇÃO com símbolos ou palavras, entre parênteses. Exemplos: (m) ou (metros), (t) ou (toneladas), (R$) ou {reais). Dados numéricos divididos por uma CONSTANTE indicar por algarismos arábicos, símbolos ou palavras, entre parênteses, precedendo a unidade de medida, quando for o caso. Exemplos: (1.000 t): indica dados numéricos em toneladas que devem ser multiplicados por mil; (1.000 R$): indica dados numéricos em reais que devem ser multiplicados por mil; (%) ou (percentual): indica dados numéricos proporcionais a cem; (t/ 1.000): indica dados numéricos em toneladas divididos por 1.000. 34 CLASSE DE FREQUÊNCIA A classe de frequência é cada um dos intervalos não superpostos em que se divide uma distribuição de frequências. Toda classe deve ser apresentada, por extenso ou com notação. Toda classe que inclui o limite inferior do intervalo (Li) e exclui o limite superior (Ls), deve ser apresentada de uma destas duas formas: Li | Ls ou [Li; Ls) 35 Apresentação de tempo Série histórica consecutiva deve ser apresentada por seus pontos inicial e final, ligados por hífen (-). Exemplos: 1892-912: quando varia o século; 1960-65: quando variam os anos dentro do século; out 1991 - mar 1992: quando variam os meses dentro de anos. Série histórica não consecutiva deve ser apresentada por seus pontos inicial e final, ligados por barra (/). Exemplos: 1981 / 85: indica dados não apresentados para pelo menos um ano do intervalo; out 1991/ mar 1992: indica dados não apresentados para pelo menos um mês do intervalo. 36 Apresentação da tabela �O corpo da tabela deve ser delimitado, no mínimo, por três traços horizontais. � Recomenda-se não delimitar as tabelas a direita e à esquerda por traços verticais. �Quando, por excessiva altura, a tabela tiver que ocupar mais de uma página, não deve ser delimitada inferiormente, repetindo-se o cabeçalho na página seguinte. Deve-se usar no alto do cabeçalho a palavra continuação ou conclusão, conforme o caso. �A disposição da tabela deve estar na posição normal de leitura. Caso isso não seja possível, a apresentação será feita de forma que a rotação da página seja no sentido horário. 37 Unidade da Federação Total de estabelecimentos Pessoal ocupado Valor da produção1 (1.000 Cr$) Valor da transformação industrial (1.000 Cr$) Rondônia 1 x x X Acre 2 x x X Amapá - - - - Rio Grande do Sul 706 30.103 156.680 74.316 Mato Grosso do Sul 29 485 1.643 623 Paraná 449 11.118 43.797 22.014 Santa Catarina 305 10.816 84.294 41.894 São Paulo 4.699 272.983 2.531.363 939.0322 Rio de Janeiro 847 40.768 635.731 177.358 Tabela 7 – Total de estabelecimentos, pessoal ocupado, valor da produção e valor da transformação industrial das indústrias metalúrgicas, em algumas Unidade da Federação, em 1982 Fonte: Pesquisa Industrial, 1982-84. Dados gerais, Brasil, Rio de Janeiro: IBGE, v.9., 410 p. Nota: Sinal convencional utilizado: x dado numérico omitido - dado numérico igual a zero (1) Em 31.12.1982 (2) Inclui o valor dos serviços prestados a terceiros e a estabelecimentos da mesma empresa. 38 GRÁFICOS GRÁFICOS constituem-se numa das mais eficientes formas ilustradas de apresentação de dados estatísticos. GRÁFICO - FIGURA construída a partir de uma tabela; TABELA fornece uma idéiamais precisa e possibilita uma inspeção mais rigorosa aos dados; GRÁFICO mais indicado para situações que visem proporcionar uma impressão mais rápida e maior facilidade de compreensão do comportamento do fenômeno em estudo. Os gráficos e as tabelas se prestam, portanto, a objetivos distintos, de modo que a utilização de uma forma de apresentação não exclui a outra. 39 NORMAS GERAIS PARA REPRESENTAÇÃO GRÁFICA 1) os gráficos devem ser claros, simples e verídicos; 2) os gráficos, geralmente, são construídos num sistema de eixos chamado sistema cartesiano ortogonal. A variável independente é localizada no eixo horizontal (abcissas), enquanto a variável dependente é colocada no eixo vertical (ordenadas). O início da escala deverá ser sempre zero, ponto de encontro dos eixos; 3) Iguais intervalos para as medidas deverão corresponder a iguais intervalos para as escalas. As unidades utilizadas devem estar expressas no desenho; 4) o gráfico deverá possuir título, fonte, notas e legenda, ou seja, toda a informação necessária à sua compreensão, sem auxílio do texto. 5) o gráfico deverá possuir formato, aproximadamente, quadrado para evitar que problemas de escala interfiram na sua correta interpretação. 40 Tipos de gráficos ESTEREOGRAMAS CARTOGRAMAS PICTOGRAMAS DIAGRAMAS 41 ESTEREOGRAMAS São gráficos onde as grandezas são representadas por volumes. Geralmente, são construídos num sistema de eixos bidimensional, mas podem ser construídos num sistema tridimensional para ilustrar a relação entre três variáveis. 42 CARTOGRAMAS Representações em cartas geográficas (mapas). 43 PICTOGRAMAS OU GRÁFICOS PICTÓRICOS São gráficos puramente ilustrativos, construídos de modo a ter grande apelo visual, dirigidos a um público muito grande e heterogêneo. Não devem ser utilizados em situações que exijam maior precisão. 44 DIAGRAMAS São gráficos geométricos de duas ou três dimensões, de fácil elaboração e grande utilização. Podem ser ainda subdivididos em gráficos de: Colunas Barras Linhas Setores Pirâmides 45 Gráfico de colunas Grandezas são comparadas através de retângulos de mesma largura, dispostos verticalmente e com alturas proporcionais às grandezas. Distância entre os retângulos deve ser, no mínimo, igual a 1/2 e, no máximo, 2/3 da largura da base dos mesmos (para não dar aspecto de continuidade). Fator que varia for o tempo - retângulos devem ser dispostos na ordem cronológica e, quando não for o tempo - devem ser dispostos na ordem de grandeza, para facilitar a leitura e a comparação dos valores. Gráficos de coluna são mais utilizados quando as inscrições a serem inseridas sob os retângulos forem curtas. 46 0 2 4 6 8 10 12 Japão Rússia China Perú Maiores pescadores mundiais em 1975 (em milhões de toneladas) 0 100 200 300 400 500 600 700 1991 1992 1993 1994 1995 1996 Lucros totais, dividendos e lucros retidos de uma empresa, 1991/96 (US$ milhões) Lucros Dividendos Lucros Retidos 47 Gráfico de barras ⌦Mesmas instruções que o gráfico de colunas. ⌦ Diferença é que os retângulos são dispostos horizontalmente. ⌦ Usado quando as inscrições dos retângulos forem maiores que a base dos mesmos. ⌦ Mais utilizados para representar séries especificativas e geográficas. 48 49 Gráfico de linhas � Os pontos são dispostos no plano de acordo com suas coordenadas � São ligados por segmentos de retas � Utilizado em séries históricas e em séries mistas quando um dos fatores de variação é o tempo, como instrumento de comparação. 50 51 52 Gráfico de setores (ou de pizza) � Recomendado para situações em que se deseja evidenciar o quanto cada informação representa do total. � A figura consiste num círculo onde o total (100%) representa 360°, subdividido em tantas partes quantas forem necessárias à representação. 53 Etapas para a construção de um gráfico de setores: 1. Calcular o percentual correspondente a cada valor observado, por meio de uma regra de três simples; 2. Calcular o ângulo correspondente ao percentual de cada valor observado; 3. Construir uma circunferência de raio qualquer; 4. Efetuar a marcação dos ângulos correspondentes a cada divisão, com o auxílio de um transferidor, no sentido horário. 54 55 Outros tipos de gráficos podem ser feitos através de programas gráficos como o Excel ou de planilhas eletrônicas. 56 GRÁFICO DE ÁREAS 57 GRÁFICO DE CILINDROS 58 GRÁFICO DE ROSCA 75% 18% 7% Hopitalizações pagas pelo SUS, segundo a natureza do prestador de serviço, em 1993 Privado Público Universitário 59 GRÁFICO DE CONES 60 GRÁFICO EM BARRAS FLUTUANTES 61 GRÁFICO EM PIRÂMIDES 62 GRÁFICO EM LINHAS COLORIDAS 63 AULA 3 – MEDIDAS DESCRITIVAS Estatística 64 MEDIDAS DESCRITIVAS OU ESTATÍSTICAS Em muitas situações são exigidas medidas que caracterizem mais precisamente um conjunto de dados. As medidas descritivas têm como objetivo a redução dos dados a um pequeno número de valores chamado estatísticas fornecendo informações com referência à população. 65 Uma estatística deverá ter as seguintes características: a) ser representativa; b) ser de fácil interpretação; c) prestar-se a um tratamento estatístico mais elaborado, em etapas posteriores; d) ter qualidades que a credencie a ser a melhor representante do parâmetro, ou seja, do valor correspondente na população, geralmente desconhecido. 66 As MEDIDAS DESCRITIVAS dividem-se em 4 grupos: �medidas de posição � medidas de dispersão � assimetria � curtose 67 MEDIDAS DE POSIÇÃO E DE DISPERSÃO 68 MEDIDAS DE POSIÇÃO Em um conjunto de dados, os valores são mais numerosos em torno de um valor central e mais raros nos extremos. Essa maior concentração em torno de um valor central sugere que se calcule medidas de posição ou de tendência central que são: a MÉDIA ARITMÉTICA, a MEDIANA e a MODA. 69 As medidas de posição ou de tendência central tem como objetivo representar o ponto de equilíbrio ou o centro de uma distribuição. 70 Notação de somatório Às vezes, precisamos escrever expressões que envolvem somas com muitos termos. Por exemplo a soma dos 100 primeiros números naturais: 1, 2, 3, 4, ..., 100. Simbolizando por xi o i-ésimo termo da soma e n o número total de termos, temos que: Ex: Calcular o somatório do conjunto de valores: {20; 30; 15; 40; 10; 25} ∑ = ++++= n 1i n321i x...xxxx 71 Propriedades dos somatórios 1ª) Se cada elemento da série é multiplicado por uma constante, os elementos podem ser somados e a soma multiplicada pela constante. ∑∑ == = n i i n i i xcxc 11 .. ( ) ∑∑ == =++++=++++= n 1i in321n32 n 1i 1i x.cx...xxxcx.c...x.cx.cx.cx.c 72 2ª) A soma de uma constante sobre n termos é igual a n vezes a constante. ∑ = = n ni c.nc 3ª) O somatório da soma (ou da diferença) é igual a soma (ou a diferença) de somatórios. ∑∑∑ === +=+ n 1i i n 1i i n 1i ii yx)yx( 73 MEDIDAS DE POSIÇÃO dados não agrupados 74 MÉDIA ARITMÉTICA ( ) É a medida mais conhecida pela facilidade de uso, de cálculo e de compreensão. Utiliza para o seu cálculo todos os valores do conjunto de observações. Existe somente uma média aritmética para cada conjunto de observações. X n x X n 1i i∑ = = Ex: Calcule a média aritmética para o conjunto de valores: {9; 7; 5; 10; 4} 75 Propriedades da média aritmética 1ª) A soma algébrica dos desvios de um conjunto de valores em relação a suamédia aritmética é nula, ou seja: ∑ = =− n 1i i 0)Xx( 2ª) A soma dos quadrados dos desvios de um conjunto de valores em relação a sua média aritmética é mínima, ou seja: ∑∑ == −<− n 1i 2 i n 1i 2 i )Kx()Xx( para qualquer K ≠X 76 MÉDIA ARITMÉTICA PONDERADA ( ) Quando as observações x1, x2, x3, ..., xn foram associadas à pesos p1, p2, p3, ..., pn, a média aritmética ponderada será dada por: pX ∑ ∑ = = = ++++ ++++ = n 1i i n 1i ii n321 nn332211 p p px p...ppp px...pxpxpx X ∑ ∑ = = = n 1i i n 1i ii p p px X Ex: Um aluno de Matemática recebeu notas 6; 7; 6; 8; 7,5 em 5 avaliações durante o semestre cujos pesos são, respectivamente: 25 %; 12,5 %; 25 %; 12,5 % e 25 %. Pergunta-se qual a média final deste aluno? 77 MEDIANA (Md) A mediana de um conjunto de valores “ordenados” será o valor que se encontra no centro, ou seja, que é precedido ou sucedido pelo mesmo número de valores. Devemos considerar 2 casos n par n ímpar 78 Quando n (número de observações) é ÍMPAR, então: é a posição que ocupa a mediana no conjunto de valores ordenados. Ex: Calcular a mediana para o conjunto de valores {9; 7; 5; 10; 4} 2 1nP += 79 Quando n (número de observações) é PAR, calcula-se uma posição P1 e outra P2: A mediana será a média aritmética dos valores que se encontram nas duas posições: 2 PnaestáquevalorPnaestáquevalor Md 21 += Ex: Calcular a mediana para o conjunto de valores {3; 5; 4; 8; 3; 9} 2 nP1 = 2 2nP2 + = 80 MODA (Mo) É o valor mais frequente, ou seja, é o que ocorre mais vezes em um conjunto de dados. É a única medida que pode não existir, ser única ou pode existir mais de uma moda. Ex: � 2; 3; 7; 5; 7; 5; 8; 7; 9 � 5, 7, 8, 3, 9, 1, 4 � 1, 3, 4, 4, 5, 1, 3, 5 � 1, 3, 4, 5, 4, 8, 6, 8 81 QUARTIS (Q) Os quartis são medidas separatrizes. Conjunto de dados “ordenados” é ÷ em 4 partes iguais. Existem 2 quartis. Q1 (primeiro quartil) – é o valor que antecede 25 % da freqüência abaixo dele e sucede 75 %. Q2 (segundo quartil) – é o valor que divide o conjunto de dados em duas partes iguais. É igual ao valor mediano. Q3 (terceiro quartil) – é o valor que antecede 75 % da freqüência abaixo dele e sucede 25 %. 82 n par: n ímpar: Ex: Calcular os quartis para os conjuntos de valores a) {185; 196; 207; 305; 574; 597; 612} b) {10; 12; 12; 16; 20; 23; 25; 28} 4 2n3P3 + = 4 2nP1 + = 4 2n2P2 + = 4 1nP1 + = 4 )1n(2P2 + = 4 )1n(3P3 + = 83 DECÍS (D) Conjunto de dados “ordenados” é ÷ em 10 partes iguais. Simbolizadas por: D1, D2, ..., D9 ... 10 1nD1 + = 10 )1n(2D2 + = 10 )1n(9D9 + = 84 CENTÍS ou PERCENTÍS (P) Conjunto de dados “ordenados” é ÷ em 100 partes iguais. Simbolizadas por: P1, P2, ..., P9 ...100 1nP1 + = 100 )1n(2P2 + = 100 )1n(99P99 + = 85 MEDIDAS DE DISPERSÃO dados não agrupados Complementam as informações fornecidas pelas medidas de posição. Servem para indicar o quanto os dados se apresentam dispersos em torno da região central de um conjunto de valores, o que caracteriza o grau de variação desse conjunto. 86 AMPLITUDE TOTAL (At) ⌦ É uma medida de variação muito simples ⌦ Diferença entre o maior e o menor valor de um conjunto de observações. ⌦ Dá uma ideia da variação, visto que utiliza só dois valores de todo o conjunto de observações para ser calculada. mínmáx xxAt −= Ex: Calcular a amplitude total para o conjunto de valores: {10; 13; 9; 5; 7; 6} 87 Média do quadrado dos desvios de um conjunto de valores em relação a sua média aritmética Fórmula de definição ∴ Fórmula prática VARIÂNCIA (s2) 1 )( 1 2 2 − − = ∑ = n Xx s n i i 1n n )x( x s n 1i 2 in 1i 2 i 2 − − = ∑ ∑ = = 88 1n )XXx2x( 1n )Xx( s 2 ii 2 i2 − +− = − − = ∑∑ 1n XXx2x 2 i 2 i − +− = ∑ ∑ ∑ 1n 1 n x nx n x 2x 2 i i i2 i − ⋅ + −= ∑ ∑ ∑∑ ( ) 1n 1 n x xx n 2 x 2 i iii − ⋅ +−= ∑ ∑ ∑ ∑ ( ) ( ) 1n 1 n x n x 2x 2 i 2 i2 i − ⋅ +−= ∑ ∑∑ 1n n )x( x s 2 i2 i 2 − − = ∑ ∑ ∴ 1n XnxX2x 2 i 2 i − +− = ∑ ∑ 2 2 89 Ex.: Calcular a variância para o conjunto de observações, utilizando as duas fórmulas: {5; 8; 10; 12; 15} 1 )( 1 2 2 − − = ∑ = n Xx s n i i 1n n )x( x s n 1i 2 in 1i 2 i 2 − − = ∑ ∑ = = 90 DESVIO PADRÃO (S) ☺ É a raiz quadrada da variância. ☺ Utiliza-se o desvio padrão para interpretar os resultados, visto que, as unidades ficam elevadas ao quadrado na variância. 2ss = Ex.: Para o conjunto de observações, calcule o desvio padrão {5; 8; 10; 12; 15} 91 92 COEFICIENTE DE VARIAÇÃO (CV) É definido como a razão percentual entre o desvio padrão (s) e a média aritmética ( ).X 100. X sCV =É expresso em porcentagem,portanto, independe da unidade de medida, sendo assim, é muito útil para comparar grupos de valores expressos em unidades de medida diferentes ou que tenham médias diferentes. É uma medida adequada para comparação entre conjuntos de valores. Ex.: Duas turmas A e B de uma mesma disciplina apresentaram: turma A, média 68 e turma B, média 85. As variâncias foram 225 e 235, respectivamente, para as turmas A e B. Qual é a turma mais homogênea? 93 94 OBSERVAÇÃO Tanto as medidas de posição quanto as de variação devem ser expressas na mesma unidade dos valores originais (kg, m, h, L, alunos, ...). Somente a variância possui a unidade elevada ao quadrado. 95 AULA 4 - DISTRIBUIÇÃO DE FREQUÊNCIAS Estatística 96 CONCEITOS FUNDAMENTAIS Variável – característica ou fator a ser estudado, representado por letras maiúsculas: X, Y, Z... Dado ou observação – representação numérica de uma variável, representado por letras minúsculas: x1, x2, x3, ..., xn As variáveis podem ser divididas em dois grupos: variáveis quantitativas e variáveis qualitativas 97 1º) Variáveis quantitativas – são as que descrevem quantidades, magnitudes mensuráveis. Podem ser divididas em contínuas ou discretas. Variáveis contínuas – são aquelas usadas para descrever dados contínuos, isto é, aquelas que podem teoricamente assumir qualquer valor de um subconjunto dos números reais. Dependem da precisão do instrumento de medida. Ex.: Z = {quantidade de leite, em kg, em duas ordenhas, de 5 vacas holandesas, aos 6 anos} X = {teor de gordura no leite} 98 Variáveis discretas – são aquelas que assumem apenas determinados valores no campo dos reais. Se forem originadas de processo de contagem assumirão valores inteiros. Ex.: Z = {número de semente germinadas, por vaso, após 2 semanas de plantio} Y = {número de medicamentos com prazo de validade vencido} 99 2º) Variáveis qualitativas – são utilizadas para descrever qualidades, categorias, atributos, etc. Podem ser classificadas em ordinais e nominais. Variáveis ordinais – quando houver um sentido de ordenação em seus valores. Ex.: X = {conceito obtido pelos alunos em Estatística}= {ruim, médio, bom, ótimo} T = {classe de renda dos operários do bairro B} = {baixa, média baixa, média, média alta, alta}100 Variáveis nominais – quando não houver sentido de ordenação. Ex.: Y = {sexo} ={masculino, feminino} Z = {raça de bovinos da estância E} = {holandês, nelore, zebu} 101 DISTRIBUIÇÃO DE FREQUÊNCIAS ☺ É utilizada para organizar dados provenientes de medições, onde os mesmos serão distribuídos em classes pré- estabelecidas, com limites bem definidos. A distribuição de frequências é uma série estatística onde permanecem fixos o tempo, o local e a espécie. É um arranjo dos valores observados em uma tabela com suas respectivas frequências. A organização dos dados estatísticos em classes tem como objetivo diminuir o tamanho da tabela e facilitar a visualização da variação do fenômeno em estudo. ☺ ☺ ☺ 102 Ex: Trinta estudantes foram submetidos a uma prova de Estatística, obtendo as seguintes notas: Agrupe os dados em intervalos de classe, determinando as frequências absoluta ( Fj ), absoluta acumulada ( ), relativa ( fj ) e relativa acumulada ( ) e represente-os graficamente. 84 93 83 89 70 81 83 90 94 90 95 77 99 91 80 98 77 81 88 83 92 94 86 86 87 78 76 92 76 87 ' jF ' jf 103 CONSTRUÇÃO DE UMA DISTRIBUIÇÃO DE FREQUÊNCIAS Primeiro, nós temos os DADOS BRUTOS, ou seja, os dados desorganizados conforme foram coletados na pesquisa. Para construir uma distribuição de frequências devemos seguir os seguintes passos: 104 1º) Organizar o ROL, ou seja, colocar os dados em ordem crescente de grandeza; 70 76 76 77 77 78 80 81 81 83 83 83 84 86 86 87 87 88 89 90 90 91 92 92 93 94 94 95 98 99 105 2º) Determinar o número de classes (nc) que será função do tamanho da amostra. O nc não deve ser muito pequeno ao ponto de perdemos informações, nem muito grande para que não sejamos repetitivos. Para calcular o nc usamos a Fórmula de Sturges: nc = 1 + 3,32 log n Onde: n é o número de observações (tamanho da amostra) Se nc não for inteiro ⇒ arredondar para o inteiro MAIOR 106 3º) Calcular o intervalo de classe (i) que é a diferença entre os limites inferior e superior de cada classe: Se i não for inteiro ⇒ arredondar para o inteiro MAIOR nc LL nc Ati is − == 107 8,4 6 29 6 7099 nc LiLs nc Ati ==−=−== nc = 1 + 3,32 log n = 1 + 3,32 log 30 = 1 + (3,32 x 1,48) = 5,9 nc = 6 i = 5 108 4º) Montar a tabela de distribuição de frequências: � o limite inferior da 1ª classe deve coincidir com o limite inferior do ROL; � o limite superior da 1ª classe será igual ao limite inferior mais o intervalo de classe (Ls = Li + i); � o limite inferior da 2ª classe será igual ao limite superior da 1ª classe e assim, sucessivamente; � as classes devem apresentar intervalo fechado à esquerda e aberto à direita ( | ) para evitar que um dado esteja em duas classes ao mesmo tempo. 109 j Classes 1 70 | 75 2 75 | 80 3 80 | 85 4 85 | 90 5 90 | 95 6 95 | 100 Σ Tabela 1 – Distribuição de frequências das notas de 30 estudantes em uma prova de Estatística 110 5º) Após elaborarmos as classes, vamos colocar na tabela as seguintes colunas: a) Centro de classe (cj) – é o ponto médio entre o Li e o Ls da classe j, ou seja, é a média aritmética entre Li e Ls: b) Frequência absoluta (Fj) – conta-se no ROL, o número de observações que existem entre os limites da classe j. c) Frequência absoluta acumulada ( ) – soma-se a frequência absoluta da classe j com as frequências absolutas das classes anteriores. 2 LL c isj + = ' jF 111 d) Frequência relativa (fj) – obtida pela divisão da frequência absoluta da classe “j” pelo número total de observações, ou seja: É bom observar que: - a frequência relativa representa a proporção de observações de um valor ou de uma classe em relação ao número total de observações; - a soma das frequências relativas é igual a 1 ou 100 %. e) Frequência relativa acumulada ( ) – soma-se a frequência relativa da classe “j” com as frequências relativas das classes anteriores. n F f jj = ' jf 112 j Classes cj Fj F’j f j f’j 1 70 | 75 72,5 1 1 0,03 0,03 2 75 | 80 77,5 5 6 0,17 0,20 3 80 | 85 82,5 7 13 0,23 0,43 4 85 | 90 87,5 6 19 0,20 0,63 5 90 | 95 92,5 8 27 0,27 0,90 6 95 | 100 97,5 3 30 0,10 1,00 Σ − 30 − 1,00 − Tabela 1 – Distribuição de frequências das notas de 30 estudantes em uma prova de Estatística 113 GRÁFICOS DA DISTRIBUIÇÃO DE FREQUÊNCIAS a) Histograma ⌦ utiliza um sistema de coordenadas cartesianas onde as grandezas são representadas por retângulos contíguos (um ao lado do outro). ⌦ as bases dos retângulos são proporcionais ao intervalo de classe e as alturas proporcionais as frequências absolutas. ⌦ pode representar de forma gráfica a frequência relativa e as frequências absolutas e relativas acumuladas. 114 0 1 2 3 4 5 6 7 8 9 70-75 75-80 80-85 85-90 90-95 95-100 Notas de 30 estudantes em uma prova de Estatística Limites de classe Fj 115 116 b) Polígono de frequências � utiliza um sistema de coordenadas cartesianas � definido como uma linha poligonal fechada em relação ao eixo das abscissas � é a união dos pontos médios das bases superiores dos retângulos que compõem o histograma. 117 0 1 2 3 4 5 6 7 8 9 67,5 72,5 77,5 82,5 87,5 92,5 97,5 102,5 Fj Centros de classe Notas de 30 estudantes em uma prova de Estatística 118 Medidas de posição para dados agrupados em classes a) Média aritmética ponderada ( )pX n cF X k 1j jj p ∑ = = onde: k – número de classes n – número de observações =pX 50,8630 00,595.2 = 119 b) Mediana (Md) onde: Li – limite inferior da classe mediana P – é o ponto central do Rol, ou seja: F’ – é a frequência absoluta acumulada da classe imediatamente anterior à classe mediana Fmed – é a frequência absoluta da classe mediana i – intervalo de classe CLASSE MEDIANA – é a classe que deverá conter o elemento central do ROL (onde a frequência relativa acumulada é de 50 %). i. F FPLMd med ' i − += 2 1nP += 120 Mediana (Md) i. F FPLMd med ' i − += 08,8708,2855. 6 135,1585 =+= − += 2 1nP += 5,152 130 = + = Classe mediana = 4ª 121 c) Moda (Mo) onde: Li – limite inferior da classe modal ∆1 – diferença entre a frequência absoluta da classe modal e a frequência absoluta da classe imediatamente anterior ∆2 - diferença entre a frequência absoluta da classe modal e a frequência absoluta da classe imediatamente posterior i – intervalo de classe CLASSE MODAL – é a classe de maior frequência absoluta. i.LMo 21 1 i ∆+∆ ∆ += 122 Moda (Mo) = ∆+∆ ∆ += iLMo i . 21 1 Classe modal = 5ª 43,9143,1905.)38()68( )68(90 =+= −+− − + 123 a) Variância (s2) (Temos duas fórmulas como no caso dos dados isolados) Definição Prática 1n n )cF( cF s k 1j 2 jjk 1j 2 jj 2 − − = ∑ ∑ = = Medidas de variação para dados agrupados em classes 1n )Xc(F s k 1j 2 pjj 2 − − = ∑ = onde: k – número de classes n – número de observações 124 b) Desvio padrão (s) c) Coeficiente de variação (CV) 2ss = 100. X sCV p = Ex.: Para a distribuição de frequências construída, calcule todas as medidas de posição e de dispersão. 125 j Classes cj Fj Fjcj Fjcj2 1 70 | 75 72,5 1 72,5 5.256,25 196,00 2 75 | 80 77,5 5 387,5 30.031,25 405,00 3 80 | 85 82,57 577,5 47.643,75 112,00 4 85 | 90 87,5 6 525,0 45.937,50 6,00 5 90 | 95 92,5 8 740,0 68.450,00 288,00 6 95 | 100 97,5 3 292,5 28.518,75 363,00 Σ − 30 2.595,0 225.837,50 1.370,00 Tabela 1 – Distribuição de frequências das notas de 30 estudantes em uma prova de Estatística 2 jj )( xcF − pX s2 126 Variância (s2) 1n )Xc(F s k 1j 2 pjj 2 − − = ∑ = 24,47 29 370.1 == OU 1n n )cF( cF s k 1j 2 jjk 1j 2 jj 2 − − = ∑ ∑ = = 24,47 29 370.1 130 30 )0,595.2(50,837.225 2 == − − = 127 Desvio padrão (s) Coeficiente de variação (CV) 2ss = 87,624,47 == 100. X sCV p = %95,7100.50,86 87,6 == 128 ASSIMETRIA indica se existem mais observações à esquerda, à direita ou se a distribuição das observações se processa mais uniformemente à esquerda ou à direita da posição de referência, normalmente a média aritmética. indica o grau e a direção do afastamento da simetria. 129 Momentos são quantidades calculadas com o propósito de se estudar a distribuição. O momento de ordem r centrado num valor a é dado por: n )ax( m n 1i r i r ∑ = − = n )ac(F m n 1i r jj r ∑ = − =Distribuição de frequências 130 Dois valores geram MOMENTOS importantes em um conjunto de valores: a=0→momentos centrados na origem chamados ORDINÁRIOS de ordem r ( ) a= →momentos centrados na média chamados momentos de ordem r (mr) ' rm X 131 O coeficiente de assimetria (a3) utiliza o segundo e o terceiro momento centrados na média: 22 3 3 mm m a = n )Xc(F m 2 pjj 2 ∑ − = n )Xc(F m 3 pjj 3 ∑ − = 132 Classificação 1º) |a3| ≤ 0,5 – a distribuição é simétrica, não havendo predominância de valores nem à direita, nem à esquerda da média. = Md = MoX 133 2º) a3 > 0 – a distribuição é assimétrica positiva ou há predominância dos valores à esquerda da média. a3 < 0 – a distribuição é assimétrica negativa ou há predominância dos valores à direita da média. <Md < Mo>Md > MoX X 134 j Classes cj 1 70 | 75 72,5 1 196,00 - 2.744,00 38.416,00 2 75 | 80 77,5 5 405,00 - 3.645,00 32.805,00 3 80 | 85 82,5 7 112,00 -448,00 1.792,00 4 85 | 90 87,5 6 6,00 6,00 6,00 5 90 | 95 92,5 8 288,00 1.728,00 10.368,00 6 95 | 100 97,5 3 363,00 3.993,00 43.923,00 Σ − 30 1.370,00 -1.110,00 127.310,00 2 jj )( xcF −jF 3jj )( xcF − 4jj )( xcF − ppp Tabela 1 – Distribuição de frequências das notas de 30 estudantes em uma prova de Estatística 135 Assimetria (a3) 22 3 3 mm m a = 12,0 73,308 00,37 76,667,45 00,37 30 370.1 30 370.1 30 00,110.1 −= − = − = − = x a3 = - 0,12 SIMÉTRICA 136 CURTOSE É o grau de achatamento de uma distribuição. Uma curva pode apresentar-se mais achatada ou mais afilada em relação à curva padrão ou normal. 137 O coeficiente de curtose é definido por: 2 2 4 4 m m a = n )Xc(F m 2 pjj 2 ∑ − = n )Xc(F m 4 pjj 4 ∑ − = 138 As distribuições são classificadas em: a4 < 3 – distribuição platicúrtica (c) a4 = 3 – distribuição mesocúrtica (b) a4 > 3 – distribuição leptocúrtica (a) 139 2 2 4 4 m m a = Curtose (a4) 03,2 75,085.2 67,243.4 30 370.1 30 00,310.127 2 == = a4 = 2,03 PLATICÚRTICA 140 Ex.: Calcule os coeficientes de assimetria e de curtose para a distribuição de frequências das notas de 30 estudantes na prova de Estatística (exemplo anterior). “A curva normal padrão é simétrica e mesocúrtica” 141 AULA 5 – CORRELAÇÃO E REGRESSÃO LINEAR Estatística 142 CORRELAÇÃO LINEAR SIMPLES * É o estudo do grau de relação entre duas variáveis X e Y * Ao verificar a inter-relação queremos verificar também, se ao variar uma das variáveis a outra varia e, se varia, é no mesmo sentido ou no sentido inverso. Exemplos: - aumento de peso de cobaias e quantidade de ração consumida; - temperatura e pressão de um gás; - quantidade de adubo e produtividade de lavouras; - peso e altura de pessoas adultas. 143 Correlação Simples - quando se trata de duas variáveis � Correlação positiva – se X e Y variam no mesmo sentido (X↑ Y ↑ ) � Correlação negativa – se T e Z variam em sentido contrário (T↑Z↓ ou T↓ Z↑) Correlação Múltipla – mais de duas variáveis Correlação Linear - se ao localizarmos os pontos em um diagrama de dispersão, observarmos a tendência de proximidade de uma RETA. 144 ( ) ( ) − − − = ∑ ∑∑ ∑ ∑ ∑ ∑ n y y n x x n yx yx r i i i i ii ii 2 2 2 2 A correlação pode ser medida por um coeficiente “r”, chamado COEFICIENTE DE CORRELAÇÃO LINEAR DE PEARSON e independe das unidades de medida, cuja expressão é: onde: x e y são os valores das variáveis consideradas n é igual ao número de pares de variáveis 145 Propriedades de r 1º) r deve satisfazer a desigualdade: ; 2º) r será igual a –1 ou +1, se, e somente se, todos os pontos da dispersão estiverem numa linha reta; 1r1 +≤≤− 146 3º) se r for maior que zero (r > 0), a relação entre X e Y é direta, isto é, à medida que X cresce, Y cresce; 4º) se r for menor que zero (r < 0), a relação entre X e Y é inversa, isto é, à medida que X cresce, Y decresce. 147 r < 0 r >0 r ≅ 0 148 Ex.: Ao final do primeiro período letivo de um curso universitário, as seguintes médias de notas foram obtidas por 12 alunos e comparadas com o teste de QI que também estão na Tabela 1. Calcule o Coeficiente de Correlação Linear de Pearson para esses dados. 149 Alunos Notas (x) QI (y) 1 2,1 116 243,6 4,41 13.456 2 2,2 129 283,8 4,84 16.641 3 3,1 123 381,3 9,61 15.129 4 2,3 121 278,3 5,29 14.641 5 3,4 131 445,4 11,56 17.161 6 2,9 134 388,6 8,41 17.956 7 2,9 126 365,4 8,41 15.876 8 2,7 122 329,4 7,29 14.884 9 2,1 114 239,4 4,41 12.996 10 1,7 118 200,6 2,89 13.924 11 3,3 132 435,6 10,89 17.424 12 3,5 129 451,5 12,25 16.641 Σ 32,2 1.495 4.042,9 90,26 186.729 iiyx 2ix 2 iy Tabela 1 - Notas foram obtidas por 12 alunos de um Curso Universitário comparadas com o teste de QI no primeiro período letivo 150 ( ) ( ) 73,09,47686,3 32,31 12 1495729.186 12 2,3226,90 12 495.12,329,042.4 22 == − − − = x x r r = 0,73 r > 0 a relação entre X e Y é direta, isto é, à medida que X cresce, Y cresce ( ) ( ) − − − = ∑ ∑∑ ∑ ∑ ∑ ∑ n y y n x x n yx yx r i i i i ii ii 2 2 2 2 151 O chamado coeficiente de determinação, mede o modo de associação de duas variáveis. CD = (R²).100 Quanto maior o CD em termos percentuais, maior é a relação existente entre as variáveis estudadas. Voltando ao exemplo anterior, o CD = 53,29 % (% de correlação entre as variáveis estudadas. COEFICIENTE DE DETERMINAÇÃO (CD) 152 REGRESSÃO LINEAR SIMPLES É o estudo da relação linear entre duas variáveis X e Y X é a variável independente, fixa, sem erro experimental Y é a variável dependente, aleatória, sujeita a erro experimental A Regressão mede as relações de causa e efeito Em um sistema de coordenadas cartesianas é possível visualizar a tendência dos dados, para que verifiquemos se essa tendência pode ser representada por uma CURVA ou uma RETA. 153 Se a relação for expressa por uma função linear chama-seREGRESSÃO LINEAR : Uma variável independente (REGRESSÃO LINEAR SIMPLES) Mais de uma variável independente (REGRESSÃO LINEAR MÚLTIPLA) 21 2 2 2 1 3341740)( xxxxYE −−−= 154 O estudo da relação entre X e Y é expresso pelo modelo matemático (EQUAÇÃO DA RETA): onde: Yi observação da variável dependente Y no i-ésimo par (xi, yi); Xi é a i-ésima observação da variável independente X do par (xi,, yi); A é o coeficiente linear, isto é, a altura em que a reta corta o eixo do Y; B é o coeficiente angular, que é o aumento ou decréscimo que sofre a variável Y quando acrescentamos a variável X de uma unidade; ei é o erro experimental associado a cada observação Yi. iii eBXAY ++= 155 onde: e são as estimativas dos parâmetros A e B, obtidas através do Método dos Mínimos Quadrados, que torna mínima a soma de quadrados dos desvios, ou seja: deve ser mínima.2ii 2 i )YˆY(eˆ ∑∑ −= A e B são os parâmetros do modelo matemático. A função linear estimada é dada pela equação: ii XBˆAˆYˆ += Aˆ Bˆ 156 MÉTODO DOS MÍNIMOS QUADRADOS ∑ ∑ ∑ ∑ ∑ − − = n )x( x n yx yx Bˆ 2 i2 i ii ii onde: n é o número de pares (xi, yi) XBˆYAˆ −= 157 Ex.: Considere o seguinte conjunto de pares de valores (xi, yi) onde X=pH e Y=notas (x 10), atribuídas a um determinado produto: X Y (valores ajustados) 4,0 33 132,0 16,00 35,321 4,5 42 189,0 20,25 40,071 5,0 45 225,0 25,00 44,821 5,5 51 280,5 30,25 49,571 6,0 53 318,0 36,00 54,321 6,5 61 396,5 42,25 59,071 7,0 62 434,0 49,00 63,821 38,5 347 1.975,0 218,75 iiyx 2ix Y ˆ 158 5,9 7 )5,38(75,218 7 3475,38975.1 ˆ 2 = − − = x B 5,5 7 5,38X == 57,49 7 347Y i == 68,2)5,5x5,9(57,49Aˆ −=−= ii X5,968,2Yˆ +−=Equação de regressão ∑ ∑ ∑ ∑ ∑ − − = n )x( x n yx yx Bˆ 2 i2 i ii ii XBˆYAˆ −= 159 Com a equação da reta calculamos os valores ajustados :iYˆ 321,35)0,4x5,9(68,2Yˆ 1 =+−= 071,40)5,4x5,9(68,2Yˆ 2 =+−= 821,63)0,7x5,9(68,2Yˆ 7 =+−= . . . Como o valor do coeficiente angular é positivo, a reta é crescente. Com dois pontos estimados traçamos a reta 160 y = 9,5x - 2,679 R² = 1 0 10 20 30 40 50 60 70 3 4 5 6 7 8 pH pH Notas (x 10) Notas (x 10) MÉTODO DOS MÍNIMOS QUADRADOS y = 9,5x - 2,6786 R² = 0,9694 0 10 20 30 40 50 60 70 3 4 5 6 7 8 161
Compartilhar