Prévia do material em texto
Estatística Aplicada I Capítulo I – Estatística Descritiva Universidade Federal do Pará Campus Universitário de Tucuruí Faculdade de Engenharia Civil Prof. Karen Bernardo Tucuruí - PA 1 I - Estatística Descritiva • Introdução • Conceitos e definições • Classificação dos dados • Caracterização dos dados • Estatísticas amostrais • Regressão linear 2 Estatísticas Amostrais • Nas seções anteriores foi visto a sintetização dos dados sob a forma de tabelas, gráficos e distribuição de frequências. • O cálculo de estatísticas amostrais é uma forma mais sintética de descrever um conjunto de dados, ou seja, possibilita representar um conjunto de dados relativos à observação de determinado fenômeno de forma reduzida. • As estatísticas amostrais são calculadas com base nos dados, a partir das quais é possível descrever globalmente o conjunto de valores que os dados tomam. 3 Estatísticas Amostrais a) Medidas de posição: • Essas medidas nos orientam quanto à posição da distribuição no eixo x (eixo dos números reais); • Possibilitam comparações de séries de dados entre si pelo confronto desses números. • São chamadas de medidas de tendência central, pelo fato de representarem os fenômenos pelos seus valores médios, em torno dos quais tendem a concentrar-se os dados. 4 Estatísticas Amostrais a) Medidas de posição: a.1) Média aritmética: • Para um conjunto de n dados de xi (i = 1,2,..., n) a média aritmética simples ou média amostral, representada por x é definida pela expressão: dados não agrupados 5 Estatísticas Amostrais a) Medidas de posição: a.1) Média aritmética: • Quando os dados estiverem agrupados numa distribuição de frequência usa-se a média aritmética dos valores xi ponderadas pelas respectivas frequências absolutas ni, assim: Dados agrupados 6 Estatísticas Amostrais a) Medidas de posição: a.1) Média aritmética: • Exemplo (dados agrupados): Determinar a média aritmética simples (média aritmética amostral) da distribuição dada abaixo: 7 Estatísticas Amostrais a) Medidas de posição: a.1) Média aritmética: • No caso da variável ser contínua, visto que se perdeu os valores concretos do conjunto (ficaram afetos a uma determinada classe) não se pode calcular a média amostral diretamente dos valores dos dados. 8 Estatísticas Amostrais a) Medidas de posição: a.1) Média aritmética: • Exemplo (dados agrupados em classes): Determinar a média da distribuição a seguir, a qual representa o peso, em gramas, do conteúdo de uma série de 100 garrafas que, no decurso de um teste, saíram de uma linha de enchimento automático (exemplo anterior): 9 Estatísticas Amostrais a) Medidas de posição: a.1) Média aritmética: • Exemplo (dados agrupados em classes): Determinar a média da distribuição a seguir, a qual representa o peso, em gramas, do conteúdo de uma série de 100 garrafas que, no decurso de um teste, saíram de uma linha de enchimento automático (exemplo anterior): 10 Estatísticas Amostrais a) Medidas de posição: a.1) Média aritmética (Ponderada): • Às vezes, associam-se os números x1, x2, ..., xk a certos fatores de ponderação ou pesos w1, w2, ... , wk que dependem do significado ou importância atribuída aos mesmos. Nesse caso é denominada de média aritmética ponderada. 11 Estatísticas Amostrais a) Medidas de posição: a.1) Média aritmética (Ponderada): • Exemplo: Em um curso, a avaliação final tem peso 3 e as parciais peso 1; a nota média de um estudante que obtenha nota 8,5 na avaliação final e 7,0 e 9,0 nas provas parciais, será: 12 Estatísticas Amostrais a) Medidas de posição: a.2) Média geométrica (dados agrupados): • Se os elementos x1, x2, ..., xn ocorrem com as freqüências n1, n2,..., nk, sendo n1+n2+...+nk = n a frequência total, a média geométrica G desses elementos será deduzida como: 13 Estatísticas Amostrais a) Medidas de posição: a.4) Mediana: Para os dados colocados em ordem crescente, mediana (md ou Me) é o valor que divide a amostra, ou população, em duas partes iguais. Assim: 14 Estatísticas Amostrais a) Medidas de posição: a.4) Mediana: • Considerando que os dados que integram a amostra são colocados em ordem crescente, formando um vetor (x1, x2, ..., xn) - amostra • ordenada -, a mediana amostral é definida como segue: 15 Estatísticas Amostrais a) Medidas de posição: a.4) Mediana (para variável discreta): • Exemplo: Para as distribuições abaixo, determinar as respectivas medianas: 16 Estatísticas Amostrais a) Medidas de posição: a.4) Mediana (para variável discreta): • Exemplo: Para a distribuição abaixo, determinar a mediana: 17 Estatísticas Amostrais a) Medidas de posição: a.4) Mediana (para variável contínua): • Para variáveis contínuas, identifica-se a classe que contém a mediana (n/2), denominada classe Md (como a variável é contínua, não interessa se n é par ou ímpar); o valor aproximado para a mediana será calculado pela equação: onde: NMd-1 é a freqüência absoluta acumulada da classe antes da classe mediana, n a dimensão da amostra e lMd , aMd e nMd são, respectivamente, o limite inferior, a amplitude e a freqüência absoluta da classe mediana. 18 Estatísticas Amostrais a) Medidas de posição: a.4) Mediana (para variável contínua): • Exemplo: Dada a distribuição amostral, calcular a mediana: 19 Estatísticas Amostrais a) Medidas de posição: a.4) Mediana (para variável contínua): • Exemplo: Dada a distribuição amostral, calcular a mediana: 1º Passo: Calcula-se n/2; como n=58, então 58/2=29º. 2º Passo: Identifica-se a classe Md pela Ni (classe Md=3º). 3º Passo: Aplica-se a fórmula: Neste caso li = 55, n = 58, Ni-1 = 17, ai = 10, ni = 18; logo: 20 Estatísticas Amostrais a) Medidas de posição: a.5) Quartis: • Como já visto anteriormente, a mediana é a medida de posição que divide um conjunto de dados em duas partes iguais; • Os quartis dividem um conjunto de dados em quatro partes iguais, assim: 21 Estatísticas Amostrais a) Medidas de posição: a.5) Quartis: • A determinação de Qk (k = 1, 2 e 3), para o caso de variáveis contínuas, segue os passos: - 1º Passo: Calcula-se a ordem kn/4; - 2º Passo: Identifica-se a classe Qk pela frequência acumulada N; - Aplica-se a fórmula: 22 Estatísticas Amostrais a) Medidas de posição: a.5) Quartis: • Exemplo: Dada a distribuição amostral, determinar Q1 e Q3: 23 Estatísticas Amostrais a) Medidas de posição: a.5) Quartis: • Exemplo: Para Q1. 1º Passo: Calcula-se n/4; como n=58, então 58/4=14,5º. 2º Passo: Identifica-se a classe Q1 pela Ni (classe Q1 =2º). 3º Passo: Aplica-se a fórmula: Neste caso lQ1 = 45, n = 58, NQ1-1 = 5, aQ1 = 10, nQ1 = 12; logo: 24 Estatísticas Amostrais a) Medidas de posição: a.5) Quartis: • Exemplo: Para Q3. 1º Passo: Calcula-se 3n/4; como n = 58, então 3.58/4 = 43,5º. 2º Passo: Identifica-se a classe Q3 pela NQ3 (classe Q3 = 4º). 3º Passo: Aplica-se a fórmula: Neste caso lQ3 = 65, n = 58, NQ1-1 = 35, aQ1 = 10, nQ1 = 14; logo: 25 Estatísticas Amostrais a) Medidas de posição: a.6) Decis: • Os decis dividem um conjunto de dados em dez partes iguais, assim: 26 Estatísticas Amostrais a) Medidas de posição: a.6) Decis: • A determinação de Dk (k =1, 2, ..., 9), para o caso de variáveis contínuas, segue os passos: ▫ 1º Passo: Calcula-se a ordem kn/10; ▫ 2º Passo: Identifica-se a classe Dk pela freqüência acumulada N; ▫ Aplica-se a fórmula: 27 Estatísticas Amostrais a) Medidas de posição: a.7) Percentis: • Os percentis dividem um conjunto de dados em cem partes iguais, assim: 28 Estatísticas Amostrais a) Medidas de posição: a.7) Percentis : • A determinação de Pk (k = 1, 2, ..., 99), para o caso de variáveis contínuas, segue os passos: ▫ 1º Passo: Calcula-se a ordem kn/100; ▫ 2º Passo: Identifica-se a classe Pk pela freqüência acumulada N; ▫ Aplica-se a fórmula: 29 Estatísticas Amostrais a) Medidas de posição: • Exemplo (decil e percentil): Determinar o 4º decil e o 72º percentil da seguinte distribuição: 30 Estatísticas Amostrais a) Medidas de posição: • Exemplo (decil e percentil): Determinar o 4º decil e o 72º percentil da seguinte distribuição: 31 Estatísticas Amostrais a) Medidas de posição: • Portanto, na distribuição analisada, tem-se que: ▫ O valor 55,34 indica que 40% dos elementos da distribuição estão abaixo dele e os outros 60% acima. ▫ O valor 69,82 indica que 72% dos elementos da distribuição estão abaixo dele e os outros 28% acima. 32 Estatísticas Amostrais a) Medidas de posição: a.8) Moda • Moda (Mo) é a medida que indica o valor ou a gama de valores nos quais a concentração dos dados amostrais é máxima. • Para variáveis discretas, a moda é o valor dos dados que ocorre com maior freqüência; • Para variáveis contínuas, a moda é o intervalo de classe com maior freqüência. 33 Estatísticas Amostrais a) Medidas de posição: a.8) Moda • Assim, da representação gráfica dos dados, obtém-se imediatamente o valor que representa a moda ou a classe modal. 34 Estatísticas Amostrais a) Medidas de posição: a.8) Moda (distribuições simples) • Para distribuições simples (sem agrupamento em classes), a identificação da moda é facilitada pela simples observação do elemento que apresenta maior freqüência. Exemplo: Para a distribuição abaixo Mo = 248. 35 Estatísticas Amostrais a) Medidas de posição: a.8) Moda (distribuições simples) • Para dados agrupados em classe, existem diversas fórmulas para o cálculo da moda: - Fórmula de Czuber: Após a identificação da classe modal, aplica-se a fórmula abaixo, onde 36 Estatísticas Amostrais a) Medidas de posição: a.8) Moda (distribuições simples) • Exemplo: Determinar a moda para a distribuição: - A classe com maior frequência absoluta é [55, 65[; logo, ela é a classe modal. - Aplicando a fórmula de Czuber, tem-se: 37 Estatísticas Amostrais a) Medidas de posição: a.8) Moda (dados agrupados) - Densidades de classes: • Quando as amplitudes das classes são diferentes, deve-se calcular as densidades de classes para identificar a classe modal, as quais são obtidas por meio da relação ni/ai. 38 Estatísticas Amostrais a) Medidas de posição: a.8) Moda (dados agrupados) Exemplo: Determinar a moda para a distribuição 39 Estatísticas Amostrais a) Medidas de posição: a.8) Moda (dados agrupados) • Fórmula de Pearson: Fornece uma boa aproximação quando a distribuição apresenta razoável simetria em relação à média. É dada pela relação: • ou seja, a moda é aproximadamente igual a diferença entre o triplo da mediana e o dobro da média. 40 Estatísticas Amostrais b) Medidas de dispersão: • São medidas estatísticas utilizadas para avaliar o grau de variabilidade ou dispersão, dos valores em torno da média. • Servem para medir a representatividade da média. • Exemplo: Sejam as séries 20, 20, 20 e 15, 10, 20, 25, 30, como pode ser calculado, ambas possuem média aritmética igual a 20; entretanto, na primeira não existe dispersão, enquanto a segunda apresenta dispersão em torno da média 20; portanto, a média é muito mais representativa para a segunda série. 41 Estatísticas Amostrais b) Medidas de dispersão: b.1) Amplitude total (ou amplitude amostral): • É definida como sendo a diferença entre o maior e o menor dos valores da série, ou seja: - Exemplo: Para a série 10, 12, 15, 24, 25, 30, 36 R = 36 – 10 = 26 42 Estatísticas Amostrais b) Medidas de dispersão: b.2) Desvio médio(dados agrupados): • Se x1, x2 , ... , xn ocorrerem com as freqüências n1, n2, ... , nn, • respectivamente, o desvio médio poderá ser indicado da seguinte forma: 43 Estatísticas Amostrais b) Medidas de dispersão: b.3) Variância: A variância de um conjunto de dados é definida como o quadrado do desvio padrão. • Quando é necessário distinguir entre o desvio padrão de uma população e o de uma amostra dela extraída, adota-se frequentemente o símbolo σ para o primeiro e s para o último. 44 Estatísticas Amostrais b) Medidas de dispersão: b.3) Variância: • Para o caso da variância populacional são adotadas as seguintes fórmulas: 45 Estatísticas Amostrais b) Medidas de dispersão: b.3) Variância: • Para o caso da variância amostral são adotadas as seguintes fórmulas: 46 Estatísticas Amostrais b) Medidas de dispersão: b.4) Desvio padrão: • Uma vez que a variância envolve a soma de quadrados, a unidade em que se exprime não é a mesma que a dos dados. Assim, para se conseguir uma medida da variabilidade ou dispersão com as mesmas unidades que os dados, toma-se a raiz quadrada da variância e obtém-se o desvio padrão. 47 Estatísticas Amostrais b) Medidas de dispersão: b.4) Desvio padrão: • O desvio padrão é uma medida que só pode assumir valores não negativos e quanto maior for, maior será a dispersão dos dados. • Algumas propriedades do desvio padrão, que resultam imediatamente da definição, são: ▫ o desvio padrão é sempre não negativo e será tanto maior, quanta mais variabilidade houver entre os dados; ▫ se s= 0, então não existe variabilidade, isto é, os dados são todos iguais. 48 Estatísticas Amostrais b) Medidas de dispersão: • Exemplo: Calcular o desvio médio, a variância e o desvio padrão da seguinte distribuição amostral: Estatísticas Amostrais b) Medidas de dispersão: • Exemplo: Calcular o desvio médio, a variância e o desvio padrão da seguinte distribuição amostral: Estatísticas Amostrais b) Medidas de dispersão: • Exemplo: Calcular o desvio médio, a variância e o desvio padrão da seguinte distribuição amostral: 51 Estatísticas Amostrais a) Medidas de dispersão: b.5) Coeficiente de variação: • A variação ou dispersão real, determinada a partir do desvio padrão, ou qualquer outra medida de dispersão, é denominada dispersão absoluta; entretanto, uma variação ou dispersão, na medida de uma determinada distância, é inteiramente diferente quanto ao efeito, da mesma variação em uma distância menor. 52 Estatísticas Amostrais b) Medidas de dispersão: b.5) Coeficiente de variação: • A medida desse efeito é proporcionada pela dispersão relativa, definida por: 53 Estatísticas Amostrais b) Medidas de dispersão: b.5) Coeficiente de variação: • Se a dispersão absoluta é o desvio padrão e a média é a aritmética, a dispersão relativa é denominada coeficiente de variação ou de dispersão, dado por: • coeficiente de variação é uma medidarelativa de dispersão, útil para a comparação em termos relativos do grau de concentração em torno da média de séries distintas. 54 Estatísticas Amostrais b) Medidas de dispersão: b.5) Coeficiente de variação: Exemplo: Em uma empresa, o salário médio dos homens é de $4.000,00, com desvio padrão de $1.500,00, e o das mulheres é em média de $3.000,00, com desvio padrão de $1.200,00. Então: 55 Estatísticas Amostrais b) Medidas de dispersão: b.5) Coeficiente de variação: • Diz-se que a distribuição possui baixa, média ou alta variabilidade (dispersão) conforme os seguintes valores: ▫ Baixa dispersão: CV ≤ 10% ▫ Média dispersão: 10% < CV < 20% ▫ Alta dispersão: CV ≥ 20% • Alguns analistas consideram valores diferentes: ▫ Baixa dispersão: CV ≤ 15% ▫ Média dispersão: 15% < CV < 30% ▫ Alta dispersão: CV ≥ 30% 56 Estatísticas Amostrais c) Medidas de forma: c.1) Medidas de assimetria: • Denomina-se assimetria o grau de desvio ou afastamento da simetria de uma distribuição. • Uma distribuição de freqüência pode simétrica, assimétrica positiva ou assimétrica negativa. 57 Estatísticas Amostrais c) Medidas de forma: c.1) Medidas de assimetria: • Existem várias fórmulas para o cálculo do coeficiente de assimetria, dentre elas duas são bastante utilizadas: ▫ - 1º Coeficiente de Pearson: ▫ - 2º Coeficiente de Pearson: Se AS = 0, a distribuição é simétrica AS > 0, a distribuição é assimétrica positiva AS < 0. a distribuição é assimétrica negativa. 58 Estatísticas Amostrais c) Medidas de forma: c.1) Medidas de assimetria: • Exemplo: Identificar o grau de assimetria da distribuição: 59 Estatísticas Amostrais c) Medidas de forma: c.1) Medidas de assimetria: • Resolução 60 I - Estatística Descritiva • Introdução • Conceitos e definições • Classificação dos dados • Caracterização dos dados • Estatísticas amostrais • Regressão linear 61 Regressão linear • Relação entre duas variáveis • Em inúmeras ocasiões o estudo descritivo não se resume ao estudo de apenas uma variável.; para se ter uma visão global do problema em estudo, muitas vezes é necessário a observação de duas ou mais variáveis. • Nesse caso, em vez de uma amostra (x1, x2, ..., xn), passa-se a ter dados bivariados (xi, yi), i = 1, 2, ..., n. • Um dos objetivos desse estudo é a relação existente entre as variáveis do par. 62 Regressão linear • Correlação linear • Para se ter uma ideia de como as duas variáveis se relacionam é comum representar graficamente esta relação por meio de um diagrama de dispersão. Esta representação consiste na marcação das observações em um sistema de eixos cartesianos. • Se as variáveis fornecem um diagrama de dispersão em que os pontos se colocam ao redor de uma reta crescente ou decrescente, diz-se que essas variáveis estão linearmente correlacionadas. 63 Regressão linear • Correlação linear • Quanto menor a dispersão dos pontos em torno da reta, mais forte será a correlação. • A correlação linear será positiva ou negativa caso a tendência da reta seja crescente ou decrescente. • Se nenhuma tendência positiva ou negativa pode ser detectada, a explicação possível para os valores para a segunda variável é sua média. Nesse caso, o eixo da dispersão será horizontal, contendo a média da segunda variável, e diz-se que as variáveis não são linearmente correlacionadas. 64 Regressão linear • Correlação linear 65 Regressão linear • Correlação linear 66 Regressão linear • Correlação linear Exemplo: A tabela abaixo mostra os dados da temperatura do gás combustível (ºF) e da respectiva taxa de calor (kw-h) para uma turbina de combustão usada em refrigeração, construa o diagrama de dispersão para esses dados. 67 Regressão linear • Correlação linear Exemplo: A tabela abaixo mostra os dados da temperatura do gás combustível (ºF) e da respectiva taxa de calor (kw-h) para uma turbina de combustão usada em refrigeração, construa o diagrama de dispersão para esses dados. 68 Regressão linear • Correlação linear Exemplo: A tabela abaixo mostra os dados da temperatura do gás combustível (ºF) e da respectiva taxa de calor (kw-h) para uma turbina de combustão usada em refrigeração, construa o diagrama de dispersão para esses dados. Desse diagrama pode-se extrair que talvez exista uma correlação linear entre as variáveis; esta relação pode ser traduzida através de uma reta. 69 Regressão linear • Correlação linear • A determinação da correlação entre duas variáveis por meio de uma inspeção nos pares anotados ou no diagrama de dispersão correspondente é pouco precisa e subjetiva. • Essa dificuldade pode ser contornada pelo uso de uma medida que caracterize a correlação linear e seja independente do observador que esteja examinando os dados. 70 Regressão linear • Coeficiente de correlação linear Karl Pearson propôs o chamado coeficiente de correlação linear, o qual é dado pela relação: • onde: Cov (x,y) é a covariância das variáveis x e y, e seu cálculo é dado por: 71 Regressão linear • Coeficiente de correlação linear • Fazendo-se as devidas substituições e simplificações, obtém-se o coeficiente de correlação de forma mais simples: 72 Regressão linear • Coeficiente de correlação linear • r = -1, indica correlação linear negativa perfeita; os pontos (x,y) estão sobre uma reta com coeficiente angular negativo. • r = 0, indica que os pontos não estão correlacionados, nem apresentam tendência crescente ou decrescente. • r = 1, indica correlação linear positiva perfeita; os pontos (x,y) estão sobre uma reta com coeficiente angular positivo. 73 Regressão linear • Coeficiente de correlação linear • A correlação entre duas variáveis pretende captar o fato dessas variáveis apresentarem a mesma tendência ao crescimento, ou tendências contrárias. • O fato de duas variáveis evoluírem no mesmo sentido ou em sentidos opostos fornece uma idéia do que se pode esperar sobre um valor desconhecido da variável y para um particular valor de x. 74 Regressão linear • Coeficiente de correlação linear • Se as variáveis x e y são positivamente correlacionadas, e se procura estimar o valor de y1 para certo valor x1 menor que a média , deve- se esperar o valor correspondente y1 menor que a média ; para um valor x2 maior que a média , deve-se esperar um valor y2 maior que a média , acompanhando a tendência do eixo crescente dos pontos. 75 Regressão linear • Coeficiente de correlação linear • Nos problemas que envolvem estimativas de valores desconhecidos a partir de valores históricos são chamados problemas de previsão ou predição. • O conhecimento da correlação entre duas variáveis, embora possa fornecer uma pista para a previsão de um valor desconhecido de uma delas, nada informa a respeito da qualidade dessa previsão, ou seja, não se pode, em geral, com base apenas no conhecimento da correlação, transformar a incerteza da previsão em risco (isto só é possível quando a correlação é perfeita). • Entretanto, o fato de duas variáveis serem correlacionadas levanta a possibilidade de uma relação causal entre elas, o que é importante em problemas de previsão. 76 Regressão linear • Regressão linear simples • Como visto anteriormente, uma previsão construída baseada nas informações obtidas da correlaçãonada diz a respeito da confiabilidade do valor previsto. • Um método de previsão que permite a avaliação em termos de confiabilidade é a regressão linear, pois, satisfeitas determinadas condições, ela proporciona a transformação da incerteza em risco 77 Regressão linear • Regressão linear simples – Modelo teórico • Considere o relacionamento de duas variáveis x e y com as seguintes ▫ x: é a variável cujos valores são controlados e, portanto, determinados; ela é conhecida por variável independente ou variável de decisão; ▫ y: variável aleatória; é a variável que se quer prever; seu valor depende do valor atribuído a x, embora para cada valor de x se possa ter vários valores de y, devido a sua característica aleatória (variável dependente de x). 78 Regressão linear • Regressão linear simples – Modelo teórico • O modelo teórico define a verdadeira reta de regressão, cuja equação pode ser escrita como: 79 Regressão linear • Regressão linear simples – Modelo teórico • Nessas condições, dado um valor para x, a previsão ou expectativa para o correspondente valor de y é: • Entretanto, dificilmente se conhece a população dos valores de y para cada valor da variável controlada x. O que se conhece, geralmente, são alguns valores dos pares (x,y), ou seja, apenas uma amostra dessas variáveis. • Portanto, com base nos dados amostrais, deve-se pensar como estimar os valores de e , o que pode ser feito de forma eficiente por meio do método dos mínimos quadrados. 80 Regressão linear • Método dos mínimos quadrados • Um dos métodos mais utilizados para ajustar uma reta a um conjunto de dados é o Método dos Mínimos Quadrados (MMQ), o qual consiste em determinar a reta que minimiza a soma dos quadrados dos desvios (os chamados erros ou resíduos) entre os verdadeiros valores de y e os valores estimados a partir da reta de regressão que se pretende ajustar, y. 81 Regressão linear • Método dos mínimos quadrados • Adota-se o quadrado das diferenças, pois como os pontos se situam acima e abaixo da reta estimada, as diferenças podem ser positivas ou negativas, e na soma podem anular-se, não refletindo o ajustamento. • Sendo números positivos, esses quadrados refletem a qualidade do ajuste através de sua soma. 82 Regressão linear • Método dos mínimos quadrados • O modelo de regressão linear é a reta de regressão: 83 Regressão linear • Método dos mínimos quadrados • As estimativas dos mínimos quadrados para os parâmetros a e b são: 84 Regressão linear • Coeficiente de explicação • Calculada a estimativa de mínimos quadrados apara uma amostra dada, deve-se verificar a qualidade do ajuste dessa reta aos dados históricos. • Uma forma de medir a qualidade do ajuste é verificar qual a porcentagem da variação dos valores de y em relação à sua média pode ser explicada pela regressão de y sobre x. 85 Regressão linear • Coeficiente de explicação • Do gráfico abaixo, onde y = a + bx é a regressão de y sobre x, observa-se que o valor de yi correspondente a um valor xi pode ser composto de duas partes: a parte explicada pela média e a parte não explicada pela média. yi − ŷ = parte do valor de y não explicada ŷ − = parte do valor de y explicada pela regressão = parte do valor de y não explicada 86 Regressão linear • Coeficiente de explicação • Como no método dos mínimos quadrados, ao invés de somar essas diferenças, soma-se o quadrado delas para evitar que valores positivos e negativos se anulem. Designando: VT = variação total, soma dos quadrados das variações de y em relação à sua média. VE = variação explicada, a soma dos quadrados das variações em relação à média. 87 Regressão linear • Coeficiente de explicação • O coeficiente de explicação R² pode ser definido agora como sendo a porcentagem da variação total representada pela variação explicada. 88 Regressão linear • Exemplo: No exemplo anterior, observou-se no diagrama de dispersão uma possível relação linear entre as variáveis. a) Confirme essa relação por meio do coeficiente de correlação; b) Encontre a reta de regressão pelo método dos mínimos quadrados. 89 Regressão linear • Exemplo: No exemplo anterior, observou-se no diagrama de dispersão uma possível relação linear entre as variáveis. a) Confirme essa relação por meio do coeficiente de correlação; b) Encontre a reta de regressão pelo método dos mínimos quadrados. 90 Regressão linear • Exemplo: • O valor da correlação e do coeficiente de explicação indicam uma forte correlação linear entre a temperatura do gás combustível e a taxa de calor. Pode-se, portanto, estimar, através do MMQ os parâmetros a e b e traçar a reta de regressão: Sendo assim a reta de regressão é: 91