de χ2 que o valor de χ20,05(2) = 5, 99. Como o valor de χ2calc e´ maior que o de χ 2 tab, este se encontra na regia˜o de rejeic¸a˜o de H0 portanto, rejeita-se 135 Tabela 6.3: Nu´mero de alunos matriculados em dois cole´dios em relac¸a˜o a` classe social dos mesmos Classe social cole´gio Alta Me´dia Baixa Total A 20(31,82) 40(36,36) 40(31,82) 100 B 50(31,18) 40(43,64) 30(38,18) 120 Total 70 80 70 220 ( ) Frequ¨encia esperada a hipo´tese de independeˆncia entre os cole´gios e a classe social dos alunos. Ou seja pode-se afirmar, ao n´ıvel de 0,05 que a classe social e o cole´gio no qual os alunos estudam na˜o sa˜o independentes. Cap´ıtulo 7 Regressa˜o e Correlac¸a˜o linear Estimac¸a˜o dos paraˆmetros do modelo de regressa˜o pelo me´todo dos mı´nimos quadrados: Seja o modelo: yi = β0 + β1xi + ei (7.1) em que: yi e´ o valor observado da varia´vel resposta (dependente); β0 e´ o intercepto do modelo; β1 e´ coeficiente angular; xi e´ o valor da varia´vel preditora e ei e´ o erro aleato´rio associado a observac¸a˜o yi. Ajustar um modelo de regressa˜o, via me´todo de mı´nimos quadrados, implica procurar os valores (βˆi) tais que os valores estimados (preditos) de yi, yˆi = βˆ0 + βˆ1 sejam os mais pro´ximos poss´ıveis dos valores observados. Isto e´ os erros sejam mı´nimos Partindo-se do modelo 7.1 tem-se que o erro cometido ao se estimar uma observac¸a˜o e´ ei = yi − β0 − β1xi. Definindo a func¸a˜o 136 137 S(β0, β1) = n∑ i=1 e2i = n∑ i=1 (yi − β0 − β1xi)2 (7.2) Os estimadores de mı´nimos quadrados de β0 e β1, βˆ0 e βˆ1 sa˜o aqueles que minimizam a func¸a˜o 7.2. Assim, estes estimadores sa˜o obtidos solucionando-se o sistema: ∂S ∂β0 = 0 ∂S ∂β1 = 0 2 ∑n i=1(yi − βˆ0 − βˆ1xi)(−1) = 0 2 ∑n i=1(yi − βˆ0 − βˆ1x1)(−xi) = 0 ∑n i=1 yi − nβˆ0 − βˆ1 ∑n i=1 x1 = 0 (a)∑n i=1 yixi − βˆ0 ∑n i=1 xi − βˆ1 ∑n i=1 x 2 i = 0 (b) de (a) tem-se: βˆ0 = ∑n i=1 yi n − βˆ1 ∑n i=1 xi n βˆ0 = y¯ − βˆ1x¯ (7.3) de (b) tem-se: 138 βˆ0 n∑ i=1 xi + βˆ1 n∑ i=1 x2i = n∑ i=1 xiyi (∑n i=1 yi n − βˆ1 ∑ i = 1nxi n ) n∑ i=1 xi + βˆ1 n∑ i=1 x2i = n∑ i=1 xiyi ∑n i=1 yi ∑n i=1 xi n − βˆ1 ∑n i=1 x 2 i n + βˆ1 n∑ i=1 x2i = n∑ i=1 xiyi ∑n i=1 yi ∑n i=1 xi n + βˆ1 ( n∑ i=1 x2i − ∑n i=1 x 2 i n ) = n∑ i=1 xiyi βˆ1 ( n∑ i=1 x2i − ∑n i=1 x 2 i n ) = n∑ i=1 xiyi − ∑n i=1 yi ∑n i=1 xi n βˆ1 = ∑n i=1 xiyi − ∑n i=1 yi ∑n i=1 xi n∑n i=1 x 2 i − ∑n i=1 x 2 i n (7.4) βˆ1 = SPXY SQDX Uma medida da qualidade do ajuste, do modelo obtido, aos dados e´ dada pelo coeficiente de determinac¸a˜o (R2), r2 = SPXY 2 SQDX SQDY (7.5) Exemplo: Os dados a seguir refrem-se ao nu´mero de CDs vendidos por uma determinada gravadora, em milhares de unidades, em 10 semanas consecutivas apo´s o lanc¸amento do mesmo. Ajustar um modelo de regressa˜o linear simples que descreva a quantidade de CDs vendidos em func¸a˜o do tempo de lanc¸amento. Semanas 1 2 3 4 5 6 7 8 9 10 CDs (Milunid) 5,0 6,7 6,0 8,7 6,2 8,6 11,0 11,9 10,6 10,8 Tem-se que: n = 10 ∑10 i=1Xi = 55 ∑10 i=1X 2 i = 385∑10 i=1 Yi = 85, 5 ∑10 i=1XiYi = 529, 4 Substituindo esses valores em 7.4 tem-se: βˆ1 = 529,4− (55)(85,5) 10 385− 552 10 = 0, 72 e em 7.3: βˆ0 = 8, 55− (0, 72)(5, 5) = 4, 59 139 Portanto a equac¸a˜o de regressa˜o que descreve o nu´mero de Cds vendidos em func¸a˜o do nu´mero de semanas apo´s o lanc¸amento e´: y = 4, 59 + 0, 72x Cujo coeficiente de determinac¸a˜o e´: r2 = 59,152 82,5 54,565 = 0, 77