Baixe o app para aproveitar ainda mais
Prévia do material em texto
Capítulo 4 Correlação e regressão linear Correlação Regressão linear e correlação Análise de variância do modelo de regressão linear Intervalos de variação e predição Correlação Conteúdo programático Correlação linear simples Diagrama de dispersão Cálculo prático do coeficiente de correlação linear Objetivos Perceber a relação entre duas variáveis. Calcular o coeficiente de correlação. Interpretar o resultado expresso pelo coeficiente de correlação. Analisar o gráfico de dispersão correspondente, fazendo as devidas associações. 184 Correlação linear simples O estudo da correlação tem por objetivo medir e avaliar o grau de relação entre duas variáveis alea- tórias. Podemos medir, por exemplo, se a relação entre o tempo de experiência de um funcionário da área de vendas e o volume de vendas realizado por ele é forte, fraca ou nula. É necessário entender, portanto, que a correlação tem aplicação em diversas áreas do conhecimento, sempre que se deseja estabelecer relações entre duas variáveis. A correlação linear simples envolve apenas duas variáveis (x e y), sendo que a amostra é formada por um conjunto de pares de valores (x, y) e sua disposição ocorre em torno de uma reta. O resultado da análise de correlação linear é expresso na forma de um coeficiente de correlação (r). O coeficiente de correlação situa-se entre –1 e +1, ou seja, –1 r £ £ +1. Quando x e y variam no mesmo sentido, dizemos que a correlação é positiva, assim o coeficiente tem sinal positivo. Quando x e y variam em sentidos contrários, dizemos que a correlação é negativa, assim o coefi- ciente de correlação tem sinal negativo. Se r = +1, existe uma correlação perfeita positiva entre as variáveis. Se r = –1, existe uma correlação perfeita negativa entre as variáveis. Se r = 0, não há relação entre as variáveis. O instrumento mais utilizado para medir a correlação linear é o coeficiente de correlação linear de Pearson: r x y xy 2 2 2 2 = xy x . y n x n y n – – – å( ) å( ) å å( ) å é ë ê ê ê ù û ú ú ú å( ) å éé ë ê ê ê ù û ú ú ú n – número de observações Diagrama de dispersão O comportamento de duas variáveis é visualizado pela representação gráfica. A construção do dia- grama de dispersão possibilita, pela simples observação, uma ideia bastante completa sobre como as variáveis se relacionam, ou seja, qual é a tendência de variação conjunta que apresentam. Observe os gráficos a seguir: 0 < r < 1 r = 1 Figura 38 – Correlação positiva. Figura 39 – Correlação perfeita positiva. 185 Estatística Aplicada à Gestão – Capítulo 4 r = – 1 Figura 41 – Correlação perfeita negativa. – 1 < r < 0 Figura 40 – Correlação negativa. r = 0 Figura 42 – Correlação nula. Cálculo prático do coeficiente de correlação linear Para o cálculo do coeficiente de correlação, é conveniente a construção de uma tabela, em que, a partir de x e y, são determinadas as somas necessárias. y x x2 y2 xy – – – – – – – – ∑ y ∑ x ∑ x2 ∑ y2 ∑ xy Seguem dois exemplos para melhor entendimento da correlação. Vamos calcular o coeficiente de correlação linear entre as variáveis 1. x e y, usando os dados abaixo: y 8 10 5 9 11 x 3 4 5 6 9 n = 5 y x x2 y2 xy 8 10 5 9 11 3 4 5 6 9 9 16 25 36 81 64 100 25 81 121 24 40 25 54 99 43 27 167 391 242 r = xy x . y n x n y n xy 2 2 2 2 – – – å( ) å( ) å å( ) å é ë ê ê ê ù û ú ú ú å( ) åx y éé ë ê ê ê ù û ú ú ú é ë ê ê ù û ú ú é ë = 242 27 . 43 5 167 27 5 391 43 5 2 2 – – –êêê ù û úú = 9,8 21,2 . 21,2 = 0,462 O resultado mostra que a correlação linear entre as variáveis x e y é positiva (quando x cresce line- armente, y também cresce linearmente), porém, a correlação entre elas, nesse caso, é baixa, ou seja, as variáveis praticamente não se relacionam. Fonte: Os autores. 186 Podemos perceber a fraca correlação positiva entre elas pelo diagrama de dispersão abaixo: Figura 43 – Gráfico de dispersão. 10 9 8 7 6 5 4 3 2 1 0 2 4 6 8 10 12 2. Os dados abaixo referem-se a uma pesquisa com 10 famílias de determinada cidade. Foram analisa- dos, entre outros, os seguintes aspectos: renda familiar (em salários mínimos) e número de filhos. FAmíliAs REnDA númERO DE FilhOs A B C D E F G H I J 10 6 4 12 16 7 6 8 10 5 2 3 4 2 1 3 3 2 1 4 Vamos calcular o coeficiente de correlação linear para as variáveis apresentadas a seguir: REnDA (y) n.O DE FilhOs (x) x2 y2 xy 10 6 4 12 16 7 6 8 10 5 2 3 4 2 1 3 3 2 1 4 4 9 16 4 1 9 9 4 1 16 100 36 16 144 256 49 36 64 100 25 20 18 16 24 16 21 16 16 10 20 84 25 73 826 177 n = 10 Fonte: Os autores. Fonte: Os autores. 187 Estatística Aplicada à Gestão – Capítulo 4 r = xy . y n n n xy 2 2 2 2 – – – x x x y y å( ) å( ) å å( ) å é ë ê ê ê ù û ú ú ú å( ) å é ë êê ê ê ù û ú ú ú é ë ê ê ù û ú ú é ë = 177 25 . 84 73 25 826 2 2 – – – 10 10 84 10 êêê ù û úú = 10,5 . 120,4 = 93–33 – 0, O resultado rxy = –0,93 aponta uma correlação forte e inversa (negativa), ou seja, as famílias com maio- res rendas têm menor número de filhos, o que se pode perceber pelo gráfico: A REntAbiliDADE nA AtiviDADE RuRAl Pesquisando alguns dados no Agrianual* 2006, mais especificamente na pesquisa de preços de terras (em reais por hectare) realizada durante vários meses do ano, podem ser observadas algumas informações interessantes. Primeiramente, numa análise em longo prazo, com dados de 1989–2005 para o estado de São Paulo, de 1998–2004 para os Estados Unidos, e mais especificamente para o Mato Grosso do Sul, de 2002–2005, podemos enxergar algumas relações e correlações interessantes. A correlação** entre os preços de terra de lavoura em São Paulo e na região do Corn Belt americano é de 94,98%, o que demonstra que o comportamento de preço de ambas as regiões sofre influências parecidas. Ou seja, por se tratarem de commodities, a relação pode ser explicada pela variação do preço de venda das commodities. Mas o que o preço das commodities tem a ver com o preço da terra? Em 1960, William Sharpe desenvolveu um modelo de precificação de ativos chamado CAPM***, que é um modelo de precifica- ção de ativos (no caso deste texto, o preço da terra) que leva em consideração a geração de fluxo de caixa (quantos reais aquele ativo gera anualmente) e o nível de risco da operação (risco este sendo a variação do fluxo de caixa, numa análise ano a ano). leitura complementar 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 0 2 4 6 8 10 12 14 16 18 Renda familiar N úm er o d e fil ho s Figura 44 – Gráfico de dispersão: renda familiar e número de filhos. 188 Na análise da correlação dos preços de terra agrícola de alta produtividade no Mato Grosso do Sul com o preço médio da soja, de 2002 a 2005, verifica-se um índice de 87,91%, que indica que a variação do preço da terra tem alta relação com a geração de capital em uma propriedade rural. Este índice con- firma a utilidade da aplicação do CAPM e a afirmação de que um ativo só tem valor se gerar renda. [...] * O Agrianual é o anuário agrícola da FNP. Mais informações em http://www.fnp.com.br. ** A correlação é uma medida estatística que indica a força e a relação entre duas variáveis. 100% indica uma correlação perfeita e –100% indica uma correlação inversa.*** CAPM: Capital Asset Pricing Model, ou Modelo de Precificação de Ativos. É um modelo de finanças corporativas utilizado para valorar um ativo, de acordo com a capacidade deste de gerar fluxo de caixa positivo, associando este retorno a um nível de risco. CORRÊA, Kenneth. A rentabilidade na atividade rural. Disponível em: <http://www.administracaoegestao.com.br/ administracao-rural/a-rentabilidade-na-atividade-rural/>. Acesso em: 15 set. 2009. Você estudou: A correlação ocorre entre duas variáveis quando uma delas está, de alguma forma, relacionada com a outra. O coeficiente de correlação linear (r) é determinado para medir o grau de relacionamento linear entre os valores emparelhados x e y em uma amostra. O coeficiente de correlação se situa entre –1 e +1, ou seja, –1 r £ £ +1. Se r = +1, existe uma corre- lação perfeita positiva entre as variáveis; se r = –1, existe uma correlação perfeita negativa entre as variáveis; se r = 0, não há relação entre as variáveis. síntese CORRÊA, Kenneth. A rentabilidade na atividade rural. Disponível em: <http://www.administracaoegestao.com.br/ administracao-rural/a-rentabilidade-na-atividade-rural/>. Acesso em: 15 set. 2009. TOLEDO, Geraldo Luciano; OVALLE, Ivo Izidoro. Estatística básica. 2. ed. São Paulo: Atlas, 1995. TRIOLA, Mario F. Introdução à estatística. 7. ed. Rio de Janeiro: LTC, 1999. Referências Anotações Regressão linear e correlação Conteúdo programático Regressão linear e correlação Regressão linear simples Interpretação dos parâmetros do modelo Coeficiente de determinação Pontos extremos ( outliers) e pontos de influência Variação marginal Objetivos Entender a regressão linear, no sentido de estimar um modelo matemático para entender as relações entre duas variáveis. Representar graficamente o modelo de regressão linear. Calcular os coeficientes de regressão e o coeficiente de determinação. 190 regressão linear e Correlação A regressão, assim como a correlação, é uma técnica utilizada para entender as relações entre as variáveis do estudo de uma população. As técnicas como medidas de tendência central e de dispersão (média, desvio padrão, variância, etc.) servem para estudar um único parâmetro populacional. Já o objetivo da análise de regressão é construir um modelo matemático que avalie a relação entre duas ou mais variáveis, considerando observações dessa(s) variável(is). Quando temos “variáveis quantitativas” e desejamos avaliar o efeito que algumas exercem (ou parecem exercer) sobre outras, podemos classificar as variáveis em dois tipos: variáveis independentes (ou predito- ras) e variáveis dependentes (ou respostas). No entanto, a distinção entre variáveis independentes e dependentes nem sempre é clara e algumas vezes leva em consideração o que se espera da análise. A variável (x), chamada variável independente ou variável explicativa, selecionada pelo experimentador, induz a ocorrência de outra variável (y), chamada de variável dependente, resposta ou variável explicada. O valor dessa última depende do valor escolhido da variável independente (x). Por exemplo, a demanda (y) em função do preço (x); o número de filhos (y) em função da renda familiar (x); o consumo (y) em função da potência (x); a produção (y) em função do uso de fertilizantes (x), etc. O estudo da regressão considera apenas a variável y como aleatória e a variável x como supostamen- te sem erro. Portanto, a relação entre x e y será expressa matematicamente como y = f(x) + e, em que a variável e refere-se ao “erro estatístico” e indica a falha do modelo em se ajustar exatamente aos dados. Quando há uma variável resposta (y) e uma variável explanatória (x), ocorre a regressão linear simples; no entanto, quando se tem uma variável resposta e mais de uma variável explanatória, a regressão é dita múltipla. A regressão é utilizada normalmente com duas finalidades: de previsão (prever o valor de y a partir de x) e estimar o quanto x influencia ou modifica y. Em suma, dizemos que a correlação mede a força de relacionamento entre duas variáveis, enquanto a regressão equaciona esse relacionamento. regressão linear simples A regressão linear simples mostra o relacionamento entre duas variáveis por meio de uma equação matemática linear, ou seja, uma linha reta. Segundo Toledo (1995), dado um conjunto de valores observados de x e y, construir um modelo de equação linear de y sobre x consiste em obter, desses valores, uma reta que melhor represente a relação verdadeira entre essas variáveis. A determinação dos parâmetros dessa reta é denominada ajustamento. O processo de ajustamento deve partir da escolha da função através da qual os valores de x explicarão os de y. Para isso, utilizamos o diagrama de dispersão. Esse gráfico é construído anotando- -se, em um sistema de coordenadas retangulares, os pontos correspondentes aos pares de observações de x e y. A função escolhida será aquela que for sugerida pelo conjunto de pontos dispostos no diagrama. No gráfico seguinte, o conjunto de pontos sugere uma função linear (reta). 191 Estatística Aplicada à Gestão – Capítulo 4 Observe, passo a passo, a construção desse gráfico no Excel. 1.o) Digite os dados das variáveis x e y em colunas separadas. 2.o) Selecione as variáveis das colunas x e y. 3.o) Clique sobre o assistente de gráfico. 4.o) Selecione o gráfico do tipo “dispersão (xy)”. 5.o) Clique em “avançar”. 6.o) Na opção “título”, acrescente o título e os eixos dos valores x e y ; na opção “linhas de grade”, retire-as ou acrescente-as. Você pode, ainda, usar o recurso da opção “legenda”. 7.o) Clique em “avançar”. 8.o) Clique em “concluir”. 9.o) Com o gráfico pronto, clique com o botão direito do mouse sobre um dos pontos e selecione a opção “adicionar linha de tendência”, tipo “linear”; em “opções”, marque “exibir equação no gráfico” e “exibir valor de R-quadrado no gráfico”. Agora, voltemos ao gráfico já pronto. De acordo com Toledo (1995), a reta ajustada é representada por yˆ = a + bx, em que a e b são os parâmetros do modelo: a é o ponto em que a reta ajustada corta o eixo da variável y; b é a tangente do ângulo que a reta forma com uma paralela ao eixo da variável x. A reta ajustada é a reta de mínimos quadrados, pois os valores de a e b são obtidos de tal forma que é mínima a soma dos quadrados das diferenças entre os valores observados de y e os obtidos da reta ajustada para os mesmos valores de x. O método dos mínimos quadrados determina que a e b devem ser obtidos de modo que: Os parâmetros são os coeficientes angular e linear da equação da reta, em que a indica o ponto de interseção da reta com o eixo y e b indica o ângulo de inclinação da reta com o eixo x. a = y n b x n a = y bxå å Þ– –b = xy n n 2 2 – – x y x x å( ) å( ) å å( ) å Figura 45 – Gráfico de dispersão (modelo ajustado). a y x Em que: x = x n å e y = y n å . y = a + bx 192 Os dados, no entanto, não caem sobre a linha reta, ou seja, existe uma diferença entre o valor observa- do e o valor da linha reta. A isso chamamos de “erro estatístico”, isto é, uma variável aleatória que quantifica a falha do modelo em se ajustar exatamente aos dados. O erro será representado por e. Considerando isso, um modelo matemático mais adequado é o chamado modelo de regressão linear: y = a + bx + e interpretação dos parâmetros do modelo Os coeficientes a e b são interpretados do seguinte modo: se a variação dos dados em x inclui x = 0, então a é a resposta esperada quando x = 0; se a variação dos dados em x não inclui x = 0, então x não possui interpretação prática; b é interpretado como a “mudança” na média da distribuição de y produzida por uma unidade de mudança em x. Os parâmetros a e b são normalmentechamados de “coeficientes de regressão”. O modelo proposto refere-se ao comportamento das médias da popu- lação e não da amostra. Em relação a uma amostra de 7 fazendas, considere a produção agrícola (em hectares) e o uso de fertilizantes (em toneladas) como as variáveis que nos interessam investigar. FERtilizAntE (x) PRODuçãO (y) 100 200 300 400 500 600 700 40 45 50 65 70 70 80 x = 400 y = 60 x i i=1 7 = 2 800å y i i=1 7 = 420å x i 2 i=1 7 = 1 400 000å y i2 i=1 7 = 26 500å x . y = 187 000 i=1 7 å r = 0,977 Fonte: MEllO, A.O.R.; SAntOS, t.t.C. O texto seguinte traz um exemplo resolvido de um problema envolvendo a correlação: 193 Estatística Aplicada à Gestão – Capítulo 4 Há evidências de alta relação linear positiva entre o uso de fertilizantes e o resultado da produção agrícola. Podemos, então, usar o modelo de regressão linear simples necessitando, agora, estimar os parâmetros deste modelo, baseados na amostra observada. b = xy n n = 187 000 2 800 . 420 7 1 2 2 – – – x y x x å( ) å( ) å å( ) å 4400 000 2 800 7 = 19 000 280 000 = 0,06786 2 – ( ) a = b = 60 0,06786 . 400 = 32,856y x– – Desse modo, é possível obter o seguinte modelo de regressão linear ajustado: yˆ = a + bx = 32,856 + 0,06786x Fertilizantes Pr o du çã o ag ríc ol a 90 80 70 60 50 40 30 20 10 0 0 100 200 300 400 500 600 700 800 Fonte: MEllO, A.O.R.; SAntOS, t.t.C. Fonte: MEllO, A.O.R.; SAntOS, t.t.C. Fertilizantes y = 0,0679x + 32,857 Pr o du çã o ag ríc ol a 90 80 70 60 50 40 30 20 10 0 0 100 200 300 400 500 600 700 800 194 Como a variação dos dados não inclui x = 0, não há interpretação prática do coeficiente a = 32,856. Por outro lado, b = 0,06786 significa que a cada aumento de 1 tonelada de fertilizantes, a produção agrícola média (esperada) aumenta 0,06786 por hectare. Se x = 250 toneladas, por exemplo, yˆ = 49,821. Se x = 251 toneladas, yˆ = 49,889. Se x = 252 toneladas, yˆ = 49,957. MELLO, Adélia. Apostila de Estatística II. Curitiba, 2009. p. 26. Coeficiente de determinação Um modo de medir a qualidade do ajuste linear simples é pelo coeficiente de determinação. Seu valor fornece a proporção da variação total da variável y explicada pela variável x pela função ajustada. É repre- sentado por R2. R = b n n 2 2 2 2 2 2 x x y y – – å( ) å é ë ê ê ê ù û ú ú ú å( ) å , sendo 0 12£ ³R . Observe que quanto mais próximo o coeficiente de determinação estiver da unidade, melhor será o ajuste. Assim, temos: R = b n n = 0,06786 . 1 2 2 2 2 2 2 2x x y y – – å( ) å é ë ê ê ê ù û ú ú ú å( ) å ( ) 4400 000 2 800 7 26 500 420 7 = 1 289,3943 1 300 2 2 – – é ë êê ù û úú = 0,99 Como o coeficiente está próximo da unidade, temos um bom ajuste, ou seja, o uso de fertilizantes influencia a produção. Acompanhe a resolução passo a passo do exercício seguinte. Uma empresa está analisando a variação da demanda de certo produto em função de seu preço de venda. Abaixo, constam as unidades vendidas e o preço da venda por mês. mEsEs uniDADEs vEnDiDAs (y) PREçO DE vEnDA (x) POR uniDADE J F M A M J J A S O 147 140 134 126 110 103 97 89 81 73 132,00 137,00 142,00 148,00 150,00 156,00 160,00 164,00 170,00 178,00 Fonte: Os autores. 195 Estatística Aplicada à Gestão – Capítulo 4 Com base nesses dados, observe como a demanda do produto decresce linearmente com o acréscimo de preço. y x xy x2 y2 147 140 134 126 110 103 97 89 81 73 132,00 137,00 142,00 148,00 150,00 156,00 160,00 164,00 170,00 178,00 19 404 19 180 19 028 18 648 16 500 16 068 15 520 14 596 13 770 12 994 17 424 18 769 20 164 21 904 22 500 24 336 25 600 26 896 28 900 31 684 21 609 19 600 17 956 15 876 12 100 10 609 9 409 7 921 6 561 5 329 1100 1 537 165 708 238 177 126 970 y = 110 x = 153,7 1.o) Calculando a correlação entre as variáveis, percebemos a forte correlação entre elas: r = xy . n n y n 2 2 2 2 xy x y x x y – – – å( ) å( ) å å( ) å é ë ê ê ê ù û ú ú ú å( ) å éé ë ê ê ê ù û ú ú ú é = 165 708 1537 . 1100 10 238177 1537 10 2 – – ëë ê ê ù û ú ú é ë êê ù û úú 126 970 1100 10 = 3 362 1940,1 . 5 970 2 – – == 0,98– 2.o) Calculando os parâmetros: b = xy n n = 165 708 1 537 . 1 100 1 2 2 – – – x y x x å( ) å( ) å å( ) å 00 238 177 1 537 10 = 3 362 1 940,1 = 1,7329 2 – – – ( ) Figura 46 – Gráfico unidades vendidas e preço por unidade. Preço por unidade Un id ad es v en di da s 200 150 100 50 0 0 20 40 60 80 100 120 140 160 Fonte: Os autores. 196 a = b = 110 ( 1,7329) . 153,7 = 376,35y y– – – 3.o) Montando a equação de regressão: yˆ = a + bx = 376,35 1,7329x– O resultado b = –1,7329 significa que para cada unidade de variação positiva de preço (x), a quantidade procurada (y) decresce em 1,7329 unidade. Pontos extremos (outliers) e pontos de influência Em um diagrama de dispersão, um ponto extremo (outlier) é aquele que está muito afastado dos de- mais. Isso acontece quando as variáveis não estão fortemente relacionadas. Os dados amostrais emparelhados podem conter um ou mais pontos de influência, aqueles que afetam fortemente o gráfico da reta de regressão (TRIOLA, 1999). Perceba, no exemplo anterior, que há vários pontos de influência. variação marginal Ao trabalharmos com duas variáveis relacionadas por uma equação de regressão, a variação mar- ginal em uma delas é o quanto ela varia quando a outra variável sofre uma variação de exatamente uma unidade. texto i O métODO DE CORRElAçãO E REGREssãO APliCADO nA áREA DE tRAnsPORtEs A pesquisa de campo realizada sobre o desempenho da empresa de transportes Costeira Transportes e Serviços Ltda. detectou constantes atrasos na entrega das mercadorias das re- despachadoras, assim como no retorno dos conhecimentos de entrega. Tal fenômeno motivou a criação de um modelo para análise de indicadores que possa ajudar a identificar a solução para esse problema. O modelo está baseado na análise estatística de correlação e regressão linear. Os resultados mostram, através de gráficos, uma relação funcional que representa esse fenôme- no, efetuando assim um diagnóstico mais específico da situação. A pesquisa ilustra o papel que conceitos e técnicas estatísticas têm na formação do administrador na área de logística e gestão de operações, na sua prática profissional e, de modo especial, no avanço do conhecimento nessa área específica. O objetivo será alcançado principalmente através da apresentação e discussão dos resultados de estudos relevantes. Através destes exemplos, argumenta-se que conceitos es- tatísticos têm papel importante a desempenhar, tanto no estudo da logística, como no processo de administração em geral. COSTA, Denis Carlos Lima; CRUz, Edson Costa; LAUNÈE, Erycka; LIMA, Waldemiro. O método de correlação e regressão aplicado na área de transportes. Disponível em: <http://www.administradores.com.br/producao_academica/o_metodo_de_correlacao_e_regressao_aplicado_na_area_de_ transportes/1852/>. Acesso em: 15 set. 2009. leituras complementares 197 Estatística Aplicada à Gestão – Capítulo 4 texto ii um EstuDO DE CORRElAçãO EntRE O ClimA ORGAnizACiOnAlE A PRODutiviDADE Em umA EmPREsA introdução O clima organizacional é o elo conceitual de ligação entre o nível individual e o nível organizacional, no sentido de expressar a compatibilidade ou congruência das expectativas, valores e interesses indivi- duais com as necessidades, valores e diretrizes formais da organização [1]. O objetivo geral do estudo visa demonstrar a correlação entre o clima organizacional, qualificação da mão de obra dentro da organi- zação e os índices de produtividade atingidos como resultado. Observaram-se os aspectos que denotam o grau de relação existente entre a gestão de recursos humanos e a produção global da organização, assim como os reflexos existentes nas tomadas de decisão em ambas as áreas. Três fatores importantes afetam a produtividade da mão de obra: desempenho do empregado no trabalho; tecnologia, máquinas, ferramentas e métodos do trabalho que sustentam e auxiliam o trabalho deles; e a qualidade de produto. Aumentar a produtividade através de desenvolvimentos tecnológicos é, no mínimo, tão importante quan- to o desempenho do empregado no trabalho para aumentar a produtividade [2]. Buscou-se: estabelecer o grau de satisfação dos colaboradores e o quanto isso se reflete favorável ou desfavoravelmente no clima organizacional; e identificar os métodos e/ou instrumentos que a empresa adota para promover o desenvolvimento intelectual dos colaboradores, assim como as formas de enriquecimento das tarefas propostas de forma variada e não repetitiva, as condições básicas das instalações e se estas estão adequadas com o trabalho, proporcionando bem-estar e conforto. metodologia Para a efetivação da pesquisa, buscou-se uma empresa do setor de indústria e comércio para fazer a aplicação do estudo, sendo uma pesquisa de campo, descritiva e quantitativa. Determinaram-se, como população, os 36 funcionários da Empresa Reflexo, sendo selecionada uma amostra por quotas de 26 funcionários, representando 72% dos mesmos. Resultados Com base na pesquisa, identificou-se que todos os colaboradores têm interesse de aperfeiçoar o conhecimento, sendo que 77% dos entrevistados não estão estudando. 69% trabalham no setor de fer- ro/alumínio/vidro; os benefícios citados como mais importantes pelos funcionários foram a assistência médica/hospitalar/odontológica, com 37%, enquanto 24% elegeram o auxílio alimentação. Dentre os entrevistados, 54% acreditam que o relacionamento é muito bom; 46% dizem ser bom, quanto ao grau de motivação; 50% dos colaboradores estão muito motivados; e 46% se encontram motivados com as atividades que realizam. Com relação ao desempenho das atividades, 58% responderam estar bom; 100% dos entrevistados afirmam que a empresa estimula a solução de problemas; 61% responderam que há uma relação contínua entre a qualidade do trabalho executado com os resultados da empresa. Os funcionários elencaram alguns aspectos positivos que afetam a produtividade, como os equipa- mentos, limpeza, organização e benefícios oferecidos; e, como fatores negativos, citam os problemas pessoais, ruídos e iluminação. Discussões e conclusões O estudo mostrou que há uma correlação entre o clima organizacional e a produtividade no tra- balho, pois aspectos como instalações e equipamentos interferem na qualidade e produtividade do 198 trabalho. [...] Percebeu-se também que a maioria dos pesquisados pretende continuar na empresa, indicando que há um nível de aceitação bastante grande por parte destes às práticas da empresa. Destaca-se uma pequena contradição quando os mesmos foram questionados com relação à vontade de aperfeiçoar-se, sendo que a maioria dos entrevistados manifestou esse desejo, mas, no entanto, grande parte dos mesmos não está estudando e possui como formação o primeiro grau incompleto. [1] PAYNE, R.L.; MANSFIEL, S. Clima organizacional e a satisfação. São Paulo: Human Performance, 1983. [2] GAITHER, N.; FRAzIER, G. Administração da produção e operações. São Paulo: Pioneira, 1999. BISOGNIN, M.; RüDELL, J. A.; RADDATz, M.; OLIVEIRA, C.; BIANCHI, R. C. Um estudo de correlação entre o clima organizacional e produtividade em uma empresa. Disponível em: <http://www.unifra.br/cursos/administracao/publicacoes/Marcelo%20Bisognin%20-%20317.pdf>. Acesso em: 15 set. 2009. Você estudou: Quando temos algumas variáveis quantitativas e desejamos examinar o efeito que algumas exercem, ou parecem exercer, sobre as outras, classificamos essas variáveis em dois tipos: variáveis independentes (explicativas) e variáveis dependentes (explicadas). Denota-se x para a variável independente e y para a variável dependente. A regressão é uma técnica usada para avaliar as relações que possam existir entre tais variáveis, cole- tadas no estudo de uma população, através da utilização de um modelo matemático. síntese BISOGNIN, M.; RüDELL, J. A.; RADDATz, M.; OLIVEIRA, C.; BIANCHI, R. C. Um estudo de correlação entre o clima organizacional e produtividade em uma empresa. Disponível em: <http://www.unifra.br/cursos/administracao/ publicacoes/Marcelo%20Bisognin%20-%20317.pdf>. Acesso em: 15 set. 2009. COSTA, Denis Carlos Lima; CRUz, Edson Costa; LAUNÈE, Erycka; LIMA, Waldemiro. O método de correlação e regressão aplicado na área de transportes. Disponível em: <http://www.administradores.com.br/producao_ academica/o_metodo_de_correlacao_e_regressao_aplicado_na_area_de_transportes/1852/. Acesso em: 15 set. 2009. MELLO, Adélia. Apostila de estatística II. Curitiba, 2009. TOLEDO, Geraldo Luciano; OVALLE, Ivo Izidoro. Estatística básica. 2. ed. São Paulo: Atlas, 1995. TRIOLA, Mario F. Introdução à estatística. 7. ed. Rio de Janeiro: LTC, 1999. Referências Anotações Análise de variância do modelo de regressão linear Conteúdo programático Predições Resíduos Modelos não lineares – transformações Objetivos Entender a importância da projeção na estatística e a sua relação com a regressão linear. Apreender o conceito de “resíduos”. Compreender a propriedade dos mínimos quadrados considerando a definição dos resíduos. 200 predições Quando as equações de regressão se ajustam bem aos dados, podem ser feitas previsões para o valor de uma variável, desde que se conheça a outra variável. Essas previsões implicam estabelecer relações entre duas ou mais variáveis que tenham a possibilida- de de prever uma ou mais delas em função das restantes. Fazer previsões ou projeções é um recurso estatístico bastante utilizado, principalmente nas empresas, pois é necessário prever vendas, estoques, custos, fluxo de caixa, entre outros. As previsões dependem da obtenção de dados referentes a uma população. No caso da empresa, por exemplo, são necessárias amostras da quantidade de produtos produzidos, do seu preço, do valor gasto com publicidade, etc. Ao predizer um valor de y com base em determinado valor de x, se não houver correlação linear, o melhor valor predito de y é y ; se houver correlação linear significativa, obtemos o melhor valor predito de y substituindo o valor de x na equação de regressão, sendo que devemos estar atentos aos limites dos valores disponíveis. Portanto, só utilizamos a equação da reta de regressão se r (coeficiente de correlação) indicar a existência de uma correlação linear significativa. Quando não há uma correlação linear, não utilizamos a equação de regressão para projetar ou predizer; em vez disso, a melhor estimativa da segunda variável é simplesmente a sua média. Então, se r está próximo de –1 ou +1, existe um bom ajuste e podemos, então, fazer predições; porém, se r é vizinho de 0, o ajuste é fraco (e não deve ser usado para fazer predições). Verifique, pelo exemplo seguinte, como utilizar a correlação. Em uma empresa que analisa a variação da demanda em relação ao preço do produto, constatamos uma correlação linear significativa entreas unidades vendidas (y) e o preço de venda (x) de determinado produto. A equação de regressão é: yˆ = a + bx = 375,9 – 1,73x Portanto, se o preço de venda for R$ 120,00, podemos projetar o número de unidades vendidas. As- sim: ˆ ˆ ˆy y y = 375,9 1,73x = 375,9 1,73 . 120 = 375,9 2– – –Þ Þ 007,6Þ yˆ ~= 168 Então, se o preço for R$ 120,00, projetamos que o número de unidades vendidas será 168. resíduos Após realizar a regressão, é importante verificar se o modelo encontrado é apropriado para os dados. Isso é feito com a análise dos resíduos. Os resíduos apresentam a diferença entre o valor observado de y e o que foi predito pelo modelo de regressão: e = y – y 201 Estatística Aplicada à Gestão – Capítulo 4 Para avaliar os resíduos, podemos construir um gráfico em que: no eixo vertical (y) são colocados os resíduos ( y y– ˆˆy); no eixo horizontal (x) são colocados os valores esperados de y ( yˆ ). Então, pode ser observada a distância entre os pontos que representam os dados originais e a reta de regressão. Tais distâncias são chamadas de resíduos. Analisando os resíduos, percebemos: se a distribuição dos dados apresenta uma normalidade; se a variância dos resíduos é constante (nesse caso, a dispersão em torno da reta de regressão é uniforme); se os resíduos não estão correlacionados; e, ainda, se há uma variável não identificada que deva ser incluída no modelo. Neste exemplo, inicialmente, vamos analisar os seguintes dados: x 1 2 4 5 y 4 24 8 32 y x x2 y2 xy 4 24 8 32 1 2 4 5 1 4 16 25 16 576 64 1024 4 48 32 160 68 12 21 1680 244 No gráfico, os resíduos são as distâncias dos pontos até a reta. Como exemplo específico, observe o ponto de abscissa x = 5. Levando o valor x = 5 na equação de regressão yˆ = 4x + 5, obtemos o valor predito yˆ = 25, mas o valor amostral efetivamente observado é y = 32. A diferença y y = 7– ˆ é um resíduo. A equação de regressão representa a reta que melhor se ajusta aos pontos de acordo com a proprie- dade dos mínimos quadrados. É importante entender que uma reta verifica a propriedade dos mínimos quadrados se a soma dos quadrados dos resíduos é a menor possível. Calculando os outros resíduos do exemplo dado, obtemos: Para x = 1 y = 4 . 1 + 5 = 9 y y = 4 9 = 5Þ \ˆ ˆ– – – Para x = 2 y = 4 . 2 + 5 = 13 y y = 24 13 = 11Þ \ˆ ˆ– – Fonte: Os autores. y = 4x + 5 35 30 25 20 15 10 5 0 0 1 2 3 4 5 6 Figura 47 – Reta de regressão e resíduos – modelo ajustado. Fonte: Os autores. 202 P ara x = 4 y = 4 . 4 + 5 = 21 y y = 8 21 = 13Þ \ˆ ˆ– – – A soma dos quadrados dos resíduos é: – –5 + 11 + 13 + 7 = 364 2 2 2 2( ) ( ) . Qualquer outra reta distinta de yˆ = 4x + 5 dará resíduos cuja soma dos quadrados é maior do que 364. modelos não lineares – transformações Em muitos casos, a relação entre duas variáveis não é linear. Observe o exemplo: x 3 4 5 6 7 y 9 16 25 36 49 Perceba que cada valor de y é o quadrado do valor de x correspondente, de forma que as duas variá- veis estão relacionadas pela equação y = x2 e não por uma equação linear, que teria a forma y = ax + b. Podemos encontrar a melhor equação de ajuste com o auxílio de diagramas de dispersão e uma calculadora ou de um computador cujas apresentações incluam os valores de r ou outras estatísticas que permitam avaliar quão bem a equação se ajusta aos dados amostrais. A função potência, apresentada no exemplo acima, embora não linear, pode se tornar linear através de uma transformação com logaritmos naturais: aplicando logaritmos nos dois membros da função potência, obtemos a expressão linear ln yˆ = ln a + bln x. Para realizar essa transformação, os valores da amostra y devem ser transformados em ln y, formando a nova amostra com valores ln y, e os valores da amostra x devem ser transformados em ln x, formando a nova amostra com valores ln x. O quadro a seguir mostra alguns modelos não lineares que se tornam lineares depois de uma transfor- mação com logaritmos naturais (ln): tiPO EquAçãO tRAnsFORmAçãO vARiávEl x vARiávEl y linear yˆ = a + bx yˆ = a + bx x y Exponencial yˆ = a. ebx ln y = ln a + ln xˆ x ln y logarítmica yˆ = a + b . ln x yˆ = a + b . ln x ln x y Potência yˆ = a . xb ln y = ln a + b . ln x ln x ln y Na primeira linha, consta a equação da regressão linear simples conhecida. Nas outras três linhas, estão registradas três funções não lineares e as transformações das variáveis x e y para torná-las funções lineares semelhantes à da primeira linha. As transformações das variáveis relacionadas de forma não linear criam novas variáveis relacionadas de forma linear que podem ser analisadas dentro do modelo de regressão linear. Além disso, perceba que a transformação das funções exponencial, logarítmica e potência permite utilizar o modelo de regressão linear simples, apesar de não ser linear a relação entre as variáveis ori- ginais. 203 Estatística Aplicada à Gestão – Capítulo 4 texto i PROjEçãO DAs quAntiDADEs DE REsíDuOs sóliDOs uRbAnOs Para se avaliar corretamente a projeção da geração de lixo per capita é necessário conhecer o tamanho da população residente, bem como o da flutuante, principalmente nas cidades turísticas, quando esta última gera cerca de 70% a mais de lixo do que a população local. População flutuante é um dado significativo a ser considerado na projeção da quantidade de lixo gerado em cidades turísticas. Na inexistência de dados demográficos detalhados podem-se utilizar as projeções populacionais disponíveis para determinação da produção do lixo com o auxílio da tabela abaixo, na qual é estimada uma geração per capita em função do tamanho da população. O exemplo a seguir esclarece os procedimentos a serem adotados. Suponha que se queira projetar um sistema de limpeza urbana para uma cidade sem vocação turística, com uma população urbana atual de 50 mil habitantes, que cresce a uma taxa de 3% ao ano, na qual foi medida uma geração per capita de 530g/hab./dia. Adotando-se um horizonte de 20 anos para a projeção, os valores de população serão os forneci- dos pela tabela. Projeção populacional AnO POP. uRbAnA (hAb.) AnO POP. uRbAnA (hAb.) 2001 50.000 2012 69.211 2002 51.500 2013 71.287 2003 53.045 2014 73.426 2004 54.636 2015 75.629 2005 56.275 2016 77.898 2006 57.963 2017 80.235 2007 59.702 2018 82.642 2008 61.493 2019 85.121 2009 63.338 2020 87.675 2010 65.238 2021 90.305 2011 67.195 Quando a cidade atingir os 90 mil habitantes, a geração per capita deverá ser da ordem de 550g/hab./dia. Assim, pode-se estimar a evolução da produção per capita conforme os valores da tabela seguinte. EvOluçãO PER CAPitA Período Per capita (g/hab./dia) 2001 a 2007 530 2008 a 2014 540 2015 a 2021 550 Dessa forma, calcula-se a projeção da quantidade de resíduos sólidos produzida ano a ano, con- forme a próxima tabela. leituras complementares 204 PROjEçãO DA quAntiDADE DE lixO GERADA AnO PROjEçãO POPulACiOnAl (hAb.) PER CAPitA (kg/hAb./DiA) quAntiDADE DE lixO (t) 2001 50.000 0,53 26,5 2002 51.500 0,53 27,3 2003 53.045 0,53 28,1 2004 54.636 0,53 29,0 2005 56.275 0,53 29,8 2006 57.963 0,53 30,7 2007 59.702 0,53 31,6 2008 61.493 0,54 33,2 2009 63.338 0,54 34,2 2010 65.238 0,54 35,2 2011 67.195 0,54 36,3 2012 69.211 0,54 37,4 2013 71.287 0,54 38,5 2014 73.426 0,54 39,7 2015 75.629 0,55 41,6 2016 77.898 0,55 42,8 2017 80.235 0,55 44,1 2018 82.642 0,55 45,5 2019 85.121 0,55 46,8 2020 87.675 0,55 48,2 2021 90.305 0,55 49,7 BIBLIOTECA VIRTUAL DE DESENVOLVIMENTO SUSTENTÁVEL E SAÚDE AMBIENTAL. Projeção das quantidades de resíduos sólidos urbanos. Disponível em: <www.bvsde.paho.org/ bvsacd/cd29/manualrs/cap6-6.pdf>. Acesso em: 16 set. 2009. texto ii EstuDO sObRE REsíDuOs ElEtROElEtRôniCOsEstimativas feitas a partir do “Diagnóstico da Geração de Resíduos Eletroeletrônicos no Estado de Minas Gerais”, divulgado pela Fundação Estadual do Meio Ambiente (Feam), constataram que em Mi- nas Gerais são descartadas, por ano, cerca de 40 mil toneladas de materiais metálicos integrantes dos resíduos eletroeletrônicos (REEs) provenientes de telefones celulares e fixos, aparelhos de televisão, computadores, rádios, máquinas de lavar roupa, geladeiras e freezers. Compostos por ferro, alumínio, cobre, chumbo, cádmio, mercúrio, ouro, prata, paládio e índio, es- ses resíduos têm cerca de 30% do seu total gerado na região metropolitana de Belo Horizonte (RMBH). Em se tratando de plásticos, são geradas cerca de 17 mil toneladas. Já no caso de vidros, a geração é de, aproximadamente, 6 mil toneladas. Já o Brasil gera em torno de 680 mil toneladas desse mesmo tipo de resíduo. Além de conter materiais que podem vir a ser reciclados e recuperados, estes equipamentos apresentam várias subs- tâncias tóxicas e poluentes, como os metais pesados. O manuseio ou descarte incorreto dos REEs tem potencial de causar problemas à saúde humana e ao meio ambiente, por meio da contaminação, principalmente, do solo e das águas subterrâneas. 205 Estatística Aplicada à Gestão – Capítulo 4 Além das estimativas de geração de REEs, o diagnóstico faz uma análise do fluxo de geração de resíduos eletroeletrônicos, incluindo discussões sobre os diversos atores envolvidos desde a ge- ração até a destinação final. Embora aponte as curvas de geração deste tipo de resíduos em t/ano e kg/hab. para Minas Gerais, o diagnóstico apresenta, sempre que possível, resultados relativos ao Brasil e à região metropolitana de Belo Horizonte até o ano de 2030. O presidente da Feam, José Cláudio Junqueira, afirma que o objetivo do levantamento é fazer uma gestão efetiva dos REEs. “Com base nesses dados, precisamos estabelecer normas para atuar junto à cadeia de produção desses equipamentos e fazer dos fabricantes, distribuidores e revendedores corresponsáveis pelos resíduos gerados”, revelou. De acordo com o diagnóstico, entre 2001 e 2030, cada brasileiro deve gerar em média, a cada ano, em torno de 3,4 kg de REEs. “Este estudo foi realizado para estimar, preliminarmente, a geração atual e futura dos resíduos eletroeletrônicos e auxiliar decisões na busca pela solução dos consequentes problemas ambientais advindos do gerenciamento inadequado”, afirmou Junqueira que é, também, membro do Conselho Nacional do Meio Ambiente (Conama). Com a progressão de descartes de resíduos provenientes de telefones (celular e fixo), televisores, computadores, rádios, máquinas de lavar roupa, geladeiras e freezers, o diagnóstico aponta que o Brasil terá acumulado, aproximadamente, 22 milhões de toneladas de resíduos eletroeletrônicos para disposição, no período de 2001 a 2030, sendo que Minas Gerais representa em torno de 10% desse total. Segundo Gustavo Tetzl Rocha, consultor da Feam e do Swiss Federal Laboratories for Materials Testing and Research (EMPA), centro de pesquisa sediado na Suíça que, ao longo dos últimos anos, tem desenvolvido trabalhos de quantificação e gerenciamento de resíduos eletroeletrônicos em diver- sos países do mundo, os números podem ser ainda maiores. “No diagnóstico consideramos que cada domicílio tem apenas um equipamento eletroeletrônico de cada tipo”, explicou. Para o cálculo da estimativa de geração, foi utilizada a metodologia de Consumo e Uso, estabe- lecida pelo EMPA. O estudo recorreu a indicadores do IBGE e Programa das Nações Unidas para o Desenvolvimento (PNUD), além de fazer projeções na geração destes resíduos a partir do crescimento populacional, com base no último período intercensitário (1991–2000). A partir da identificação dos potenciais problemas ambientais provocados pelos REEs, a Feam pretende iniciar discussões que envolvam a elaboração de normativas para implementação de políticas públicas relativas à gestão deste tipo de resíduos no estado de Minas Gerais, além de apresentar ao Conama sugestões de âmbito nacional. Junqueira ressaltou, por exemplo, que a fabricação de produ- tos que geram resíduos eletroeletrônicos pode estar condicionada ao recolhimento de equipamentos pós-consumo, como ocorre com os fabricantes de pneus. Nacionalmente, podem-se ainda estabelecer metas progressivas para que um produto seja constituído de material reciclável. Para o estado, que passou a contar neste ano com uma legislação específica (Lei n. 18.031/09) para a gestão de resíduos sólidos, o diagnóstico vai permitir avanços na busca de soluções para redu- zir o impacto provocado por estes resíduos, que se avolumam em aterros sanitários, quando não são descartados de forma inadequada, como geralmente ocorre. O presidente da Feam não descarta, por exemplo, a criação de uma proposição para redução de ICMS ou a criação de outro tipo de incentivo para fabricantes, importadores e comerciantes que recolham produtos que esgotaram o seu tempo de vida útil, vendam produtos ecológicos ou desenvolvam tecnologias para segregação de componentes, principalmente placas, que contêm metais pesados. “Temos que planejar uma gestão adequada para evitar que as pessoas acabem se contaminando no momento em que separam as peças a fim de apro- veitar o plástico e o metal nelas contidos”, destacou. 206 Alguns números do diagnóstico: Geração de resíduos eletroeletrônicos: Brasil: 680.000 toneladas/ano MG: 69.000 toneladas/ano RMBH: 21.000 toneladas/ano Geração média per capita anual de resíduos eletroeletrônicos (2001 a 2030), considerando resí- duos provenientes de telefones celulares e fixos, televisores, computadores, rádios, máquinas de lavar roupa, geladeiras e freezers: Brasil: 3,4 kg/habitante MG: 3,3 kg/habitante RMBH: 3,7 kg/habitante Geração média per capita anual de resíduos eletroeletrônicos (2001 a 2030), considerando resí- duos provenientes de telefones celulares e fixos, televisores e computadores: Brasil: 1,0 kg/habitante MG: 1,0 kg/habitante RMBH: 1,1 kg/habitante Projeção de acúmulo de resíduos eletroeletrônicos gerados entre 2001 e 2030, considerando resí- duos provenientes de telefones celulares e fixos, televisores, computadores, rádios, máquinas de lavar roupa, geladeiras e freezers: Brasil: 22 milhões de toneladas MG: 2,2 milhões de toneladas RMBH: 625 mil toneladas Projeção de acúmulo de resíduos eletroeletrônicos gerados entre 2001 e 2030, considerando resí- duos provenientes de telefones celulares e fixos, televisores e computadores: Brasil: 7 milhões de toneladas MG: 680 mil toneladas RMBH: 200 mil toneladas FAROL COMUNITÁRIO. Estudo sobre resíduos eletroeletrônicos. Disponível em: <http://www.setorreciclagem.com.br/modules.php?name=News&file=article&sid=823>. Acesso em: 16 set. 2009. Sugerimos duas obras para você consultar e aprofundar seus estudos. Ambas tratam do tópico “regressão”. Estatística aplicada, dos autores Douglas Downing e Jeffrey Clark, é uma importante obra de referência. Ela apresenta aplicações práticas e estudos de casos reais. Há respostas explicativas dos exercícios pro- postos, o que facilita o estudo. Já a obra Estatística para administração e economia, de James McCla- ve, também é referência para estudantes de graduação, em especial, os da área de administração e contabilidade. Além dos conceitos pró- prios da estatística básica, traz demonstrações de coleta de dados e de análises que contribuem para a tomada de decisões. 207 Estatística Aplicada à Gestão – Capítulo 4 BIBLIOTECA VIRTUAL DE DESENVOLVIMENTO SUSTENTÁVEL E SAÚDE AMBIENTAL. Projeção das quantidades de resíduos sólidos urbanos. Disponível em: <www.bvsde.paho.org/bvsacd/cd29/manualrs/cap6-6.pdf>. Acesso em: 16 set. 2009. FAROL COMUNITÁRIO. Estudo sobre resíduos eletroeletrônicos. Disponível em: <http://www.setorreciclagem.com.br/modules.php?name=News&file=article&sid=823>. Acesso em: 16 set. 2009. TRIOLA, Mario F. Introdução à estatística. 7. ed. Rio de Janeiro. LTC, 1999. Referências Anotações Você estudou: Existem condições necessárias para poder fazer previsões do valor de uma variável. A análise de resíduos permite percebermos se o modelo encontrado é apropriado para os dados. Os resíduos são estimados pela diferença entre o valor observado de y e o valor predito pelo modelo de regressão. A propriedade dos mínimos quadrados é verificada por uma reta quando a soma dos quadrados dos resíduos é a menor possível. É possível ajustarmos equações não lineares ao modelo de regressão linear por meio de transforma- ções. síntese 208 intervalos de variação e predição Conteúdo programático Análise do modelo ajustado Intervalos de predição Objetivos Elaborar uma análise gráfica detalhada dos conceitos de desvio total, desvio explicado e desvio não explicado, considerando a reta de regressão. Compreender o conceito de “resíduo” nesse contexto. Estimar os intervalos de predição, compreendendo que são medidas mais precisas do que estimativas pontuais. 210 análise do modelo ajustado O coeficiente de correlação pode oferecer informações adicionais sobre a variação dos pontos da amostra em torno da reta de regressão. O exemplo a seguir possui informações importantes. Observe. Os resultados de uma grande coleção de dados são os seguintes: Há uma correlação linear significativa. A equação da reta de regressão é yˆ = 3 + 2x. y = 9 Um dos pares de dados da amostra é x = 5 e y = 19. O ponto (5, 13) é um dos pontos da reta de regressão, pois, fazendo x = 5 na equação de regressão, obtemos: yˆ = 3 + 2x = 3 + 2 . 5 = 13 . O ponto (5, 13) está sobre a reta de regressão, mas o ponto (5, 19) pertence ao conjunto original de dados e não pertence à reta de regressão, porque não satisfaz a equação de regressão. Veja o gráfico: Você já estudou como aplicar o coeficiente de correlação linear r para avaliar se havia correlação linear significativa entre duas variáveis. Desvio não explicado Desvio explicado (5,19) (5,13) (5, 9) y = 2x + 3 0 1 2 3 4 75 86 9 Figura 48 – Representação gráfica dos desvios. Segundo Triola (1999), para uma coleção de dados emparelhados que contenha o ponto (x, y), sendo yˆ o valor predito de y (dado através da equação de regressão), e y a média dos valores amostrais de y, temos que: O desvio total (em relação à média) do ponto (x, y) é a distância vertical y – y, que é a distância entre o ponto (x, y) e a reta horizontal que passa pela média amostral y. O desvio explicado é a distância vertical yˆ – y , que é a distância entre o valor predito yˆ e a reta horizontal que passa pela média amostral. 20 18 16 14 12 10 8 6 4 2 0 211 Estatística Aplicada à Gestão – Capítulo 4 r2 = variação explicada variação total O desvio não explicado é a distância vertical y – yˆ, ou seja, a distância vertical entre o ponto (x, y) e a reta de regressão. (A distância y – yˆ também é chamada de resíduo.) Para os dados considerados, obtemos os seguintes resultados: desvio t otal de (5, 19) = y – y = 19 – 9 = 10; desvio explicado de (5, 19) = yˆ – y = 13 – 9 = 4; desvio não e xplicado de (5, 19) = 19 – 13 = 6. Para predizer um valor de y, dado um valor de x e uma coleção de dados (x, y), é necessária uma correlação linear significativa, caso contrário, a melhor estimativa seria y . Para predizer o valor de y, quando x = 5, aplicamos a equação de regressão, que resulta yˆ = 13, cal- culado anteriormente. Para explicar a discrepância entre y = 9 e yˆ = 13, é preciso notar que existe uma correlação linear significativa cuja melhor descrição é a reta de regressão. Consequentemente, quando x = 5, y deveria ser 13 e não 9. Contudo, quando deveria ser 13, y é realmente 19. A discrepância entre 13 e 19 não pode ser explicada pela reta de regressão e é chamada de desvio não explicado ou resíduo: (desvio total) = (desvio explicado) + (desvio não explicado) ou (y – y) = (yˆ – y) + (y – yˆ ) Essa expressão é aplicada em um ponto particular (x, y), mas pode ser generalizada e modificada de modo a incluir todos os pares de dados da amostra, conforme a fórmula abaixo: (variação total) = (variação explicada) + (variação não explicada) ou y = y + y y 2 2 2 – – –( ) ( ) ( )ååå ˆ ˆ Nesse caso: a variação total é expressa como a soma dos quadrados dos desvios totais; a variação explicada é a soma dos quadrados dos desvios explicados; a variação não explicada é a soma dos quadrados dos desvios não explicados. O coeficiente de determinação também pode ser calculado em função das variáveis já citadas. Lem- brando que se trata de um coeficiente que explica a variação de y pela reta de regressão e é dado por: intervalos de predição Uma empresa está analisando a variação da demanda de certo produto em função de seu preço de venda e obteve a equação de regressão yˆ = 375,9 1,73x– , em que yˆ representa o número de unidades vendidas. Com essa equação podemos estimar o valor de y para qualquer valor de x. Por exemplo, se x = R$ 120,00, y seria aproximadamente 168 unidades. y y 212 Como 168 é um valor único, é chamado de estimativa pontual. Sabemos, no entanto, que estimativas pontuais têm a desvantagem de não dar qualquer ideia de sua precisão. No exemplo citado, temos que o melhor valor predito é 168, mas não sabemos quão preciso ele é. Um intervalo de predição é uma estimativa em torno de um intervalo para um valor predito de y. Nesse caso, podemos utilizar, então, um intervalo de predição, que consiste numa estimativa intervalar de confiança em relação a um valor predito de y. O estabelecimento de um intervalo de predição exige uma medida de dispersão dos pontos amostrais em torno da reta de regressão. Devemos diferenciar desvio não explicado (resíduo) e erro padrão: desvio não explicado: distância vertical entre um ponto amostral e a reta de regressão; erro padrão: medida coletiva da dispersão dos pontos amostrais em torno da reta de regressão. O erro padrão da estimativa (se) é a medida das diferenças entre os valores dos dados coletados y e os valores estimados yˆ obtidos através da reta de regressão. O erro padrão é dado por: s = y y n 2e 2 – – ˆ( )å , em que yˆ é o valor predito de y. O desenvolvimento do erro padrão da estimativa (se) acompanha o do desvio padrão ordinário. Assim como o desvio padrão mede o quanto os dados se desviam de sua média, o erro padrão de estimativa é uma medida de quanto os pontos amostrais se afastam da reta de regressão. Quanto menores forem os valores de se, mais próximos da reta de regressão estarão os pontos; valores maiores de se correspondem a valores mais afastados da reta. Devido à praticidade, uma fórmula bastante utilizada para o cálculo do erro padrão da estimativa é a seguinte: s = y a y b xy n 2e 2 – – – ååå Neste caso, a e b são os coeficientes de regressão. Aplique a fórmula anterior para calcular o erro padrão da estimativa dos exemplos seguintes. Vamos retomar um exemplo e ampliar a sua resolução. Uma empresa está analisando a variação da 1. demanda de certo produto em função de seu preço de venda. Na tabela seguinte constam as informa- ções quanto aos meses, as unidades vendidas e o preço da venda. mEsEs uniDADEs vEnDiDAs (y) PREçO DE vEnDA (x) POR uniDADE Janeiro 147 132,00 Fevereiro 140 137,00 Março 134 142,00 Abril 126 148,00 Maio 110 150,00 213 Estatística Aplicada à Gestão – Capítulo 4 Junho 103 156,00 Julho 97 160,00 Agosto 89 164,00 Setembro 81 170,00 Outubro 73 178,00 ∑ 1 100 1 537,00 n = 10 ∑ y2 = 12 6970 ∑ x2 = 238 177∑ xy = 165 708 y = 110 x = 153,7 Fonte: Os autores. 1.o) Cálculo dos parâmetros: b = xy n n = 165 708 1 537 . 1 100 10 2 2 – – – x y x x å( ) å( ) å å( ) å 2238 177 1537 10 = 3 362 1 940,1 = 1,7329 2 – – – ( ) a = b = 110 ( 1,7329) . 153,7 = 376,35y x– – – 2.o) Equação de regressão: yˆ = a + bx = 376,35 1,7329x– O resultado b = –1,7329 significa que, para cada unidade de variação positiva de preço (x), a quantida- de procurada (y) decresce 1,7329 unidades. Podemos, então, achar o erro padrão da estimativa se: s = y a y b xy n 2 = 126 970 376,3468 . 1 100 e 2 – – – – –ååå (( 1,7329) . 165 708 10 2 = 143,91 8 = 4,24 s = 4,24e – – Avaliamos, então, a dispersão dos pontos amostrais em torno da reta de regressão com o erro padrão de estimativa s = 4,24e . Figura 49 – Unidades vendidas e preço por unidade. 200 150 100 50 0 0 20 Un id ad es v en di da s Preço por unidade 40 60 80 100 120 160140 214 Com a ajuda do erro padrão de estimativa se, podemos construir estimativas intervalares para avaliar quão confiáveis são as estimativas pontuais obtidas. Suponha que, para cada valor fixo de x, os valores amostrais correspondentes de y se distribuam normalmente em torno da reta de regressão, e que essas distribuições normais tenham a mesma variância. A estimativa intervalar seguinte se aplica a um y indivi- dual. Dado um valor fixo x0, o intervalo de predição para um determinado y é: yˆ – ε < y < yˆ – ε A margem de erro ε é dada por: ε = t s 1 + 1 n + n x x n x x2 e 0 2 2 2a – – ( ) å( ) å( ) em que: x0 representa o valor dado de x; ta 2 tem n – 2 graus de liberdade; se é o erro padrão da estimativa. A distribuição t de Student, conhecida como distribuição t, é utilizada na determinação de valores críticos denotados por ta 2 . A tabela a seguir apresenta dados referentes a aluguel (em reais) de 10 casas e os anos de construção do imóvel: AluGuEl (y) AnOs DE COnstRuçãO (x) 450 200 180 500 320 265 320 580 150 290 2 6 10 4 6 8 5 3 12 9 A partir dos dados iremos construir um intervalo de predição de 95% para o valor do aluguel de um imóvel com 7 anos de construção. É necessário revisar os procedimentos para a obtenção da reta de regressão e das demais informa- ções pertinentes. Fonte: Os autores. 215 Estatística Aplicada à Gestão – Capítulo 4 1.o) Construímos a tabela auxiliar: y x xy x2 y2 450 200 180 500 320 265 320 580 150 290 2 6 10 4 6 8 5 3 12 9 900 1 200 1 800 2 000 1 920 2 120 1 600 1 740 1 800 2 610 4 36 100 16 36 64 25 9 144 81 202 500 40 000 32 400 250 000 102 400 133 225 102 400 336 400 22 500 84 100 3 255 65 17 690 515 1 305 925 2.o) Determinamos o coeficiente de correlação: rxy 2 2 2 2 = xy x . y n x x n y y n – – – å( ) å( ) å å( ) å é ë ê ê ê ù û ú ú ú å( ) å éé ë ê ê ê ù û ú ú ú = 0,842 3.o) Obtemos os parâmetros de regressão: b = xy n n = 17 690 65 . 3 255 10 5152 2 – – – x y x x å( ) å( ) å å( ) å 65 10 = 3 467,5 92,5 = 37,486 2 – – – ( ) a = b = 325,5 ( 37,486) . 6,5 = 569,16y x– – – 4.o) Chegamos à reta de regressão (modelo ajustado): yˆ = 569,16 37,486x– O valor predito para x = 7 é ˆ ˆy = 569,16 37,486x y = 569,16 37,486 . 7 = 306,76– –Þ 5.o) Calculamos a média x dos dados: x = x n = 65 10 = 6,5å 6.o) Calculamos a média y dos dados: y = y n = 3 255 10 = 325,5å (Percebemos que as variáveis têm correlação.) . 216 7.o) Calculamos o erro padrão da estimativa: s = y a y b xy n 2 = 1 305 925 569,16 . 3 255 ( e 2 – – – – – –ååå 337,486) . 17 690 10 2 = 12 937,39 8 = 40,214 – 8.o) Calculamos a margem de erro: Um grau de confiança de 95% que corresponda a a = 0,05 é a escolha mais comum porque propor- ciona bom equilíbrio entre a precisão e a confiabilidade. Pela tabela, temos que ta 2 = 2,262 (interseção da coluna 0,05 bilateral com a linha correspondente a n – 1 = 10 – 1 = 9 graus de liberdade) (ver tabela de distribuição t na página 219). Fazemos, então, x0 = 13 (porque queremos o intervalo de predição de y para x = 13). ε = t s 1 + 1 n + n x x n x x = 2,262 . 40,214 a 2 e 0 2 2 2 – – ( ) å( ) å( ) 11 + 1 10 + 10 . 7 6,5 10 . 515 65 2 2 – – ( ) ( ) ε = 2,262 . 40,214 . 1,05 = 95,52 Com ˆ ,y = 306 76 e ε = 95,52, obtemos o seguinte intervalo de predição: yˆ – ε < y < yˆ + ε 306,76 95,52 < y < 306,76 + 95,52 211,24 < y < 402,28 – Então, para um imóvel de 7 anos de construção, temos 95% de confiança de que o verdadeiro valor do aluguel esteja entre R$ 211,24 e R$ 402,28. O intervalo é grande porque o tamanho da amostra é pe- queno. leia o artigo “Desvio padrão ou erro padrão: qual utilizar?”, publicado no site http://apps.einstein.br/revista/arquivos/PDF/971-EC%20v6n3%20 p107-8.pdf. A autora do texto, Ângela tavares Paes, buscou esclarecer conceitos da estatística que aparecem comumente em artigos científi- cos. Pela leitura do texto, é possível verificar a diferença entre os ter- mos “desvio padrão” e “erro padrão” e sua importância no momento da análise de dados. texto i APliCAbiliDADE DOs mODElOs DE REGREssãO Fazendo música com regressão múltipla A Sony fabrica milhões de discos compactados em Terre Haute, Indiana. Em um estágio do pro- cesso de fabricação, um laser expõe uma chapa fotográfica de modo que um sinal musical seja trans- leituras complementares 217 Estatística Aplicada à Gestão – Capítulo 4 ferido para um sinal digital codificado com 0 e 1s. Este processo foi analisado estatisticamente, para identificar os efeitos de diferentes variáveis, como o tempo de exposição e a consistência da emulsão fotográfica. Os métodos de regressão múltipla mostraram que, entre todas as variáveis consideradas, quatro eram altamente significativas. O processo fotográfico foi ajustado para otimizar resultados com base nas quatro variáveis críticas. Como resultado, a percentagem de discos defeituosos diminuiu, mantendo-se a qualidade do som. O emprego de métodos de regressão múltipla levou a custos mais baixos de produção e melhor controle do processo de fabricação. A estatística no tribunal Os proprietários de um complexo de cinco edifícios de apartamentos na cidade de Nova York moveram uma ação em virtude de danos causados aos tijolos. O dano ocorreu quando a água foi absorvida pela parede de tijolos, seguindo-se ciclos de congelamento e descongelamento, o que fez com que a parede rachasse. Com cerca de 750.000 tijolos, não seria possível inspecionar um a um, o que levou à adoção de métodos de amostragem. Estatísticos aplicaram métodos de regressão para predizer o número total de tijolos danificados. As variáveis independentes incluíram qual dos cinco edifícios foi utilizado, a orientação da parede, a altura, e se a parede se voltava para o pátio interno ou era uma parede externa. A estimativa do dano total parece ter influenciado fortemente os acordos [judiciais] finais. TRIOLA, Mario F. Introdução à estatística. 7. ed. Rio de Janeiro: LTC, 1999. texto ii umA mEtODOlOGiA DE PREDiçãO EstAtístiCA DE PROjEtOs bAsEADA Em simulAçãO Segundo Pressman [2002], a imprecisão de estimativas é um dos problemas cruciais enfrentados pela indústria de software. A baixa qualidade e produtividade, o atraso significativo na entrega de pro- dutos (mais de 200%) e a extrapolação de custos previamentedefinidos (mais de 90%) representam a realidade atual do desenvolvimento de software [Standish, 1995]. Paula [2003] afirma que muitos gerentes não sabem de fato estimar e realizam “previsões” com base em sua experiência, muitas vezes insuficiente, com relação à equipe de desenvolvimento. Isso pode ocasionar prejuízos financeiros à organização, além da insatisfação dos seus clientes. Uma das maneiras de resolver este problema é dar condições para que a organização possa predi- zer, de maneira confiável, as chances de um projeto futuro atingir seus objetivos dentro do prazo, custo e qualidade definidos. A partir da percepção da execução do projeto, a negociação de prazo pode ser feita com maior segurança, diminuindo o risco de atrasos. Visando uma maior aproximação à realidade da organização, uma predição pode combinar a es- timativa definida pelo gerente, com a natureza e disponibilidade atual de recursos da organização. Isso pode ser feito através de simulação, que prediz a execução de um dado projeto de maneira mais realista, através da utilização dos recursos humanos e financeiros disponíveis para o projeto, durante a execução do cronograma previsto pelo gerente. Além disso, devido à natureza dinâmica e estocástica de um ambiente de desenvolvimento de software, a predição de um projeto deve considerar ainda o possível aumento no custo e tempo de execução de tarefas, causado pela ocorrência de eventos, associados aos riscos de projeto. 218 Caso não seja considerado na simulação, esse aumento de tempo pode ser tratado estatisticamen- te, pela utilização do histórico de projetos da organização. Neste caso, a predição é realizada com base na capacidade e maturidade da organização com relação ao atraso, identificados durante a análise de seu histórico de projetos. A partir daí, as organizações são incentivadas a aumentar a capacidade e maturidade do processo de estimativas, já identificadas, fornecendo maior confiabilidade na predição de seus projetos. Segundo Oliveira [2006], a aplicação de práticas, definidas em modelos de qualidade como o CMMI [Paulk et al., 1993], que visam aumentar continuamente a qualidade dos processos de uma organização, acarreta as seguintes melhorias [...]: Previsibilidade: o amadurecimento da organização ocasiona uma maior previsibilidade, ou seja, menor será a diferença entre resultados esperados e realizados dos projetos, aumentando a validade e eficácia de predições. Tal característica é comum em organizações no nível de ma- turidade 2 do modelo CMMI. Controle: organizações maduras conseguem um maior controle sobre seus projetos, resultando em uma menor variabilidade dos resultados observados ao redor dos resultados estimados, aumentando a confiabilidade das estimativas e a eficiência do processo. Tal característica co- meça a se tornar comum em organizações no nível de maturidade 3 e prossegue no nível 4 do CMMI. Efetividade: o amadurecimento da organização aumenta ainda sua efetividade, ou seja, o au- mento na qualidade dos resultados estimados dos projetos, o que está ligado ao aumento da capacidade do processo. SOUzA, Mariane Moreira de. Uma metodologia de predição estatística de projetos baseada em simulação. Dissertação, Universidade Federal de Pernambuco, Recife, 2007. Disponível em: <http://www.cin.ufpe.br/~imppros/Publicacoes.html>. Acesso em: 17 set. 2009. Você estudou: Desvio total é a distância entre o ponto (x, y) e a reta horizontal que passa pela média amostral. Desvio explicado é a distância entre o valor previsto de y e a reta horizontal que passa pela média amostral. Desvio não explicado (ou resíduo) é a distância entre o ponto (x, y) e a reta de regres- são. O coeficiente de determinação é o valor da variação de y que é explicado pela reta de regressão. O erro padrão da estimativa (s e) é uma medida das diferenças entre os valores amostrais observados e os valores estimados através da reta de regressão. síntese SOUzA, Mariane Moreira de. Uma metodologia de predição estatística de projetos baseada em simulação. Dissertação, Universidade Federal de Pernambuco, Recife, 2007. Disponível em: <http://www.cin.ufpe.br/~imppros/Publicacoes. html>. Acesso em: 17 set. 2009. TOLEDO, Geraldo Luciano; OVALLE, Ivo Izidoro. Estatística básica. 2. ed. São Paulo: Atlas, 1995. TRIOLA, Mario F. Introdução à estatística. 7. ed. Rio de Janeiro: LTC, 1999. Referências 219 Estatística Aplicada à Gestão – Capítulo 4 tAbElA DE DistRibuiçãO t DE stuDEnt Critical values of Student's t-distribution Fonte: http://www.umanitoba.ca/statistics/faculty/johnson/tables/t-Dist.pdf. v 0,9 0,5 0,4 0,2 0,1 0,05 0,02 0,01 0,001 v 1 .158 1.000 1.376 3.078 6.314 12.706 31.821 63.657 636.619 1 2 .142 .816 1.061 1.886 2.920 4.303 6.965 9.925 31.598 2 3 .137 .765 .978 1.638 2.353 3.182 4.541 5.841 12.924 3 4 .134 .741 .941 1.533 2.132 2.776 3.747 4.604 8.610 4 5 .132 .727 .920 1.476 2.015 2.571 3.365 4.032 6.869 5 6 .131 .718 .906 1.440 1.943 2.447 3.143 3.707 5.959 6 7 .130 .711 .896 1.415 1.895 2.365 2.998 3.499 5.408 7 8 .130 .706 .889 1.397 1.860 2.306 2.896 3.355 5.041 8 9 .129 .703 .883 1.383 1.833 2.262 2.821 3.250 4.781 9 10 .129 .700 .879 1.372 1.812 2.228 2.764 3.169 4.587 10 11 .129 .697 .876 1.363 1.796 2.201 2.718 3.106 4.437 11 12 .128 .695 .873 1.356 1.782 2.179 2.681 3.005 4.318 12 13 .128 .694 .870 1.350 1.771 2.160 2.650 3.012 4.221 13 14 .128 .692 .868 1.345 1.761 2.145 2.624 2.977 4.140 14 15 .128 .691 .866 1.341 1.753 2.131 2.602 2.947 4.073 15 16 .128 .690 .865 1.337 1.746 2.120 2.583 2.921 4.015 16 17 .128 .689 .863 1.333 1.740 2.110 2.567 2.898 3.965 17 18 .127 .688 .862 1.330 1.734 2.101 2.552 2.878 3.922 18 19 .127 .688 .861 1.328 1.729 2.093 2.539 2.861 3.883 19 20 .127 .688 .860 1.325 1.725 2.086 2.528 2.845 3.850 20 21 .127 .686 .859 1.323 1.721 2.080 2.518 2.831 3.819 21 22 .127 .686 .858 1.321 1.717 2.074 2.508 2.819 3.792 22 23 .127 .685 .858 1.319 1.714 2.069 2.500 2.807 3.767 23 24 .127 .685 .857 1.318 1.711 2.064 2.492 2.797 3.745 24 25 .127 .684 .856 1.316 1.708 2.060 2.485 2.787 3.725 25 26 .127 .684 .856 1.315 1.706 2.056 2.479 2.779 3.707 26 27 .127 .684 .855 1.314 1.703 2.052 2.473 2.771 3.690 27 28 .127 .683 .855 1.313 1.701 2.048 2.467 2.763 3.674 28 29 .127 .683 .854 1.311 1.699 2.045 2.462 2.756 3.659 29 30 .127 .683 .854 1.310 1.697 2.042 2.457 2.750 3.646 30 40 .126 .681 .851 1.303 1.684 2.021 2.423 2.704 3.551 40 60 .126 .679 .848 1.296 1.671 2.000 2.390 2.660 3.460 60 120 .126 .677 .845 1.289 1.658 1.980 2.358 2.617 3.373 120 ∞ .126 .674 .842 1.282 1.645 1.960 2.326 2.576 3.291 ∞ α α –4 –3 –2 –1 0 –5 –4 –3 –2 –1 0 1 2 3 4 5 ƒ ƒ a 2 a 21 2 2 – a 1 2 2 – a 220 Atividades do capítulo As notas de Português e Matemática de 12 estudantes selecionados aleatoriamente entre os alunos do 1. 3.o ano de um colégio estão na tabela abaixo. Calcule o coeficiente de correlação entre a) x e y. Faça o diagrama de dispersão.b) AlunO PORtuGuês mAtEmátiCA A B C D E F G H I J K 65 80 65 43 55 40 71 65 60 68 49 92 65 82 78 90 75 78 85 83 91 80 Colete dados sobre a altura (cm) e o peso (kg) de alguns indivíduos. Determine o coeficiente de corre-2. lação entre as variáveis pesquisadas. Os dados da tabela abaixo mostram as vendas de determinado produto (em unidades) e os gastos com 3. propaganda na TV (em R$). mEsEs vEnDAs (y) GAstOs COm PROPAGAnDA Janeiro Fevereiro Março Abril Maio Junho Julho Agosto Setembro Outubro novembro Dezembro 550 230 378 427 173 397 538 298 469 285 493 512 1273 785 869 1005 584 905 1173 740 998 698 973 1305 Elabore um diagrama de dispersão.a) Obtenha o coeficiente de correlação e interprete o resultado.b) Uma empresa analisou os gastos com publicidade nos últimosanos e sua relação com o volume de 4. vendas. Os resultados estão apontados na tabela a seguir, ambos expressos em mil reais. Fonte: Os autores. Fonte: Os autores. 221 Estatística Aplicada à Gestão – Capítulo 4 AnOs GAstOs COm PubliCiDADE (x) vEnDAs (y) 2008 2007 2006 2005 2004 2003 2002 2001 2 3 4 7 10 12 17 23 5 8 10 15 23 28 37 49 Organize uma tabela que facilite as somas.a) Estime os parâmetros b) a e b. Dê a equação de ajuste (equação de regressão).c) Monte o diagrama de dispersão.d) Determine o coeficiente de determinação, comentando sobre o resultado observado.e) Uma empresa analisou a relação entre o número de horas (em milhões) de trabalho (x) e o número de 5. acidentes ocorridos (y). númERO DE hORAs (x) númERO DE ACiDEntEs (y) x2 y2 xy 4 6 10 13 17 20 11 13 17 18 22 24 Complete o quadro.a) Determine os parâmetros b) a e b e monte a reta de regressão. Determine e interprete o coeficiente de determinação.c) De acordo com a propriedade dos mínimos quadrados, a reta de regressão minimiza a soma dos 6. quadrados dos resíduos. Vimos que, com os dados emparelhados a seguir, a equação de regressão é yˆ = 5 + 4x , e que a soma dos quadrados dos resíduos é 364. Mostre que a equação yˆ = 8 + 3x resulta em uma soma de quadrados maior do que 364. x 1 2 4 5 y 4 24 8 32 Os dados expressos na tabela referem-se às vendas (em milhares de unidades) e ao preço médio por 7. unidade (em mil reais) de veículos 1.0 das concessionárias Fiat, Ford, GM, Volkswagen e Renault no mês de setembro de 2008. mARCA PREçO (x) vEnDAs (y) Fiat 27,21 31,16 Ford 29,63 14,50 GM 27,33 29,70 Volkswagen 28,29 24,52 Renault 30,01 4,68 Fonte: Os autores. Fonte: www.fundap.sp.gov.br/...workshop/Apresentação%20de%20Aurélio%20Santana.pdf. 222 Considerando esses dados, construa um intervalo de predição de 95% para um veículo cujo valor seja R$ 29.0000,00. Complete a tabela para facilitar seus cálculos e siga os procedimentos descritos neste capítulo. x y xy x2 y2 27,21 31,16 29,63 14,50 27,33 29,70 28,29 24,52 30,01 4,68 Figura 50 – Venda de veículos 1.0 em função do preço. Anotações Preço 35 30 25 20 15 10 5 0 Ve n da s 27 27,5 28 28,5 29 29,5 30 30,5 223 Estatística Aplicada à Gestão – Capítulo 4 224
Compartilhar