Baixe o app para aproveitar ainda mais
Prévia do material em texto
125 UNIDADE 3 CORRELAÇÃO E REGRESSÃO LINEAR OBJETIVOS DE APRENDIZAGEM PLANO DE ESTUDOS A partir desta unidade você será capaz de: • apresentar o conceito de regressão linear; • exibir o método dos mínimos quadrados para ajudar a reta de regressão; • explicar como se dá a regressão múltipla; • aprender a ajustar o plano de regressão múltipla. A Unidade 3 está dividida em três tópicos, contendo exemplos e, no final de cada um deles, há exercícios para lhe familiarizar com o assunto. TÓPICO 1 – CORRELAÇÃO TÓPICO 2 – REGRESSÃO LINEAR TÓPICO 3 – REGRESSÃO MÚLTIPLA Assista ao vídeo desta unidade. 126 127 TÓPICO 1 CORRELAÇÃO UNIDADE 3 1 INTRODUÇÃO Muitas vezes, ao realizarmos uma pesquisa estatística, não nos interessa apenas o comportamento das variáveis isoladamente, mas sim, o comportamento de duas ou mais variáveis ao mesmo tempo. Por exemplo: • A variação no valor do dólar em relação ao real afetou a importação de mercadorias? • O aumento de investimento em turismo resultou em um aumento no fluxo de turistas? • A quantidade de água adicionada à determinada marca de cimento afeta na qualidade do concreto resultante? • O aumento salarial para funcionários de certa empresa afetou o volume de vendas? • O investimento na compra de maquinário reverteu positivamente no lucro de uma empresa? Neste tópico, aprenderemos a relacionar duas variáveis, e a verificar se há algum tipo de relação entre elas: se o comportamento de uma afeta o comportamento da outra. 2 RELAÇÃO ENTRE VARIÁVEIS Suponhamos que uma pesquisa detectou o número de vestibulares prestados por cada estudante antes da sua aprovação em determinada universidade. Para que a pesquisa ficasse mais completa, foi perguntado também a cada um dos estudantes se ele trabalhava na época ou não. Os dados obtidos com a pesquisa aplicada a 10 estudantes foram os seguintes: UNIDADE 3 | CORRELAÇÃO E REGRESSÃO LINEAR 128 Onde X é a variável ‘número de vestibulares prestados antes da primeira aprovação’ e Y é a variável ‘trabalhava’. Imagina-se que o fato de trabalhar fora afete o desempenho do estudante nos vestibulares negativamente, ou seja, imagina-se que estas variáveis estejam relacionadas de alguma forma, mas olhando simplesmente para os dados sem agrupá-los, fica difícil tirar qualquer conclusão. Uma tabela de dupla entrada poderia facilitar a análise. Para isso, vamos construir uma tabela auxiliar, contendo as possibilidades conjuntas de X e Y e a frequência observada de cada uma: TABELA 49 – TABELA AUXILIAR PARA CONSTRUÇÃO DA TABELA DE DUPLA ENTRADA (X, Y) ni (1, sim) 3 (1, não) 4 (2, sim) 1 (2, não) 1 (3, sim) 1 (3, não) 0 TOTAL 10 FONTE: A autora Agora estamos em condições de construir uma tabela de dupla entrada: TABELA 50 – RELAÇÃO ENTRE VESTIBULARES PRESTADOS ANTES DA PRIMEIRA APROVAÇÃO E TRABALHO N ú m e r o d e v e s t i b u l a r e s prestados Trabalhava na época TOTAL Sim Não 1 3 4 7 2 1 1 2 3 1 0 1 TOTAL 5 5 10 FONTE: A autora TÓPICO 1 | CORRELAÇÃO 129 A primeira e a última coluna nos dão o que chamamos de tabela marginal de X, e a primeira e a última linha nos dão a tabela marginal de Y. xi ni yi ni 1 7 Sim 5 2 2 Não 5 3 1 TOTAL 10 TOTAL 10 Observe que nada mais são do que as distribuições de frequência das variáveis X e Y, respectivamente. A tabela de dupla entrada permite então visualizar o comportamento das duas variáveis ao mesmo tempo. EXEMPLO: Em certa unidade de saúde, o comportamento conjunto dos casos mensais de sarampo (S) e difteria (D) foi o seguinte): Dia 1 2 3 4 5 6 7 8 9 10 S 0 1 1 3 0 2 2 1 2 1 D 3 2 2 2 3 2 1 2 2 1 Dia 11 12 13 14 15 16 17 18 19 20 S 1 1 2 0 0 1 1 2 3 1 D 2 2 3 2 1 2 2 1 3 2 Dia 21 22 23 24 25 26 27 28 29 30 S 0 1 2 1 0 0 0 1 1 2 D 2 2 2 1 2 1 1 1 3 3 FONTE: Adaptado de: Magalhães e Lima (2010) Vamos construir a tabela auxiliar, contendo as possibilidades conjuntas de S e D e a frequência observada de cada uma. Os valores observados para a variável S (sarampo) foram 0, 1, 2 e 3 respectivamente, enquanto para a variável D (difteria), foram 1, 2 e 3 respectivamente. A tabela auxiliar deve conter todas as combinações possíveis destes valores. UNIDADE 3 | CORRELAÇÃO E REGRESSÃO LINEAR 130 TABELA 51 – TABELA AUXILIAR PARA CONSTRUÇÃO DA TABELA DE DUPLA ENTRADA (S, D) ni (0, 1) 3 (0, 2) 3 (0,3) 2 (1, 1) 3 (1, 2) 9 (1,3) 1 (2,1) 2 (2,2) 3 (2,3) 2 (3,1) 0 (3,2) 1 (3, 3) 1 TOTAL 30 FONTE: A autora Agora estamos em condições de montar a tabela de dupla entrada: TABELA 52 – RELAÇÃO ENTRE VARIÁVEIS CASOS MENSAIS DE SARAMPO E DIFTERIA NA UNIDADE DE SAÚDE Difteria Sarampo TOTAL 0 1 2 3 1 3 3 2 0 8 2 3 9 3 1 16 3 2 1 2 1 6 TOTAL 8 13 7 2 30 FONTE: Magalhães e Lima (2010) 3 INDEPENDÊNCIA ENTRE VARIÁVEIS Uma vez que sabemos esboçar a tabela de distribuição conjunta de duas variáveis, a pergunta que se coloca agora é: como saber se o comportamento de uma influência é o comportamento da outra? Será que há relação entre elas? Será que o comportamento de uma depende do comportamento da outra? TÓPICO 1 | CORRELAÇÃO 131 Estas perguntas são importantes porque, se as variáveis forem dependentes, podemos explicar como uma delas de comporta em função do desempenho da outra. Embora difíceis de responder por completo, há algumas maneiras de chegarmos a respostas parciais para estas questões. Uma maneira de obter algum tipo de informações sobre dependência (ou independência) é observar o comportamento de uma das variáveis mantendo a outra constante. Se duas variáveis X e Y forem independentes, por exemplo, é esperado que o fato de X ser 2 ou 3 não afete o comportamento de Y. Vamos entender como fazer isso partindo do exemplo anterior, sobre o número de casos diários de sarampo e difteria observados na unidade de saúde. A tabela de distribuição conjunta nos fornece também o comportamento das variáveis por si só, por meio das distribuições marginais. TABELA 53 – RELAÇÃO ENTRE VARIÁVEIS CASOS MENSAIS DE SARAMPO E DIFTERIA NA UNIDADE DE SAÚDE Difteria Sarampo TOTAL 0 1 2 3 1 3 3 2 0 8 2 3 9 3 1 16 3 2 1 2 1 6 TOTAL 8 13 7 2 30 FONTE: Magalhães e Lima (2010) Se o número de casos diários de sarampo, por exemplo, não interfere no número de casos diários de difteria, era de se esperar que o fato de terem 30 casos de sarampo, 8 ou 16 não fizesse diferença: o comportamento da variável ‘difteria’ seria o mesmo, isto é, o número de casos seria proporcional. Uma maneira de verificar esta relação é calcular as porcentagens dos casos de difteria em relação aos casos de sarampo. Para isso, mantém-se fixa a última linha da tabela e consideram-se aqueles valores como sendo 100% dos casos observados. Em seguida, calcula-se quanto cada número de ocorrências na coluna representa sobre o número de casos de sarampo. Vamos fazer os cálculos para a primeira coluna – os outros são análogos. Total de dias em que não houve ocorrências de sarampo: 8. Para a primeira coluna, 8 corresponderá a 100%. UNIDADE 3 | CORRELAÇÃO E REGRESSÃO LINEAR 132 Nos dias em que não houve casos de sarampo, em 3 deles houve uma ocorrência de difteria, o que corresponde a 37,5% dos dias ((3/8)∙100%); em 3 deles houve duas ocorrências de difteria, o que corresponde a 37,5% dos dias ((3/8)∙100%); em 2 deles houve três ocorrências de difteria, o que corresponde a 25% dos dias. Pronto, já temos os dados da primeira coluna. Repetimos o procedimento para uma das colunas da tabela, obtendo os seguintes valores no final: TABELA 54 – INDEPENDÊNCIA ENTRE VARIÁVEIS CASOS MENSAIS DE SARAMPO E DIFTERIA NA UNIDADE DE SAÚDE Difteria Sarampo TOTAL 0 1 2 3 1 37,5% 23,1% 28,6% 0,0% 26,7% 2 37,5% 69,2% 42,8% 50,0% 53,3% 3 25,0%7,7% 28,6% 50,0% 20,0% TOTAL 100,0% 100,0% 100,0% 100,0% 100,0% FONTE: A autora Se as variáveis fossem independentes, era de se esperar que o comportamento da última coluna fosse repetido, ou pelo menos muito próximo do comportamento das outras colunas (que o número de casos de sarampo não interferisse no comportamento dos casos diários de difteria). Entretanto, observe que o comportamento das variáveis é bem distinto. Portanto, podemos concluir que há, sim, algum tipo de dependência entre elas, isto é, o aparecimento de casos de sarampo, por alguma razão, interfere no número de aparecimentos de casos de difteria na unidade de saúde em questão. EXEMPLO 2: Considere a seguinte tabela conjunta que apresenta o gênero dos turistas em relação à sua procedência (Adaptado de: Farhat; Elian (2006)). TABELA 55 – PERFIL DOS TURISTAS DA REGIÃO Gênero Região de Procedência TOTAL Perto Longe Feminino 6 7 13 Masculino 4 5 9 TOTAL 10 12 22 FONTE: A autora. Vamos ver se as variáveis estão relacionadas, isto é, se existe dependência entre as duas. Para isso, consideremos a tabela de porcentagens por coluna: TÓPICO 1 | CORRELAÇÃO 133 TABELA 56 – PERFIL DOS TURISTAS DA REGIÃO Gênero Região de Procedência TOTAL Perto Longe Feminino 60,00% 58,33% 59,09% Masculino 40,00% 41,67% 40,91% TOTAL 100,00% 100,00% 100,00% FONTE: A autora Embora os números sejam diferentes, observe que eles são muito próximos. É possível concluir que haja independência entre elas, ou seja, a região de procedência do turista nada tem a ver com o seu gênero. Dificilmente, mesmo em caso de independência de variáveis, os valores das porcentagens em colunas diferentes serão exatamente iguais – estamos lidando com dados estatísticos. Assim, existem medidas matemáticas que nos dizem se as diferenças entre valores são suficientemente pequenas para concluirmos pela independência ou não entre as variáveis: uma delas é o Q2. Essas medidas fogem do escopo deste livro, mas você pode encontrar mais detalhes sobre o Q2 e sua análise em Magalhães e Lima (2010). 4 A CORRELAÇÃO Embora tenhamos concluído pela dependência ou não de variáveis nos exemplos anteriores analisando a tabela de distribuição conjunta, não conseguimos medir esta dependência. Por exemplo, aparentemente, havia relação entre as variáveis ‘difteria’ e ‘sarampo’, mas que tipo de dependência há entre elas? Quando o número de casos de uma aumenta, o da outra também aumenta? Em que proporção isso acontece? Conforme já dissemos, estas questões não são simples de responder, mas no caso de variáveis quantitativas, uma análise gráfica pode ajudar. 4.1 DIAGRAMA DE DISPERSÃO Para iniciar nossa discussão, consideremos uma amostra aleatória das notas de Cálculo e Estatística de 12 estudantes do curso de Engenharia Elétrica de determinada universidade: UNIDADE 3 | CORRELAÇÃO E REGRESSÃO LINEAR 134 TABELA 57 – GRÁFICO DE DISPERSÃO Estudante Nota Cálculo Nota Estatística 1 4 5 2 6 7 3 7 8 4 6 5 5 9 9 6 8 8 7 8 5 8 2 4 9 2 5 10 5 4 11 4 6 12 9 8 FONTE: Novaes e Coutinho (2009) Queremos saber se há relação entre o desempenho em Cálculo e Estatística. Para isso, vamos traçar o gráfico de dispersão entre as duas variáveis. O primeiro passo é definirmos qual das variáveis ocupará a posição do eixo das abscissas (eixo horizontal X) e qual ocupará a posição do eixo das ordenadas (eixo vertical Y). Vamos considerar a variável X como sendo ‘nota de Cálculo’ e a variável Y como sendo ‘nota de Estatística’. Assim, os valores associados à nota de Cálculo comporão as coordenadas x e os valores associados à nota de Estatística comporão as coordenadas y no par ordenado (x, y). FIGURA 29 – GRÁFICO DE DISPERSÃO FONTE: Tabela 55 TÓPICO 1 | CORRELAÇÃO 135 O gráfico de dispersão dos dados anteriores nos mostra que há uma relação entre as notas em Estatística e Cálculo: aparentemente, os alunos com maiores notas em Cálculo obtêm melhores notas em Estatística e vice-versa. Assim, podemos arriscar a dizer que as variáveis são correlacionadas. Segundo Crespo (2009, p. 147), podemos dividir os casos de correlação entre variáveis em três: • Correlação linear positiva: quando o aumento da variável independente X implica um aumento na variável dependente Y. • Correlação linear negativa: quando o aumento da variável independente X implica uma diminuição na variável dependente Y. • Correlação não linear: quando parece ter algum tipo de relação entre as variáveis, em formato de ‘curva’. FIGURA 30 – TIPOS DE CORREÇÃO FONTE: Crespo (2009, p. 147) Mas será que é possível medir esta correlação entre variáveis? 4.2 COEFICIENTE DE CORRELAÇÃO Vamos agora apresentar uma maneira de medir a correlação linear entre duas variáveis, chamado de coeficiente de correlação de Pearson, ou coeficiente de correlação linear. UNIDADE 3 | CORRELAÇÃO E REGRESSÃO LINEAR 136 Formalmente, se X e Y são duas variáveis discretas definidas a partir do mesmo fenômeno, com valores atribuídos definimos o coeficiente de correlação de Pearson por: O símbolo significa somatório, ou seja, . Note que a maior dependência que poderia ocorrer entre duas variáveis X e Y seria X se comportar exatamente como Y: cada aumento da variável X representasse um aumento de mesma quantidade de Y, ou uma diminuição de mesma quantidade de Y. Em termos de correlação, isto significa que Já no caso de X e Y serem independentes linearmente, r = 0. Segundo Oliveira (2010, p. 440), podemos considerar a seguinte escala para correlação: UNI TÓPICO 1 | CORRELAÇÃO 137 Observe que a fórmula da correlação linear é bastante trabalhosa. Entretanto, podemos utilizar uma tabela auxiliar para ajudar no cálculo, assim como fizemos para calcular a variância. Voltando aos dados da Tabela 55, e lembrando que X representa a variável ‘nota em Cálculo’ e Y representa a variável ‘nota em Estatística’, construímos a seguinte tabela auxiliar: TABELA 58 – TABELA AUXILIAR PARA O CÁLCULO DA CORRELAÇÃO i 1 4 5 16 25 20 2 6 7 36 49 42 3 7 8 49 64 56 4 6 5 36 25 30 5 9 9 81 81 81 6 8 8 64 64 64 7 8 5 64 25 40 8 2 4 4 16 8 9 2 5 4 25 10 10 5 4 25 16 20 11 4 6 16 36 24 12 9 8 81 64 72 TOTAL 70 74 476 490 467 FONTE: A autora Da tabela auxiliar, temos: Agora podemos calcular o coeficiente: UNIDADE 3 | CORRELAÇÃO E REGRESSÃO LINEAR 138 Observe que o valor encontrado para a correlação é relativamente alto, e é positivo. Isto significa que o aumento da variável X ‘notas em Cálculo’ implica um aumento considerável da variável Y ‘notas em Estatística’. EXEMPLO: A tabela a seguir exibe os dados sobre a quantidade vendida de certa mercadoria e os preços alcançados nos últimos meses. TABELA 57 – EXEMPLO DE CORRELAÇÃO LINEAR Mês Quantidade vendida (em milhares) Preço (em dólares) 1 50,0 4,9 2 68,4 4,8 3 65,3 4,7 4 69,0 4,6 5 82,3 4,5 6 109,1 4,4 7 99,9 4,3 8 128,6 4,2 9 180,0 4,1 10 200,5 4,0 FONTE: Silver (2000) Vamos montar o gráfico de dispersão para estas variáveis e calcular seu coeficiente de correlação linear. Interessa-nos descrever o comportamento do volume de vendas em relação ao preço - então o preço fará o papel da variável independente, enquanto o volume de vendas fará o papel da variável dependente. FIGURA 31 – DISPERSÃO DAS VENDAS EM FUNÇÃO DO PREÇO FONTE: Dados da Tabela 56 TÓPICO 1 | CORRELAÇÃO 139 Aparentemente, há correlação entre as variáveis. Vamos calcular o coeficiente de correlação linear utilizando a tabela auxiliar. TABELA 60 – TABELA AUXILIAR PARA O CÁLCULO DA CORRELAÇÃO i 1 4,9 50,0 24,0 2500,0 245,0 2 4,8 68,4 23,0 4678,6 328,3 3 4,7 65,3 22,1 4264,1 306,9 4 4,6 69,0 21,2 4761,0 317,4 5 4,5 82,3 20,3 6773,3 370,4 6 4,4 109,1 19,4 11902,8 480,0 7 4,3 99,9 18,5 9980,0 429,6 8 4,2 128,617,6 16538,0 540,1 9 4,1 180,0 16,8 32400,0 738,0 10 4,0 200,5 16,0 40200,3 802,0 TOTAL 44,5 1053,1 198,9 133998,0 4557,7 FONTE: A autora Da tabela auxiliar, temos: n = 10 Substituindo estes valores na fórmula, encontramos r = - 0,93. Podemos concluir que há uma alta correlação entre as variáveis, sendo que o crescimento de uma (preço) provoca o decrescimento da outra (vendas). 140 Neste tópico estudamos o comportamento de duas variáveis ao mesmo tempo, procurando estabelecer relações. Mais precisamente, vimos que: • Construir uma tabela de dupla entrada ajuda na apresentação dos dados de duas variáveis. • Duas variáveis possuem dependência entre si se o comportamento de uma afeta o comportamento da outra. • A tabela de porcentagens por coluna ajuda a verificar se há ou não dependência entre duas variáveis. • Para variáveis quantitativas, utilizamos o diagrama de dispersão. • Duas variáveis podem não estar correlacionadas, podem estar linearmente correlacionadas (positiva ou negativamente) ou podem estar não linearmente correlacionadas. • O coeficiente de correlação de Pearson, denotado por r, nos indica se há correlação linear entre duas variáveis. RESUMO DO TÓPICO 1 141 AUTOATIVIDADE Vamos exercitar os conhecimentos adquiridos neste tópico? Resolva os seguintes exercícios: 1 Uma empresa deseja investigar quantos dos seus funcionários são fumantes e qual o seu perfil. Neste sentido, aplicou um questionário para seus 24 funcionários. A seguir, você pode ver o resultado da pesquisa: In di ví du o Se xo H áb ito d e fu m ar Id ad e Es co la rid ad e C ar go Sa lá rio (e m R $) 1 M Sim 18 Fundamental Ajudantes 900,00 2 M Não 17 Médio Ajudantes 1056,00 3 M Não 18 Médio Ajudantes 1356,00 4 M Não 19 Fundamental Ajudantes 1500,00 5 F Não 32 Superior Chefia 10500,00 6 F Não 35 Superior Chefia 11400,00 7 M Sim 15 Fundamental Ajudantes 1056,00 8 F Sim 17 Fundamental Ajudantes 1056,00 9 M Não 19 Médio Escriturários 2430,00 10 M Não 20 Médio Escriturários 2550,00 11 F Não 22 Médio Escriturários 2940,00 12 M Sim 45 Superior Chefia 13500,00 13 M Sim 18 Fundamental Ajudantes 1110,00 14 M Não 17 Médio Ajudantes 1056,00 15 M Não 18 Médio Ajudantes 1350,00 16 M Não 19 Fundamental Ajudantes 1500,00 17 F Não 36 Superior Chefia 10500,00 18 F Não 35 Superior Chefia 11400,00 19 M Sim 15 Fundamental Ajudantes 1056,00 20 F Sim 17 Fundamental Ajudantes 1056,00 21 M Não 19 Médio Escriturários 2430,00 22 M Não 20 Médio Escriturários 2430,00 23 F Não 22 Médio Escriturários 2940,00 24 M Sim 40 Superior Chefia 13500,00 142 Com base nos dados da tabela, monte as seguintes distribuições conjuntas e conclua se há dependência entre as variáveis: a) Hábito de fumar em relação ao gênero. b) Idade em relação ao hábito de fumar. c) Idade em relação ao gênero. d) Cargo em relação ao hábito de fumar. e) Sexo em relação ao cargo. f) Faixa salarial em relação ao hábito de fumar. FONTE: Adaptado de: Farhat e Elian (2006) 2 Sabe-se que alguns supermercados colocam uma mercadoria em oferta e aumentam levemente o preço das outras que podem ser compradas como complemento. Assim, quem compra macarrão pode necessitar também do molho do tomate. Uma pesquisa teve o objetivo de observar se havia correlação entre o preço do macarrão em oferta e do molho de tomate em dez supermercados. Os preços praticados estão na tabela a seguir: Preço do Macarrão Preço do molho de tomate 2,00 1,20 2,30 1,40 2,50 1,75 2,60 2,00 2,80 2,20 3,00 2,40 3,20 2,70 3,25 3,00 3,30 3,20 3,50 4,00 As duas séries de preços estão correlacionadas? Justifique. FONTE: Adaptado de: Novaes e Coutinho (2009) 3 A tabela a seguir apresenta os dados referentes a áreas de terrenos em metros quadrados com seus respectivos preços de venda em mil reais de uma determinada região de São Paulo. 143 Área dos terrenos (m2) Preço de venda (mil reais) 40 42 60 58 60 58 60 70 80 80 100 90 115 100 130 102 138 130 150 130 160 140 Há correlação entre os dados? Justifique. FONTE: Adaptado de: Farhat e Elian (2006) 144 145 TÓPICO 2 REGRESSÃO LINEAR UNIDADE 3 1 INTRODUÇÃO Neste tópico daremos prosseguimento ao que começamos a estudar no tópico anterior. Lá, aprendemos a verificar se duas variáveis quantitativas possuem algum tipo de dependência entre si, ou seja, se há correlação entre elas. Voltemos ao exemplo em que foram comparados o volume de vendas e o preço de determinada mercadoria. Traçamos o gráfico de dispersão da situação e calculamos sua correlação. FIGURA 32 – DISPERSÃO DAS VENDAS EM FUNÇÃO DO PREÇO FONTE: A autora Uma vez que há correlação linear entre as variáveis, nosso objetivo agora será encontrar a equação da reta que melhor descreve esta situação. De posse desta equação, poderemos utilizá-la para obter informações que não foram observadas diretamente, mas que podem ser obtidas da análise gráfica. Por exemplo, na pesquisa, não foi mencionada a quantidade de vendas se o preço da mercadoria fosse 5 dólares, mas se tivermos a equação da reta que melhor aproxima os pontos, poderemos encontrar uma aproximação muito boa para este valor. Do mesmo modo, se quisermos ter uma ideia da quantidade de vendas esperadas, caso o valor da mercadoria fosse de 3,5 dólares. 146 UNIDADE 3 | CORRELAÇÃO E REGRESSÃO LINEAR Vamos então aprender as técnicas para encontrarmos a reta que melhor aproxima os pontos observados. Esta técnica é conhecida como regressão linear e o método para encontrá-la recebe o nome de método dos mínimos quadrados. Queremos aproximar os dados do gráfico de dispersão por meio de uma reta, cuja equação é da forma y = α + β∙x, onde α é chamado de coeficiente linear da reta e β é chamado de coeficiente angular da reta. Estes valores α e β são constantes e são eles que a caracterizam: cada reta tem um valor para α e um valor para β fixos. Para traçar a reta, vamos então fornecendo valores para x (variável independente) e encontrando um único y tal que y = α + β∙x. É importante lembrar que α e β são duas letras gregas, chamadas alfa e beta. Voltemos agora para a nossa situação inicial e vamos traçar uma reta que, aparentemente, se aproxima de todos os pontos observados da melhor maneira possível (este procedimento se chama regressão linear). Provavelmente, nenhum dos pontos da amostra pertence à reta, conforme você pode observar. Assim, para cada da amostra, teremos , onde é o erro cometido – a distância entre a reta e cada - também chamado de resíduo. FIGURA 33 – RETA QUE MELHOR APROXIMA DOS DADOS E RESÍDUOS FONTE: A autora UNI TÓPICO 2 | REGRESSÃO LINEAR 147 O modelo de regressão linear supõe que a média dos valores deve ser zero. Como consequência, Assim, temos dois valores para serem encontrados, α e β. Da matemática básica sabemos que, quando precisamos encontrar duas incógnitas, precisamos de um sistema com duas equações que as envolvam. O modelo de regressão linear nos forneceu uma das equações: Precisamos de mais uma relação entre α e β para podermos encontrá-los. 2 MÉTODO DOS MÍNIMOS QUADRADOS Vamos encontrar outra relação que nos auxilie a encontrar os valores de α e β. Para que a média dos valores seja zero, temos que Como n é o tamanho da amostra e, portanto, não é zero, Mas, para cada i, quem é ? Uma vez que se considerarmos veremos que para cada i. Portanto, se a soma dos resíduos deve ser zero, 148 UNIDADE 3 | CORRELAÇÃO E REGRESSÃO LINEAR Mas este fato não garante que a reta seja a mais próxima possível, pois o resíduo encontrado para certo i pode anular um resíduo encontrado para certo j (i ≠ j). Observe a situação: FIGURA 34 – RESÍDUOS NA REGRESSÃO FONTE: A autora Observeo desenho: os dois resíduos, embora grandes, possuem tamanho similar, mas sinais diferentes. Logo, quando forem somados, irão resultar em um número próximo de zero. Para contornar este problema, ao invés de minimizar a soma dos resíduos, vamos minimizar a soma do quadrado dos resíduos. Assim, teremos apenas valores positivos envolvidos no cálculo e, para que a soma resulte em um valor próximo de zero, cada um dos resíduos precisa ser muito pequeno. O critério acima é conhecido como método dos mínimos quadrados. Através desta suposição e através de cálculos matemáticos, chegam-se às seguintes equações: TÓPICO 2 | REGRESSÃO LINEAR 149 Ou, de maneira mais condensada: Como estamos utilizando dados de uma amostra para encontrar a equação da reta que melhor aproxima os dados, na verdade, estamos estimando a verdadeira equação da reta. Por esta razão, escrevemos Vamos então calcular a regressão linear para o problema do volume de vendas em relação ao preço, utilizando o método dos mínimos quadrados. A mesma tabela auxiliar que montamos para calcular a correlação nos ajuda no cálculo das variáveis α e β. TABELA 61 – TABELA AUXILIAR PARA AJUSTE DE RETA i (preço) (vendas) 1 4,9 50,0 24,0 2500,0 245,0 2 4,8 68,4 23,0 4678,6 328,3 3 4,7 65,3 22,1 4264,1 306,9 4 4,6 69,0 21,2 4761,0 317,4 5 4,5 82,3 20,3 6773,3 370,4 6 4,4 109,1 19,4 11902,8 480,0 7 4,3 99,9 18,5 9980,0 429,6 8 4,2 128,6 17,6 16538,0 540,1 9 4,1 180,0 16,8 32400,0 738,0 10 4,0 200,5 16,0 40200,3 802,0 TOTAL 44,5 1053,1 198,9 133998,0 4557,7 FONTE: A autora UNI 150 UNIDADE 3 | CORRELAÇÃO E REGRESSÃO LINEAR Assim, Assim, a reta que melhor aproxima os dados da amostra é dada pela equação EXEMPLO: Consideremos a situação proposta no tópico anterior, onde eram analisadas as notas em Estatística e em Cálculo obtidas pelos estudantes de Engenharia Elétrica de uma determinada universidade. Vimos que as variáveis X: nota em Cálculo e Y: nota em Estatística estavam correlacionadas linearmente. Vamos então utilizar o método de minimização dos quadrados para encontrar a reta que melhor aproxima os dados da amostra. A tabela auxiliar que construímos para calcular a correlação entre as variáveis era a seguinte: TABELA 62 – TABELA AUXILIAR PARA AJUSTE DE RETA i (Notas em Cálculo) (Notas em Estatística) 1 4 5 16 25 20 2 6 7 36 49 42 3 7 8 49 64 56 4 6 5 36 25 30 5 9 9 81 81 81 6 8 8 64 64 64 7 8 5 64 25 40 8 2 4 4 16 8 9 2 5 4 25 10 10 5 4 25 16 20 11 4 6 16 36 24 12 9 8 81 64 72 TOTAL 70 74 476 490 467 FONTE: A autora TÓPICO 2 | REGRESSÃO LINEAR 151 Assim, a reta que melhor aproxima os dados da amostra é dada pela equação FIGURA 35 – RETA AJUSTADA – REGRESSÃO LINEAR FONTE: A autora 3 ANÁLISE DA REGRESSÃO LINEAR A regressão linear é, portanto, a reta que melhor aproxima dos dados de uma amostra onde duas variáveis são analisadas conjuntamente. O que isto significa? Voltemos ao exemplo anterior, das notas em Cálculo e em Estatística. O modelo de regressão linear nos forneceu a seguinte equação: Note que o valor de α – no caso, α = 3,121 – independe de X. Isto significa que mesmo sem nota em cálculo, é de se esperar que o aluno obtenha nota 3,122, ou seja, é a nota inicial em estatística segundo o modelo. Já a constante β – no caso, 152 UNIDADE 3 | CORRELAÇÃO E REGRESSÃO LINEAR β = 0,522 – nos fornece a proporção com que Y varia quando X varia. Neste caso, cada alteração na nota de Cálculo (X) altera a nota de Estatística a uma proporção de 0,522 (ou 52,20%). É claro que a reta não descreve exatamente o comportamento da relação entre as variáveis, mas dá uma estimativa para o comportamento conjunto delas. No exemplo anterior, das notas em Cálculo e Estatística, se procurarmos a nota de Estatística (variável Y) correspondente à nota 6 em Cálculo (variável X) na reta, encontraremos ou seja, de acordo com a equação da reta, quem tem nota 6 em Cálculo obtém nota 6,25 em estatística. Por outro lado, na amostra, dois estudantes tiraram 6 em Cálculo: um tirou 5 em estatística e o outro tirou 7! O fato dos valores observados serem diferentes do obtido via regressão não significa que houve erro no cálculo, pois são informações diferentes: o dado obtido via equação é uma estimativa. Este exemplo ilustra o cuidado que devemos ter ao trabalharmos com a linearização: a regressão é uma estimativa que descreve o comportamento conjunto dos dados, mas não significa que podemos replicar os dados da amostra com ela. Por outro lado, a equação é bastante útil para tirarmos informações sobre dados que não dispomos. 3.1 INTERPOLAÇÃO E EXTRAPOLAÇÃO Suponhamos que estivéssemos interessados em obter uma estimativa para a nota de um estudante que obteve 4,5 em Cálculo. Nenhum dos estudantes que fez parte da amostra obteve esta nota e, portanto, não podemos utilizar informações da tabela de distribuição. Por outro lado, podemos estimar um valor para ela através da equação da reta: Assim, é estimado que este estudante tenha tirado 5,47, ou 5,5 em Estatística. Note que, na amostra, os dados de x variavam de 2 a 9, ou seja, x pertence ao intervalo fechado [2, 9]. Portanto, embora não faça parte da amostra, x = 4,5 também pertence a este intervalo, pois é maior do que 2 e menor do que 9. Quando o valor y que pretendemos estimar estiver associado a um valor x pertencente ao intervalo de valores da amostra, damos nome a este processo de interpolação. E se quiséssemos estimar a nota em estatística de um estudante que obteve 10 em Cálculo? Embora o valor 10 não faça parte do intervalo de valores para x TÓPICO 2 | REGRESSÃO LINEAR 153 da amostra, o fato de estarmos aproximando os dados por uma reta (regressão linear) implica podermos estimar a nota em estatística via equação. Neste caso, Assim, é estimado que o estudante que tenha nota 10 em Cálculo, tenha nota 8,3 em Estatística. Quando o valor y que pretendemos estimar estiver associado a um valor x não pertencente ao intervalo de valores da amostra, damos nome a este processo de extrapolação. Para a interpolação, qualquer valor estudado é aceitável, uma vez que ele pertence ao intervalo da amostra; já no caso da extrapolação, precisamos ter alguns cuidados. Embora a reta esteja definida para qualquer número real (propriedade de reta), o significado da variável impõe restrições aos valores estudados. Por exemplo, no caso das notas de Cálculo, embora matematicamente possível, não tem sentido supormos notas superiores a 10 (supondo 10 a nota máxima) ou inferiores a 0. EXEMPLO: Vamos voltar ao exemplo do volume de vendas associado ao preço da mercadoria. TABELA 63 – EXEMPLO DE CORRELAÇÃO LINEAR Mês Preço (em dólares) Quantidade vendida (em milhares) 1 4,9 50,0 2 4,8 68,4 3 4,7 65,3 4 4,6 69,0 5 4,5 82,3 6 4,4 109,1 7 4,3 99,9 8 4,2 128,6 9 4,1 180,0 10 4,0 200,5 FONTE: Silver (2000) Já realizamos a regressão linear para esta situação, e encontramos a seguinte equação da reta: Se quisermos estimar o volume de vendas caso o preço da mercadoria fosse de 6 dólares, teríamos que 154 UNIDADE 3 | CORRELAÇÃO E REGRESSÃO LINEAR Note que, embora os cálculos estejam corretos, o valor encontrado é negativo, o que não faz sentido, uma vez que a variável Y está associada a quantidades. Por outro lado, fica evidente que cobrar 6 dólares pela mercadoria seria inviável. Vamos encontrar o valor em dólares para o qual a quantidade vendida seria nula? Nesse caso, y = 0. Assim, concluímos que a mercadoria não pode custar mais do que 5,12 dólares. 3.2 COEFICIENTE DE DETERMINAÇÃO Outro ponto que merece destaque diz respeito à confiabilidade dos dados estimados via regressão linear. Como saber se eles são confiáveis? Segundo Crespo (2009), só faz sentido fazermosa regressão linear se há, de fato, correlação entre as variáveis e se esta correlação é relativamente alta. Por esta razão, o primeiro passo ao estudarmos duas variáveis conjuntamente é calcular a coeficiente de correlação linear entre elas. O coeficiente de correlação nos dá uma preciosa informação: ele fornece uma medida de quanto de uma variável é explicada linearmente pela outra variável. Esta medida se chama coeficiente de determinação (ou coeficiente de explicação), e corresponde a R2 = r2 onde r é o coeficiente de correlação linear que já estudamos. Aplicando ao exemplo anterior, sobre a quantidade de vendas em relação ao preço da mercadoria, havíamos concluído que, para este caso, r = - 0,93. Assim, o coeficiente de determinação é de R2 = (-0,93)2 = 0,8649. Segundo Silver (2000), este valor mostra que a proporção da variação de Y – no caso, a quantidade de vendas - explicada pelo modelo é de 0,8649, isto é, de 86,49%. Portanto, apenas (100% - 86,49%) = 13,51% da variação na quantidade de vendas é explicada por outros fatores que não a relação linear estabelecida pelo modelo com a variação do preço. No caso da relação entre as notas em Cálculo e Estatística, r = 0,7403. Assim, R2 = (0,7403)2 = 0,5480. Assim, as notas em Estatística são explicadas pelo modelo de regressão linear na proporção de 54,80%: 45,20% da variação nas notas de Estatística é explicada por outros fatores que não a relação linear estabelecida pelo modelo com as notas em Cálculo. 155 Neste tópico, estudamos a regressão linear por meio do método dos mínimos quadrados. Mais precisamente, vimos que: • Regressão linear consiste em traçar uma reta que se aproxime de todos os pontos observados da melhor maneira possível, cuja equação é da forma y = α + β∙x, onde α é chamado de coeficiente linear da reta e β é chamado de coeficiente angular da reta. • Os valores α e β são constantes e são eles que caracterizam a reta e, portanto, são eles que devem ser encontrados. • O método dos mínimos quadrados consiste em um método matemático que permite encontrar α e β, de modo que a soma dos quadrados dos resíduos seja a menor possível. • Interpolação é o processo de, dado um valor para x pertencente ao intervalo da amostra, encontrar um valor estimado para y via regressão linear. • Extrapolação é o processo de, dado um valor para x não pertencente ao intervalo da amostra, encontrar um valor estimado para y via regressão linear. • Sempre é possível interpolar, mas é preciso cuidado na hora de extrapolar! • O coeficiente de determinação é obtido através do coeficiente de correlação e nos fornece a proporção com que a variação da variável Y é explicada pelo modelo de regressão linear. RESUMO DO TÓPICO 2 156 AUTOATIVIDADE 1 Uma agência de turismo especializada em oferecer passeios opcionais para turistas que visitam determinada região está estudando a variação na adesão a determinado pacote quando são acrescentados ou tirados percursos do preço cobrado, obtendo as seguintes informações: Preço ($) Número de adesões 10 50 15 51 20 48 25 43 30 42 35 45 40 39 45 38 50 40 55 34 60 32 70 30 90 25 a) Faça o gráfico de dispersão. b) Há correlação linear entre os dados? Justifique. c) Encontre a função matemática que explique a dependência entre o número de adesões e o preço do passeio opcional. d) Estime o número de pessoas que farão o passeio opcional se o valor cobrado for de 80 reais. e) Encontre a proporção com que a variação no número de ações é explicada linearmente pelo preço da mesma. FONTE: Adaptado de: Novaes e Coutinho (2009) 2 custo mensal de manutenção de determinado tipo de automóvel (excluindo- se combustível e troca de óleo) está sendo analisado em função da idade do veículo. Nove automóveis fabricados em diferentes anos tiveram o custo averiguado e os dados obtidos foram os seguintes: 157 Idade do veículo (anos) Custo mensal (reais) 1 8 2 13 3 18 4 28 5 24 6 26 7 29 8 32 9 37 a) Trace o gráfico de dispersão. b) Calcule o coeficiente de determinação. c) Faça a regressão linear e encontre a equação da reta melhor ajustada. d) Com base no modelo de regressão linear, qual é o custo mensal de um carro com 12 anos de uso? FONTE: Adaptado de: Magalhães e Lima (2010) 3 Uma indústria submete seus novos operários a um teste de aptidão (X) e três meses depois mede a produtividade destes operários (Y). Os resultados estão na tabela a seguir: Operário Aptidão(X) Produtividade (Y) A 22 45 B 25 37 C 15 25 D 19 40 E 22 33 F 18 30 a) Faça o diagrama de dispersão e calcule o coeficiente de correlação. b) Encontre a equação da reta de regressão. c) Para um indivíduo cujo resultado no teste de aptidão foi 20, qual é a produtividade esperada? d) Para um indivíduo que obteve 28 no teste de produtividade, qual é o resultado no teste de aptidão? FONTE: Adaptado de: Magalhães e Lima (2010) 4 Certa empresa, estudando a variação da demanda do seu produto em relação à variação de preço de venda (em unidades monetárias), obteve os seguintes dados: 158 Preço (u.m.) Demanda 38 350 42 325 50 297 56 270 59 256 63 246 70 238 80 223 95 215 110 208 a) Determine os coeficientes de correlação e de determinação entre as variáveis. b) Encontre a equação da reta ajustada. c) Se o preço de venda for 75 u.m., qual é a demanda estimada? d) Se o preço de venda for de 110 u.m., qual é a demanda estimada? e) Qual é o valor máximo de preço possível para que haja demanda? FONTE: Adaptado de: Crespo (2009) 159 TÓPICO 3 REGRESSÃO MÚLTIPLA UNIDADE 3 1 INTRODUÇÃO Nos tópicos anteriores, vimos que é possível medir a correlação linear entre duas variáveis e, se elas estiverem de fato correlacionadas, ajustar uma reta de regressão entre elas. Algumas vezes, os problemas que queremos estudar envolvem mais de duas variáveis, e precisamos saber se a variação de uma influencia na variação das outras. Um bom exemplo disso é a composição de carteiras de investimento. Normalmente, há mais de uma ação na carteira, e o seu rendimento é afetado pelo rendimento das ações que a compõem. Nestes casos, é interessante para o investidor saber quanto a variação de retorno de cada ação interfere na variação de retorno da carteira em si. Dependendo da resposta, o investidor pode mexer na composição da carteira, seja pelo aporte de valores em determinada ação (a compra de mais ações de uma mesma companhia), seja a composição em si da carteira. Neste tópico, iremos estudar a regressão múltipla, que consiste em encontrar uma equação matemática (no caso, a equação de um plano) que descreva o comportamento de uma variável em função de várias outras. Assim, podemos ver a regressão linear como um caso particular da regressão múltipla. 2 O PLANO DE REGRESSÃO Suponhamos que o volume de vendas de um produto de determinada empresa foi estabelecido em função de duas variáveis: custo total e gastos com publicidade em unidades monetárias. O quadro a seguir apresenta os dados observados: UNIDADE 3 | CORRELAÇÃO E REGRESSÃO LINEAR 160 TABELA 64 – REGRESSÃO MÚLTIPLA Período Vendas Custo Total G a s t o s c o m publicidade 1 10 20 5 2 20 18 8 3 30 15 10 4 40 13 15 5 50 10 17 6 55 9 20 FONTE: Oliveira (2010) Como queremos descrever o volume de vendas em função do custo total e do gasto com publicidade, consideraremos as vendas como sendo a variável dependente Y (pois ela depende das outras duas), e as outras duas variáveis como variáveis independentes X1 e X2 respectivamente. A ideia da regressão múltipla é encontrar a equação do plano Y = α + β1∙X1 + β2∙X2 que melhor aproxime os dados da amostra. Assim como na regressão linear, precisamos então encontrar valores para as constantes α, β1 e β2 que caracterizam este plano, e utilizaremos o quetemos, isto é, os dados da amostra, para estimá-las. Novamente, é provável que nenhum dos pontos da amostra pertença ao plano (pelo menos um provavelmente não pertencerá). Assim, para cada i, teremos onde é o erro cometido – a distância entre o plano e cada – isto é, o resíduo. Assim, para cada i, Da mesma maneira que fizemos para regressão linear, queremos minimizar o erro cometido. Então vamos impor que a soma dos quadrados dos erros seja mínima, isto é, Através desta suposição e através de cálculos matemáticos, chega-se às seguintes equações: TÓPICO 3 | REGRESSÃO MÚLTIPLA 161 De acordo com Oliveira (2010), isolando α na terceira equação e substituindo seu valor nas demais, chegamos a uma maneira mais fácil de fazermos as contas: Voltando ao nosso exemplo, vamos construir nossa tabela auxiliar: UNIDADE 3 | CORRELAÇÃO E REGRESSÃO LINEAR 162 TABELA 65 – TABELA AUXILIAR PARA REGRESSÃO MÚLTIPLA i 1 10 20 5 400 25 200 50 100 2 20 18 8 324 64 360 160 144 3 30 15 10 225 100 450 300 150 4 40 13 15 169 225 520 600 195 5 50 10 17 100 289 500 850 170 6 55 9 20 81 400 495 1100 180 TOTAL 205 85 75 1299 1103 2525 3060 939 FONTE: A autora Assim, Substituindo estes valores no sistema, temos que: Ou ainda TÓPICO 3 | REGRESSÃO MÚLTIPLA 163 TABELA 65 – TABELA AUXILIAR PARA REGRESSÃO MÚLTIPLA Resolvendo este sistema, encontraremos Falta encontrarmos α. Mas Logo Portanto, a equação do plano estimado que minimiza os erros é dada por Se estivermos interessados em estimar o volume de vendas, dado que o custo total foi 17 e os gastos com propagando totalizaram 20 unidades monetárias, basta substituir estes valores na equação: O mesmo processo feito para estudarmos o comportamento de uma variável estatística frente a outras duas pode ser estendido para três ou mais variáveis, entretanto, a dificuldade de trabalhar com os cálculos necessários para estimar a regressão é considerável. Nestes casos, um software estatístico, ou mesmo o Excel pode ajudar. UNIDADE 3 | CORRELAÇÃO E REGRESSÃO LINEAR 164 LEITURA COMPLEMENTAR O USO DE DADOS DO IBGE PARA PESQUISAS O IBGE é o Instituto Brasileiro de Geografia e Estatística, responsável de coletar e divulgar dados e informações sobre o país em diversos segmentos da sociedade, bem como dar subsídio para os governos federal, estadual e municipal na tomada de decisões. Seu objetivo principal é “retratar o Brasil com informações necessárias ao conhecimento da sua realidade e ao exercício da cidadania”, segundo o sítio eletrônico no qual ficam disponibilizados todos os dados. Uma dica valiosa para quem gosta e se interessa por estatística é consultar o sitio eletrônico do IBGE (<www.ibge.gov.br>) e acessar o Brasil em Síntese. Este canal possibilita acesso a dados resumidos e pode servir para ilustrar, subsidiar ou mesmo nortear trabalhos e pesquisas na área da administração (e áreas afins). O Brasil em Síntese reúne informações que permitem traçar um panorama nacional sob a forma de gráficos e tabelas, apresenta dados sobre território, população, educação, trabalho, habitação, agropecuária, indústria, comércio, serviços e contas nacionais. FONTE: IBGE. Disponível em <http://brasilemsintese.ibge.gov.br/>. Acesso em: 7 fev. 2014. A investigação sobre serviços vem crescendo imensamente nas últimas décadas no mundo inteiro, destacando-se pela representatividade no Produto Interno Bruto (PIB), 47,4%, em 2012. O avanço deste setor no processo de crescimento da economia é relevante devido a sua geração de renda e emprego. Trata-se de um setor heterogêneo, tanto no que se refere ao desempenho das empresas, como ao nível de integração aos processos de inovação e ao uso de tecnologia, apresentando ainda distintos perfis de ocupação de pessoal. Neste contexto, a Pesquisa Anual de Serviços (PAS) fornece informações sobre a estrutura produtiva do setor de serviços formais não financeiros no Brasil, possibilitando diversos estudos e análises. O segmento de transportes, serviços auxiliares aos transportes e correio foi responsável pela maior parcela da receita operacional líquida gerada no setor de serviços em 2010. Em relação ao número de empresas, destacam-se os serviços prestados às famílias Além de sua expressividade em termos de receita operacional líquida e número de empresas, os serviços profissionais, administrativos e complementares representaram a maior parcela do valor adicionado, da massa salarial e do pessoal ocupado. TÓPICO 3 | REGRESSÃO MÚLTIPLA 165 Analisando o período de 2007 a 2011, quando a economia apresentou uma redução da taxa de crescimento real2 no biênio 2008-2009 e uma recuperação no biênio posterior, observa-se um crescimento real de 31,6% da receita operacional líquida das empresas de serviços. Destacam-se quatro segmentos que alcançaram, no período, variação superior a este resultado: serviços de manutenção e reparação (63,0%); atividades imobiliárias (59,8%); serviços prestados principalmente às famílias e serviços profissionais, administrativos e complementares (ambos com 44,9%). A recuperação da economia baseou-se no dinamismo do mercado interno, com reflexos sobre o setor de serviços. FONTE: IBGE. Disponível em <http://brasilemsintese.ibge.gov.br/servicos>. Acesso em: 7 fev. 2014. Como você pode perceber, é possível e conveniente, além de confiável, utilizar nas suas pesquisas para trabalhos da graduação, ou mesmo de uma futura pós-graduação, dados do IBGE. Isto, dentre as cinco fases do método estatístico caracterizará uma coleta de dados indireta, pois você estará se apropriando de dados já coletados por alguém. Abaixo você pode conferir alguns exemplos de dados provenientes da pesquisa do IBGE acerca do setor de serviços. Observe que tais dados estão dispostos em quadros, porém no site do Brasil em Síntese (gerenciado pelo IBGE), há possibilidade de visualizar também o gráfico proveniente destes quadros. Optou-se por apresentar, nesta leitura, o formato quadro, por conta da fácil leitura e compreensão de todos os acadêmicos. Exemplos de dados para utilização em pesquisas No Quadro 1 você pode visualizar o número de empresas no segmento de serviços, no Quadro 2 o número de pessoas que atuam em cada segmento do setor de serviços e no Quadro 3 a receita obtida pelo total de empresas de cada segmento do setor de serviços. Os dados apresentados são da pesquisa de 2010 realizada pelo IBGE e divulgada pelo Brasil em Síntese. Com base nestes dados você poderá enriquecer um trabalho para uma disciplina ou mesmo o seu Trabalho de Graduação, caso queira optar por um tema. UNIDADE 3 | CORRELAÇÃO E REGRESSÃO LINEAR 166 QUADRO 2 – NÚMERO DE PESSOAS OCUPADAS SEGUNDO O SEGMENTO DE SERVIÇO (EM MIL) – BRASIL 2010 Segmentos de serviços Pessoal Ocupado Serviços de informação e comunicação 800,542 Outras atividades de serviços 464,496 Serviços de manutenção e reparação 400,395 Serviços profissionais, administrativos e complementares 4.319,524 Serviços prestados às famílias 2.260,965 Transportes, serviços auxiliares aos transportes e correio 2.229,110 Atividades imobiliárias 146,754 Total 10.621,786 FONTE: IBGE. Disponível em <http://brasilemsintese.ibge.gov.br/servicos/pessoal-ocupado-por- segmento-de-servico>. Acesso em: 7 fev. 2014. Segmentos de serviços Número de empresas Transportes, serviços auxiliares aos transportes e correios 147.022 Atividades imobiliárias 28.065 Serviços profissionais, administrativos e complementares 296.944 Outras atividades de serviços 30.434 Serviços prestados às famílias 310.958 Serviços de informação e comunicação 81.767 Serviços de manutenção e reparação 97.618 Total 992.808 FONTE: IBGE. Disponível em: <http://brasilemsintese.ibge.gov.br/servicos/numero-de-empresas- por-segmento-de-servico>. Acesso em: 7 fev. 2014.QUADRO 1 – NÚMERO DE EMPRESAS SEGUNDO O SEGMENTO DE SERVIÇO – BRASIL – 2010 QUADRO 3 – RECEITA (EM MIL R$) SEGUNDO O SEGMENTO DE SERVIÇO – BRASIL – 2010 Segmentos de serviços Receita Serviços de manutenção e reparação 15.285,281 Atividades imobiliárias 19.845,671 Serviços profissionais, administrativos e complementares 220.799,533 Serviços de informação e comunicação 233.541,222 Transportes, serviços auxiliares aos transportes e correios 251.117,852 Outras atividades de serviços 42.480,303 Serviços prestados às famílias 86.237,865 Total 869.308,728 FONTE: IBGE. Disponível em <http://brasilemsintese.ibge.gov.br/servicos/receita-por-segmento- de-servico>. Acesso em: 7 fev. 2014. 167 RESUMO DO TÓPICO 3 Neste tópico, estudamos a regressão múltipla. Mais precisamente, vimos que: • A regressão múltipla consiste em encontrar uma equação matemática (no caso, a equação de um plano) que descreva o comportamento de uma variável em função de várias outras. • A regressão linear como um caso particular da regressão múltipla. • Aprendemos a calcular os coeficientes do plano de regressão. • Vimos que a teoria desenvolvida para o caso de duas variáveis independentes pode ser expandida para três ou mais. 168 Vamos praticar os conhecimentos adquiridos? Resolva os exercícios a seguir: 1 Você recebeu informações sobre a porcentagem de ações no mercado, preços como porcentagem dos preços médios do competidor, e gastos com propaganda como porcentagem dos preços médios do competidor, para uma linha específica de comida para gatos, nos últimos oito anos. Os dados obtidos seguem a seguir: Período A ç õ e s n o Mercado (%) Preço Relativo P r o p a g a n d a relativa 1 30 89 110 2 31 85 115 3 30,5 86,5 120 4 29 92 114 5 29,5 90 112 6 28,5 102 115 7 28 115 116 8 26 125 114 a) Encontre a regressão múltipla que melhor estima o comportamento das ações no mercado em relação às outras duas variáveis. b) Se o preço relativo for de 120 e a propaganda for de 111, qual é a estimativa para a porcentagem de ações no mercado? FONTE: Adaptado de: Silver (2000) 2 Um conjunto de experimentos foi realizado para determinar uma maneira de prever o tempo de cozimento y em junção de vários níveis de largura do forno e da temperatura do gás. Os dados obtidos foram os seguintes: AUTOATIVIDADE 169 Experimento Tempo de cozimento L a r g u r a d o forno Temperatura do gás 1 6,40 1,32 1,15 2 15,05 2,69 3,40 3 18,75 3,56 4,10 4 30,25 4,41 8,75 5 44,85 5,35 14,82 6 48,94 6,20 15,15 7 51,55 7,12 15,32 8 61,50 8,87 18,18 9 100,44 9,80 35,19 10 111,42 10,65 40,40 Estime a equação da regressão múltipla. FONTE: Adaptado de: Silver (2000) 3 Um estudo foi conduzido para determinar se o peso de um animal pode ser previsto depois de um período com base no seu peso inicial e na quantidade de ração que ele comeu. Os dados obtidos, em quilogramas, estão na tabela a seguir: Animal Peso final Peso inicial Peso ração 1 95 42 272 2 77 33 226 3 80 33 259 4 100 45 292 5 97 39 311 6 70 36 183 7 50 32 173 8 80 41 236 9 92 40 230 10 84 38 235 a) Encontre a equação do plano que melhor ajuda os dados obtidos. b) Dê uma previsão para o peso final do animal que tinha como peso inicial 35 kg e foi alimentado com 250 kg de ração. 170 171 REFERÊNCIAS ARAÚJO FILHO, J. B. Arredondamento de valores numéricos: uma abordagem sobre a NBR 5891:1997:ABNT e a Resolução 886:1966:IBGE. Revista Administração em Debate, Rio de Janeiro, v. 8, p. 21-30. Disponível em: <http:// www.cra-rj.adm.br/publicacoes/rad_08/conteudo/files/assets/basic-html/page29. html>. Acesso em: 28 jan. 2014. CASTANHEIRA, N. P. Estatística aplicada a todos os níveis. 4. ed. Curitiba: IBPEX, 2008. CRESPO, A. A. Estatística fácil. 19. ed. São Paulo: Saraiva, 2009. FARHAT, C. A. V.; ELIAN, S. N. Estatística básica. São Paulo: LCTE, 2006. IBGE. Centro de Documentação e Disseminação de Informações. Normas de apresentação tabular. 3. Ed. Rio de Janeiro: IBGE, 1993. p.25-28 Disponível em: <http://biblioteca.ibge.gov.br/visualizacao/monografias/GEBIS%20-%20RJ/ normastabular.pdf>. Acesso em: 28 jan. 2014. MAGALHÃES, M. N.; LIMA, A. C. P. Noções de probabilidade e estatística. São Paulo: Edusp, 2010. MORETTIN, L. G. Estatística básica: probabilidade e inferência. São Paulo: Pearson, 2010. NAVIDI, William. Probabilidade e estatística para ciências exatas. Porto Alegre: Bockmann, 2012. NOVAES, D. V; COUTINHO, S. QUEIROZ, C. Estatística para educação profissional. São Paulo: Atlas, 2009. OLIVEIRA, J. U. Estatística: uma nova abordagem. Rio de Janeiro: Ciência Moderna, 2010. SILVER, M. Estatística para administração. São Paulo: Atlas, 2000. TIBONI, C. G. R. Estatística básica: para os cursos de administração, ciências contábeis, tecnológicos. São Paulo: Atlas, 2010.
Compartilhar