Buscar

metodos quantitativos unidad (2)

Prévia do material em texto

125
UNIDADE 3
CORRELAÇÃO E REGRESSÃO LINEAR
OBJETIVOS DE APRENDIZAGEM
PLANO DE ESTUDOS
A partir desta unidade você será capaz de:
• apresentar o conceito de regressão linear;
• exibir o método dos mínimos quadrados para ajudar a reta de regressão;
• explicar como se dá a regressão múltipla;
• aprender a ajustar o plano de regressão múltipla.
A Unidade 3 está dividida em três tópicos, contendo exemplos e, no final de 
cada um deles, há exercícios para lhe familiarizar com o assunto.
TÓPICO 1 – CORRELAÇÃO
TÓPICO 2 – REGRESSÃO LINEAR
TÓPICO 3 – REGRESSÃO MÚLTIPLA
Assista ao vídeo 
desta unidade.
126
127
TÓPICO 1
CORRELAÇÃO
UNIDADE 3
1 INTRODUÇÃO
Muitas vezes, ao realizarmos uma pesquisa estatística, não nos interessa 
apenas o comportamento das variáveis isoladamente, mas sim, o comportamento 
de duas ou mais variáveis ao mesmo tempo. Por exemplo:
• A variação no valor do dólar em relação ao real afetou a importação de 
mercadorias?
• O aumento de investimento em turismo resultou em um aumento no fluxo de 
turistas?
• A quantidade de água adicionada à determinada marca de cimento afeta na 
qualidade do concreto resultante?
• O aumento salarial para funcionários de certa empresa afetou o volume de 
vendas?
• O investimento na compra de maquinário reverteu positivamente no lucro de 
uma empresa?
Neste tópico, aprenderemos a relacionar duas variáveis, e a verificar se há 
algum tipo de relação entre elas: se o comportamento de uma afeta o comportamento 
da outra.
2 RELAÇÃO ENTRE VARIÁVEIS
Suponhamos que uma pesquisa detectou o número de vestibulares prestados 
por cada estudante antes da sua aprovação em determinada universidade. Para 
que a pesquisa ficasse mais completa, foi perguntado também a cada um dos 
estudantes se ele trabalhava na época ou não. Os dados obtidos com a pesquisa 
aplicada a 10 estudantes foram os seguintes:
UNIDADE 3 | CORRELAÇÃO E REGRESSÃO LINEAR
128
Onde X é a variável ‘número de vestibulares prestados antes da primeira 
aprovação’ e Y é a variável ‘trabalhava’. 
Imagina-se que o fato de trabalhar fora afete o desempenho do estudante 
nos vestibulares negativamente, ou seja, imagina-se que estas variáveis estejam 
relacionadas de alguma forma, mas olhando simplesmente para os dados sem 
agrupá-los, fica difícil tirar qualquer conclusão.
Uma tabela de dupla entrada poderia facilitar a análise. Para isso, vamos 
construir uma tabela auxiliar, contendo as possibilidades conjuntas de X e Y e a 
frequência observada de cada uma:
TABELA 49 – TABELA AUXILIAR PARA CONSTRUÇÃO DA TABELA 
DE DUPLA ENTRADA
(X, Y) ni
(1, sim) 3
(1, não) 4
(2, sim) 1
(2, não) 1
(3, sim) 1
(3, não) 0
TOTAL 10
FONTE: A autora
Agora estamos em condições de construir uma tabela de dupla entrada:
TABELA 50 – RELAÇÃO ENTRE VESTIBULARES PRESTADOS ANTES DA 
PRIMEIRA APROVAÇÃO E TRABALHO 
N ú m e r o d e 
v e s t i b u l a r e s 
prestados
Trabalhava na época
TOTAL
Sim Não
1 3 4 7
2 1 1 2
3 1 0 1
TOTAL 5 5 10
FONTE: A autora
TÓPICO 1 | CORRELAÇÃO
129
A primeira e a última coluna nos dão o que chamamos de tabela marginal 
de X, e a primeira e a última linha nos dão a tabela marginal de Y.
xi ni yi ni
1 7 Sim 5
2 2 Não 5
3 1 TOTAL 10
TOTAL 10
Observe que nada mais são do que as distribuições de frequência das 
variáveis X e Y, respectivamente.
A tabela de dupla entrada permite então visualizar o comportamento das 
duas variáveis ao mesmo tempo. 
EXEMPLO: Em certa unidade de saúde, o comportamento conjunto dos 
casos mensais de sarampo (S) e difteria (D) foi o seguinte):
Dia 1 2 3 4 5 6 7 8 9 10
S 0 1 1 3 0 2 2 1 2 1
D 3 2 2 2 3 2 1 2 2 1
Dia 11 12 13 14 15 16 17 18 19 20
S 1 1 2 0 0 1 1 2 3 1
D 2 2 3 2 1 2 2 1 3 2
Dia 21 22 23 24 25 26 27 28 29 30
S 0 1 2 1 0 0 0 1 1 2
D 2 2 2 1 2 1 1 1 3 3
FONTE: Adaptado de: Magalhães e Lima (2010)
Vamos construir a tabela auxiliar, contendo as possibilidades conjuntas de 
S e D e a frequência observada de cada uma. Os valores observados para a variável 
S (sarampo) foram 0, 1, 2 e 3 respectivamente, enquanto para a variável D (difteria), 
foram 1, 2 e 3 respectivamente. A tabela auxiliar deve conter todas as combinações 
possíveis destes valores.
UNIDADE 3 | CORRELAÇÃO E REGRESSÃO LINEAR
130
TABELA 51 – TABELA AUXILIAR PARA CONSTRUÇÃO DA TABELA 
DE DUPLA ENTRADA
 (S, D) ni
(0, 1) 3
(0, 2) 3
(0,3) 2
(1, 1) 3
(1, 2) 9
(1,3) 1
(2,1) 2
(2,2) 3
(2,3) 2
(3,1) 0
(3,2) 1
(3, 3) 1
TOTAL 30
FONTE: A autora
Agora estamos em condições de montar a tabela de dupla entrada:
TABELA 52 – RELAÇÃO ENTRE VARIÁVEIS
CASOS MENSAIS DE SARAMPO E DIFTERIA NA UNIDADE DE SAÚDE 
Difteria
Sarampo
TOTAL
0 1 2 3
1 3 3 2 0 8
2 3 9 3 1 16
3 2 1 2 1 6
TOTAL 8 13 7 2 30
FONTE: Magalhães e Lima (2010)
3 INDEPENDÊNCIA ENTRE VARIÁVEIS
Uma vez que sabemos esboçar a tabela de distribuição conjunta de duas 
variáveis, a pergunta que se coloca agora é: como saber se o comportamento de 
uma influência é o comportamento da outra? Será que há relação entre elas? Será 
que o comportamento de uma depende do comportamento da outra?
TÓPICO 1 | CORRELAÇÃO
131
Estas perguntas são importantes porque, se as variáveis forem dependentes, 
podemos explicar como uma delas de comporta em função do desempenho da 
outra.
Embora difíceis de responder por completo, há algumas maneiras de 
chegarmos a respostas parciais para estas questões.
Uma maneira de obter algum tipo de informações sobre dependência (ou 
independência) é observar o comportamento de uma das variáveis mantendo a 
outra constante. Se duas variáveis X e Y forem independentes, por exemplo, é 
esperado que o fato de X ser 2 ou 3 não afete o comportamento de Y.
 Vamos entender como fazer isso partindo do exemplo anterior, sobre o 
número de casos diários de sarampo e difteria observados na unidade de saúde. A 
tabela de distribuição conjunta nos fornece também o comportamento das variáveis 
por si só, por meio das distribuições marginais.
TABELA 53 – RELAÇÃO ENTRE VARIÁVEIS
CASOS MENSAIS DE SARAMPO E DIFTERIA NA UNIDADE DE SAÚDE 
Difteria
Sarampo
TOTAL
0 1 2 3
1 3 3 2 0 8
2 3 9 3 1 16
3 2 1 2 1 6
TOTAL 8 13 7 2 30
FONTE: Magalhães e Lima (2010)
Se o número de casos diários de sarampo, por exemplo, não interfere no 
número de casos diários de difteria, era de se esperar que o fato de terem 30 casos 
de sarampo, 8 ou 16 não fizesse diferença: o comportamento da variável ‘difteria’ 
seria o mesmo, isto é, o número de casos seria proporcional.
Uma maneira de verificar esta relação é calcular as porcentagens dos casos 
de difteria em relação aos casos de sarampo. Para isso, mantém-se fixa a última 
linha da tabela e consideram-se aqueles valores como sendo 100% dos casos 
observados. Em seguida, calcula-se quanto cada número de ocorrências na coluna 
representa sobre o número de casos de sarampo. Vamos fazer os cálculos para a 
primeira coluna – os outros são análogos.
Total de dias em que não houve ocorrências de sarampo: 8.
Para a primeira coluna, 8 corresponderá a 100%.
UNIDADE 3 | CORRELAÇÃO E REGRESSÃO LINEAR
132
Nos dias em que não houve casos de sarampo, em 3 deles houve uma 
ocorrência de difteria, o que corresponde a 37,5% dos dias ((3/8)∙100%); em 3 deles 
houve duas ocorrências de difteria, o que corresponde a 37,5% dos dias ((3/8)∙100%); 
em 2 deles houve três ocorrências de difteria, o que corresponde a 25% dos dias.
Pronto, já temos os dados da primeira coluna. Repetimos o procedimento 
para uma das colunas da tabela, obtendo os seguintes valores no final:
TABELA 54 – INDEPENDÊNCIA ENTRE VARIÁVEIS
CASOS MENSAIS DE SARAMPO E DIFTERIA NA UNIDADE DE SAÚDE 
Difteria
Sarampo
TOTAL
0 1 2 3
1 37,5% 23,1% 28,6% 0,0% 26,7%
2 37,5% 69,2% 42,8% 50,0% 53,3%
3 25,0%7,7% 28,6% 50,0% 20,0%
TOTAL 100,0% 100,0% 100,0% 100,0% 100,0%
FONTE: A autora
Se as variáveis fossem independentes, era de se esperar que o 
comportamento da última coluna fosse repetido, ou pelo menos muito próximo 
do comportamento das outras colunas (que o número de casos de sarampo não 
interferisse no comportamento dos casos diários de difteria). Entretanto, observe 
que o comportamento das variáveis é bem distinto. Portanto, podemos concluir 
que há, sim, algum tipo de dependência entre elas, isto é, o aparecimento de casos 
de sarampo, por alguma razão, interfere no número de aparecimentos de casos de 
difteria na unidade de saúde em questão.
EXEMPLO 2: Considere a seguinte tabela conjunta que apresenta o gênero 
dos turistas em relação à sua procedência (Adaptado de: Farhat; Elian (2006)).
TABELA 55 – PERFIL DOS TURISTAS DA REGIÃO 
Gênero
Região de Procedência
TOTAL
Perto Longe
Feminino 6 7 13
Masculino 4 5 9
TOTAL 10 12 22
FONTE: A autora.
Vamos ver se as variáveis estão relacionadas, isto é, se existe dependência 
entre as duas. Para isso, consideremos a tabela de porcentagens por coluna:
TÓPICO 1 | CORRELAÇÃO
133
TABELA 56 – PERFIL DOS TURISTAS DA REGIÃO 
Gênero
Região de Procedência
TOTAL
Perto Longe
Feminino 60,00% 58,33% 59,09%
Masculino 40,00% 41,67% 40,91%
TOTAL 100,00% 100,00% 100,00%
FONTE: A autora
Embora os números sejam diferentes, observe que eles são muito 
próximos. É possível concluir que haja independência entre elas, ou seja, a região 
de procedência do turista nada tem a ver com o seu gênero.
Dificilmente, mesmo em caso de independência de variáveis, os valores das 
porcentagens em colunas diferentes serão exatamente iguais – estamos lidando 
com dados estatísticos. Assim, existem medidas matemáticas que nos dizem se 
as diferenças entre valores são suficientemente pequenas para concluirmos pela 
independência ou não entre as variáveis: uma delas é o Q2. Essas medidas fogem 
do escopo deste livro, mas você pode encontrar mais detalhes sobre o Q2 e sua 
análise em Magalhães e Lima (2010).
4 A CORRELAÇÃO
Embora tenhamos concluído pela dependência ou não de variáveis nos 
exemplos anteriores analisando a tabela de distribuição conjunta, não conseguimos 
medir esta dependência. Por exemplo, aparentemente, havia relação entre as 
variáveis ‘difteria’ e ‘sarampo’, mas que tipo de dependência há entre elas? 
Quando o número de casos de uma aumenta, o da outra também aumenta? Em 
que proporção isso acontece?
Conforme já dissemos, estas questões não são simples de responder, mas 
no caso de variáveis quantitativas, uma análise gráfica pode ajudar.
4.1 DIAGRAMA DE DISPERSÃO
Para iniciar nossa discussão, consideremos uma amostra aleatória das 
notas de Cálculo e Estatística de 12 estudantes do curso de Engenharia Elétrica de 
determinada universidade:
UNIDADE 3 | CORRELAÇÃO E REGRESSÃO LINEAR
134
TABELA 57 – GRÁFICO DE DISPERSÃO
Estudante Nota Cálculo Nota Estatística
1 4 5
2 6 7
3 7 8
4 6 5
5 9 9
6 8 8
7 8 5
8 2 4
9 2 5
10 5 4
11 4 6
12 9 8
FONTE: Novaes e Coutinho (2009)
Queremos saber se há relação entre o desempenho em Cálculo e Estatística. 
Para isso, vamos traçar o gráfico de dispersão entre as duas variáveis. O primeiro 
passo é definirmos qual das variáveis ocupará a posição do eixo das abscissas 
(eixo horizontal X) e qual ocupará a posição do eixo das ordenadas (eixo vertical 
Y). Vamos considerar a variável X como sendo ‘nota de Cálculo’ e a variável Y 
como sendo ‘nota de Estatística’. Assim, os valores associados à nota de Cálculo 
comporão as coordenadas x e os valores associados à nota de Estatística comporão 
as coordenadas y no par ordenado (x, y).
FIGURA 29 – GRÁFICO DE DISPERSÃO
FONTE: Tabela 55
TÓPICO 1 | CORRELAÇÃO
135
O gráfico de dispersão dos dados anteriores nos mostra que há uma relação 
entre as notas em Estatística e Cálculo: aparentemente, os alunos com maiores notas 
em Cálculo obtêm melhores notas em Estatística e vice-versa. Assim, podemos 
arriscar a dizer que as variáveis são correlacionadas. 
Segundo Crespo (2009, p. 147), podemos dividir os casos de correlação 
entre variáveis em três:
• Correlação linear positiva: quando o aumento da variável independente 
X implica um aumento na variável dependente Y.
• Correlação linear negativa: quando o aumento da variável 
independente X implica uma diminuição na variável dependente Y.
• Correlação não linear: quando parece ter algum tipo de relação entre 
as variáveis, em formato de ‘curva’.
FIGURA 30 – TIPOS DE CORREÇÃO
FONTE: Crespo (2009, p. 147)
Mas será que é possível medir esta correlação entre variáveis?
4.2 COEFICIENTE DE CORRELAÇÃO
Vamos agora apresentar uma maneira de medir a correlação linear entre 
duas variáveis, chamado de coeficiente de correlação de Pearson, ou coeficiente de 
correlação linear.
UNIDADE 3 | CORRELAÇÃO E REGRESSÃO LINEAR
136
Formalmente, se X e Y são duas variáveis discretas definidas a partir do 
mesmo fenômeno, com valores atribuídos definimos 
o coeficiente de correlação de Pearson por:
O símbolo significa somatório, ou seja, .
Note que a maior dependência que poderia ocorrer entre duas variáveis 
X e Y seria X se comportar exatamente como Y: cada aumento da variável X 
representasse um aumento de mesma quantidade de Y, ou uma diminuição de 
mesma quantidade de Y. Em termos de correlação, isto significa que 
Já no caso de X e Y serem independentes linearmente, r = 0. Segundo Oliveira 
(2010, p. 440), podemos considerar a seguinte escala para correlação: 
UNI
TÓPICO 1 | CORRELAÇÃO
137
Observe que a fórmula da correlação linear é bastante trabalhosa. 
Entretanto, podemos utilizar uma tabela auxiliar para ajudar no cálculo, assim 
como fizemos para calcular a variância. Voltando aos dados da Tabela 55, e 
lembrando que X representa a variável ‘nota em Cálculo’ e Y representa a variável 
‘nota em Estatística’, construímos a seguinte tabela auxiliar:
TABELA 58 – TABELA AUXILIAR PARA O CÁLCULO DA CORRELAÇÃO
i
1 4 5 16 25 20
2 6 7 36 49 42
3 7 8 49 64 56
4 6 5 36 25 30
5 9 9 81 81 81
6 8 8 64 64 64
7 8 5 64 25 40
8 2 4 4 16 8
9 2 5 4 25 10
10 5 4 25 16 20
11 4 6 16 36 24
12 9 8 81 64 72
TOTAL 70 74 476 490 467
FONTE: A autora
Da tabela auxiliar, temos:
Agora podemos calcular o coeficiente:
UNIDADE 3 | CORRELAÇÃO E REGRESSÃO LINEAR
138
Observe que o valor encontrado para a correlação é relativamente alto, e é 
positivo. Isto significa que o aumento da variável X ‘notas em Cálculo’ implica um 
aumento considerável da variável Y ‘notas em Estatística’.
EXEMPLO: A tabela a seguir exibe os dados sobre a quantidade vendida de 
certa mercadoria e os preços alcançados nos últimos meses. 
TABELA 57 – EXEMPLO DE CORRELAÇÃO LINEAR
Mês
Quantidade vendida (em 
milhares)
Preço (em dólares)
1 50,0 4,9
2 68,4 4,8
3 65,3 4,7
4 69,0 4,6
5 82,3 4,5
6 109,1 4,4
7 99,9 4,3
8 128,6 4,2
9 180,0 4,1
10 200,5 4,0
FONTE: Silver (2000)
Vamos montar o gráfico de dispersão para estas variáveis e calcular seu 
coeficiente de correlação linear. Interessa-nos descrever o comportamento do 
volume de vendas em relação ao preço - então o preço fará o papel da variável 
independente, enquanto o volume de vendas fará o papel da variável dependente.
FIGURA 31 – DISPERSÃO DAS VENDAS EM FUNÇÃO DO PREÇO
FONTE: Dados da Tabela 56
TÓPICO 1 | CORRELAÇÃO
139
Aparentemente, há correlação entre as variáveis. Vamos calcular o 
coeficiente de correlação linear utilizando a tabela auxiliar.
TABELA 60 – TABELA AUXILIAR PARA O CÁLCULO DA CORRELAÇÃO
i
1 4,9 50,0 24,0 2500,0 245,0
2 4,8 68,4 23,0 4678,6 328,3
3 4,7 65,3 22,1 4264,1 306,9
4 4,6 69,0 21,2 4761,0 317,4
5 4,5 82,3 20,3 6773,3 370,4
6 4,4 109,1 19,4 11902,8 480,0
7 4,3 99,9 18,5 9980,0 429,6
8 4,2 128,617,6 16538,0 540,1
9 4,1 180,0 16,8 32400,0 738,0
10 4,0 200,5 16,0 40200,3 802,0
TOTAL 44,5 1053,1 198,9 133998,0 4557,7
FONTE: A autora
Da tabela auxiliar, temos:
n = 10
Substituindo estes valores na fórmula, encontramos r = - 0,93.
Podemos concluir que há uma alta correlação entre as variáveis, sendo que 
o crescimento de uma (preço) provoca o decrescimento da outra (vendas).
140
Neste tópico estudamos o comportamento de duas variáveis ao mesmo 
tempo, procurando estabelecer relações. Mais precisamente, vimos que:
• Construir uma tabela de dupla entrada ajuda na apresentação dos dados de 
duas variáveis.
• Duas variáveis possuem dependência entre si se o comportamento de uma afeta 
o comportamento da outra.
• A tabela de porcentagens por coluna ajuda a verificar se há ou não dependência 
entre duas variáveis.
• Para variáveis quantitativas, utilizamos o diagrama de dispersão.
• Duas variáveis podem não estar correlacionadas, podem estar linearmente 
correlacionadas (positiva ou negativamente) ou podem estar não linearmente 
correlacionadas.
• O coeficiente de correlação de Pearson, denotado por r, nos indica se há 
correlação linear entre duas variáveis.
RESUMO DO TÓPICO 1
141
AUTOATIVIDADE
Vamos exercitar os conhecimentos adquiridos neste tópico? Resolva os 
seguintes exercícios:
1 Uma empresa deseja investigar quantos dos seus funcionários são fumantes 
e qual o seu perfil. Neste sentido, aplicou um questionário para seus 24 
funcionários. A seguir, você pode ver o resultado da pesquisa:
In
di
ví
du
o
Se
xo
H
áb
ito
 d
e 
fu
m
ar
Id
ad
e
Es
co
la
rid
ad
e
C
ar
go
Sa
lá
rio
 
(e
m
 R
$)
1 M Sim 18 Fundamental Ajudantes 900,00
2 M Não 17 Médio Ajudantes 1056,00
3 M Não 18 Médio Ajudantes 1356,00
4 M Não 19 Fundamental Ajudantes 1500,00
5 F Não 32 Superior Chefia 10500,00
6 F Não 35 Superior Chefia 11400,00
7 M Sim 15 Fundamental Ajudantes 1056,00
8 F Sim 17 Fundamental Ajudantes 1056,00
9 M Não 19 Médio Escriturários 2430,00
10 M Não 20 Médio Escriturários 2550,00
11 F Não 22 Médio Escriturários 2940,00
12 M Sim 45 Superior Chefia 13500,00
13 M Sim 18 Fundamental Ajudantes 1110,00
14 M Não 17 Médio Ajudantes 1056,00
15 M Não 18 Médio Ajudantes 1350,00
16 M Não 19 Fundamental Ajudantes 1500,00
17 F Não 36 Superior Chefia 10500,00
18 F Não 35 Superior Chefia 11400,00
19 M Sim 15 Fundamental Ajudantes 1056,00
20 F Sim 17 Fundamental Ajudantes 1056,00
21 M Não 19 Médio Escriturários 2430,00
22 M Não 20 Médio Escriturários 2430,00
23 F Não 22 Médio Escriturários 2940,00
24 M Sim 40 Superior Chefia 13500,00
142
Com base nos dados da tabela, monte as seguintes distribuições conjuntas e 
conclua se há dependência entre as variáveis:
a) Hábito de fumar em relação ao gênero.
b) Idade em relação ao hábito de fumar.
c) Idade em relação ao gênero.
d) Cargo em relação ao hábito de fumar.
e) Sexo em relação ao cargo.
f) Faixa salarial em relação ao hábito de fumar.
 FONTE: Adaptado de: Farhat e Elian (2006)
2 Sabe-se que alguns supermercados colocam uma mercadoria em oferta e 
aumentam levemente o preço das outras que podem ser compradas como 
complemento. Assim, quem compra macarrão pode necessitar também 
do molho do tomate. Uma pesquisa teve o objetivo de observar se havia 
correlação entre o preço do macarrão em oferta e do molho de tomate em 
dez supermercados. Os preços praticados estão na tabela a seguir:
Preço do Macarrão Preço do molho de tomate
2,00 1,20
2,30 1,40
2,50 1,75
2,60 2,00
2,80 2,20
3,00 2,40
3,20 2,70
3,25 3,00
3,30 3,20
3,50 4,00
As duas séries de preços estão correlacionadas? Justifique.
 FONTE: Adaptado de: Novaes e Coutinho (2009)
3 A tabela a seguir apresenta os dados referentes a áreas de terrenos em 
metros quadrados com seus respectivos preços de venda em mil reais de 
uma determinada região de São Paulo.
143
Área dos terrenos (m2) Preço de venda (mil reais)
40 42
60 58
60 58
60 70
80 80
100 90
115 100
130 102
138 130
150 130
160 140
Há correlação entre os dados? Justifique.
 FONTE: Adaptado de: Farhat e Elian (2006)
144
145
TÓPICO 2
REGRESSÃO LINEAR
UNIDADE 3
1 INTRODUÇÃO
Neste tópico daremos prosseguimento ao que começamos a estudar no 
tópico anterior. Lá, aprendemos a verificar se duas variáveis quantitativas possuem 
algum tipo de dependência entre si, ou seja, se há correlação entre elas.
Voltemos ao exemplo em que foram comparados o volume de vendas e o 
preço de determinada mercadoria. Traçamos o gráfico de dispersão da situação e 
calculamos sua correlação.
FIGURA 32 – DISPERSÃO DAS VENDAS EM FUNÇÃO DO PREÇO
FONTE: A autora
Uma vez que há correlação linear entre as variáveis, nosso objetivo agora 
será encontrar a equação da reta que melhor descreve esta situação. De posse desta 
equação, poderemos utilizá-la para obter informações que não foram observadas 
diretamente, mas que podem ser obtidas da análise gráfica. Por exemplo, na 
pesquisa, não foi mencionada a quantidade de vendas se o preço da mercadoria 
fosse 5 dólares, mas se tivermos a equação da reta que melhor aproxima os pontos, 
poderemos encontrar uma aproximação muito boa para este valor. Do mesmo 
modo, se quisermos ter uma ideia da quantidade de vendas esperadas, caso o 
valor da mercadoria fosse de 3,5 dólares.
146
UNIDADE 3 | CORRELAÇÃO E REGRESSÃO LINEAR
Vamos então aprender as técnicas para encontrarmos a reta que melhor 
aproxima os pontos observados. Esta técnica é conhecida como regressão linear 
e o método para encontrá-la recebe o nome de método dos mínimos quadrados.
Queremos aproximar os dados do gráfico de dispersão por meio de uma 
reta, cuja equação é da forma y = α + β∙x, onde α é chamado de coeficiente linear da 
reta e β é chamado de coeficiente angular da reta. Estes valores α e β são constantes 
e são eles que a caracterizam: cada reta tem um valor para α e um valor para β fixos. 
Para traçar a reta, vamos então fornecendo valores para x (variável independente) 
e encontrando um único y tal que y = α + β∙x.
É importante lembrar que α e β são duas letras gregas, chamadas alfa e beta.
Voltemos agora para a nossa situação inicial e vamos traçar uma reta que, 
aparentemente, se aproxima de todos os pontos observados da melhor maneira 
possível (este procedimento se chama regressão linear). Provavelmente, nenhum 
dos pontos da amostra pertence à reta, conforme você pode observar. 
Assim, para cada da amostra, teremos , onde é o erro 
cometido – a distância entre a reta e cada - também chamado de resíduo.
FIGURA 33 – RETA QUE MELHOR APROXIMA DOS DADOS E RESÍDUOS
FONTE: A autora
UNI
TÓPICO 2 | REGRESSÃO LINEAR
147
O modelo de regressão linear supõe que a média dos valores deve ser 
zero. Como consequência, 
Assim, temos dois valores para serem encontrados, α e β.
Da matemática básica sabemos que, quando precisamos encontrar duas 
incógnitas, precisamos de um sistema com duas equações que as envolvam. 
O modelo de regressão linear nos forneceu uma das equações: 
Precisamos de mais uma relação entre α e β para podermos encontrá-los.
2 MÉTODO DOS MÍNIMOS QUADRADOS
Vamos encontrar outra relação que nos auxilie a encontrar os valores de α 
e β. 
Para que a média dos valores seja zero, temos que 
Como
n é o tamanho da amostra e, portanto, não é zero, 
Mas, para cada i, quem é ? 
Uma vez que se considerarmos 
veremos que para cada i. Portanto, se a soma dos resíduos deve ser 
zero,
148
UNIDADE 3 | CORRELAÇÃO E REGRESSÃO LINEAR
Mas este fato não garante que a reta seja a mais próxima possível, pois o 
resíduo encontrado para certo i pode anular um resíduo encontrado para certo j (i 
≠ j). Observe a situação:
FIGURA 34 – RESÍDUOS NA REGRESSÃO
FONTE: A autora
Observeo desenho: os dois resíduos, embora grandes, possuem tamanho 
similar, mas sinais diferentes. Logo, quando forem somados, irão resultar em um 
número próximo de zero.
Para contornar este problema, ao invés de minimizar a soma dos resíduos, 
vamos minimizar a soma do quadrado dos resíduos. Assim, teremos apenas 
valores positivos envolvidos no cálculo e, para que a soma resulte em um valor 
próximo de zero, cada um dos resíduos precisa ser muito pequeno.
O critério acima é conhecido como método dos mínimos quadrados.
Através desta suposição e através de cálculos matemáticos, chegam-se às 
seguintes equações: 
TÓPICO 2 | REGRESSÃO LINEAR
149
Ou, de maneira mais condensada:
Como estamos utilizando dados de uma amostra para encontrar a equação da 
reta que melhor aproxima os dados, na verdade, estamos estimando a verdadeira equação da 
reta. Por esta razão, escrevemos 
Vamos então calcular a regressão linear para o problema do volume de 
vendas em relação ao preço, utilizando o método dos mínimos quadrados. A 
mesma tabela auxiliar que montamos para calcular a correlação nos ajuda no 
cálculo das variáveis α e β.
TABELA 61 – TABELA AUXILIAR PARA AJUSTE DE RETA
i
(preço) (vendas)
1 4,9 50,0 24,0 2500,0 245,0
2 4,8 68,4 23,0 4678,6 328,3
3 4,7 65,3 22,1 4264,1 306,9
4 4,6 69,0 21,2 4761,0 317,4
5 4,5 82,3 20,3 6773,3 370,4
6 4,4 109,1 19,4 11902,8 480,0
7 4,3 99,9 18,5 9980,0 429,6
8 4,2 128,6 17,6 16538,0 540,1
9 4,1 180,0 16,8 32400,0 738,0
10 4,0 200,5 16,0 40200,3 802,0
TOTAL 44,5 1053,1 198,9 133998,0 4557,7
FONTE: A autora
UNI
150
UNIDADE 3 | CORRELAÇÃO E REGRESSÃO LINEAR
Assim,
Assim, a reta que melhor aproxima os dados da amostra é dada pela 
equação
EXEMPLO: Consideremos a situação proposta no tópico anterior, onde 
eram analisadas as notas em Estatística e em Cálculo obtidas pelos estudantes de 
Engenharia Elétrica de uma determinada universidade. Vimos que as variáveis 
X: nota em Cálculo e Y: nota em Estatística estavam correlacionadas linearmente. 
Vamos então utilizar o método de minimização dos quadrados para encontrar a 
reta que melhor aproxima os dados da amostra. A tabela auxiliar que construímos 
para calcular a correlação entre as variáveis era a seguinte: 
TABELA 62 – TABELA AUXILIAR PARA AJUSTE DE RETA
i (Notas em 
Cálculo)
(Notas em 
Estatística)
1 4 5 16 25 20
2 6 7 36 49 42
3 7 8 49 64 56
4 6 5 36 25 30
5 9 9 81 81 81
6 8 8 64 64 64
7 8 5 64 25 40
8 2 4 4 16 8
9 2 5 4 25 10
10 5 4 25 16 20
11 4 6 16 36 24
12 9 8 81 64 72
TOTAL 70 74 476 490 467
FONTE: A autora
TÓPICO 2 | REGRESSÃO LINEAR
151
Assim, a reta que melhor aproxima os dados da amostra é dada pela 
equação
FIGURA 35 – RETA AJUSTADA – REGRESSÃO LINEAR
FONTE: A autora
3 ANÁLISE DA REGRESSÃO LINEAR
A regressão linear é, portanto, a reta que melhor aproxima dos dados 
de uma amostra onde duas variáveis são analisadas conjuntamente. O que isto 
significa?
Voltemos ao exemplo anterior, das notas em Cálculo e em Estatística. O 
modelo de regressão linear nos forneceu a seguinte equação: 
Note que o valor de α – no caso, α = 3,121 – independe de X. Isto significa que 
mesmo sem nota em cálculo, é de se esperar que o aluno obtenha nota 3,122, ou 
seja, é a nota inicial em estatística segundo o modelo. Já a constante β – no caso, 
152
UNIDADE 3 | CORRELAÇÃO E REGRESSÃO LINEAR
β = 0,522 – nos fornece a proporção com que Y varia quando X varia. Neste caso, 
cada alteração na nota de Cálculo (X) altera a nota de Estatística a uma proporção 
de 0,522 (ou 52,20%). 
É claro que a reta não descreve exatamente o comportamento da relação 
entre as variáveis, mas dá uma estimativa para o comportamento conjunto delas. 
No exemplo anterior, das notas em Cálculo e Estatística, se procurarmos a nota de 
Estatística (variável Y) correspondente à nota 6 em Cálculo (variável X) na reta, 
encontraremos ou seja, de acordo com a equação da 
reta, quem tem nota 6 em Cálculo obtém nota 6,25 em estatística. Por outro lado, na 
amostra, dois estudantes tiraram 6 em Cálculo: um tirou 5 em estatística e o outro 
tirou 7! O fato dos valores observados serem diferentes do obtido via regressão não 
significa que houve erro no cálculo, pois são informações diferentes: o dado obtido 
via equação é uma estimativa.
Este exemplo ilustra o cuidado que devemos ter ao trabalharmos com a 
linearização: a regressão é uma estimativa que descreve o comportamento conjunto 
dos dados, mas não significa que podemos replicar os dados da amostra com ela.
Por outro lado, a equação é bastante útil para tirarmos informações sobre 
dados que não dispomos.
3.1 INTERPOLAÇÃO E EXTRAPOLAÇÃO
Suponhamos que estivéssemos interessados em obter uma estimativa para 
a nota de um estudante que obteve 4,5 em Cálculo. Nenhum dos estudantes que fez 
parte da amostra obteve esta nota e, portanto, não podemos utilizar informações da 
tabela de distribuição. Por outro lado, podemos estimar um valor para ela através 
da equação da reta:
Assim, é estimado que este estudante tenha tirado 5,47, ou 5,5 em Estatística.
Note que, na amostra, os dados de x variavam de 2 a 9, ou seja, x pertence 
ao intervalo fechado [2, 9]. Portanto, embora não faça parte da amostra, x = 4,5 
também pertence a este intervalo, pois é maior do que 2 e menor do que 9. Quando 
o valor y que pretendemos estimar estiver associado a um valor x pertencente ao 
intervalo de valores da amostra, damos nome a este processo de interpolação.
E se quiséssemos estimar a nota em estatística de um estudante que obteve 
10 em Cálculo? Embora o valor 10 não faça parte do intervalo de valores para x 
TÓPICO 2 | REGRESSÃO LINEAR
153
da amostra, o fato de estarmos aproximando os dados por uma reta (regressão 
linear) implica podermos estimar a nota em estatística via equação. Neste caso, 
Assim, é estimado que o estudante que tenha nota 10 em Cálculo, tenha 
nota 8,3 em Estatística.
Quando o valor y que pretendemos estimar estiver associado a um valor x 
não pertencente ao intervalo de valores da amostra, damos nome a este processo 
de extrapolação.
Para a interpolação, qualquer valor estudado é aceitável, uma vez que ele 
pertence ao intervalo da amostra; já no caso da extrapolação, precisamos ter alguns 
cuidados. Embora a reta esteja definida para qualquer número real (propriedade 
de reta), o significado da variável impõe restrições aos valores estudados. Por 
exemplo, no caso das notas de Cálculo, embora matematicamente possível, não 
tem sentido supormos notas superiores a 10 (supondo 10 a nota máxima) ou 
inferiores a 0.
EXEMPLO: Vamos voltar ao exemplo do volume de vendas associado ao 
preço da mercadoria. 
TABELA 63 – EXEMPLO DE CORRELAÇÃO LINEAR
Mês
Preço 
(em dólares)
Quantidade vendida 
(em milhares)
1 4,9 50,0
2 4,8 68,4
3 4,7 65,3
4 4,6 69,0
5 4,5 82,3
6 4,4 109,1
7 4,3 99,9
8 4,2 128,6
9 4,1 180,0
10 4,0 200,5
FONTE: Silver (2000)
Já realizamos a regressão linear para esta situação, e encontramos a seguinte 
equação da reta: 
Se quisermos estimar o volume de vendas caso o preço da mercadoria fosse 
de 6 dólares, teríamos que 
154
UNIDADE 3 | CORRELAÇÃO E REGRESSÃO LINEAR
Note que, embora os cálculos estejam corretos, o valor encontrado é negativo, 
o que não faz sentido, uma vez que a variável Y está associada a quantidades. 
Por outro lado, fica evidente que cobrar 6 dólares pela mercadoria seria inviável. 
Vamos encontrar o valor em dólares para o qual a quantidade vendida seria nula?
Nesse caso, y = 0.
Assim, concluímos que a mercadoria não pode custar mais do que 5,12 
dólares.
3.2 COEFICIENTE DE DETERMINAÇÃO
Outro ponto que merece destaque diz respeito à confiabilidade dos dados 
estimados via regressão linear. Como saber se eles são confiáveis? Segundo Crespo 
(2009), só faz sentido fazermosa regressão linear se há, de fato, correlação entre as 
variáveis e se esta correlação é relativamente alta. Por esta razão, o primeiro passo 
ao estudarmos duas variáveis conjuntamente é calcular a coeficiente de correlação 
linear entre elas. O coeficiente de correlação nos dá uma preciosa informação: 
ele fornece uma medida de quanto de uma variável é explicada linearmente pela 
outra variável. Esta medida se chama coeficiente de determinação (ou coeficiente 
de explicação), e corresponde a 
R2 = r2 
onde r é o coeficiente de correlação linear que já estudamos.
Aplicando ao exemplo anterior, sobre a quantidade de vendas em relação 
ao preço da mercadoria, havíamos concluído que, para este caso, r = - 0,93. Assim, 
o coeficiente de determinação é de R2 = (-0,93)2 = 0,8649. Segundo Silver (2000), este 
valor mostra que a proporção da variação de Y – no caso, a quantidade de vendas 
- explicada pelo modelo é de 0,8649, isto é, de 86,49%. Portanto, apenas (100% 
- 86,49%) = 13,51% da variação na quantidade de vendas é explicada por outros 
fatores que não a relação linear estabelecida pelo modelo com a variação do preço.
No caso da relação entre as notas em Cálculo e Estatística, r = 0,7403. Assim, 
R2 = (0,7403)2 = 0,5480. Assim, as notas em Estatística são explicadas pelo modelo 
de regressão linear na proporção de 54,80%: 45,20% da variação nas notas de 
Estatística é explicada por outros fatores que não a relação linear estabelecida pelo 
modelo com as notas em Cálculo.
155
Neste tópico, estudamos a regressão linear por meio do método dos 
mínimos quadrados. Mais precisamente, vimos que:
• Regressão linear consiste em traçar uma reta que se aproxime de todos os pontos 
observados da melhor maneira possível, cuja equação é da forma y = α + β∙x, 
onde α é chamado de coeficiente linear da reta e β é chamado de coeficiente 
angular da reta.
• Os valores α e β são constantes e são eles que caracterizam a reta e, portanto, são 
eles que devem ser encontrados.
• O método dos mínimos quadrados consiste em um método matemático que 
permite encontrar α e β, de modo que a soma dos quadrados dos resíduos seja 
a menor possível.
• Interpolação é o processo de, dado um valor para x pertencente ao intervalo da 
amostra, encontrar um valor estimado para y via regressão linear.
• Extrapolação é o processo de, dado um valor para x não pertencente ao intervalo 
da amostra, encontrar um valor estimado para y via regressão linear.
• Sempre é possível interpolar, mas é preciso cuidado na hora de extrapolar!
• O coeficiente de determinação é obtido através do coeficiente de correlação e nos 
fornece a proporção com que a variação da variável Y é explicada pelo modelo 
de regressão linear.
RESUMO DO TÓPICO 2
156
AUTOATIVIDADE
1 Uma agência de turismo especializada em oferecer passeios opcionais para 
turistas que visitam determinada região está estudando a variação na adesão 
a determinado pacote quando são acrescentados ou tirados percursos do 
preço cobrado, obtendo as seguintes informações:
Preço ($) Número de adesões
10 50
15 51
20 48
25 43
30 42
35 45
40 39
45 38
50 40
55 34
60 32
70 30
90 25
a) Faça o gráfico de dispersão.
b) Há correlação linear entre os dados? Justifique.
c) Encontre a função matemática que explique a dependência entre o número 
de adesões e o preço do passeio opcional.
d) Estime o número de pessoas que farão o passeio opcional se o valor cobrado 
for de 80 reais.
e) Encontre a proporção com que a variação no número de ações é explicada 
linearmente pelo preço da mesma.
FONTE: Adaptado de: Novaes e Coutinho (2009)
2 custo mensal de manutenção de determinado tipo de automóvel (excluindo-
se combustível e troca de óleo) está sendo analisado em função da idade 
do veículo. Nove automóveis fabricados em diferentes anos tiveram o custo 
averiguado e os dados obtidos foram os seguintes:
157
Idade do veículo (anos) Custo mensal (reais)
1 8
2 13
3 18
4 28
5 24
6 26
7 29
8 32
9 37
a) Trace o gráfico de dispersão.
b) Calcule o coeficiente de determinação.
c) Faça a regressão linear e encontre a equação da reta melhor ajustada.
d) Com base no modelo de regressão linear, qual é o custo mensal de um carro 
com 12 anos de uso?
FONTE: Adaptado de: Magalhães e Lima (2010)
3 Uma indústria submete seus novos operários a um teste de aptidão (X) e 
três meses depois mede a produtividade destes operários (Y). Os resultados 
estão na tabela a seguir:
Operário Aptidão(X) Produtividade (Y)
A 22 45
B 25 37
C 15 25
D 19 40
E 22 33
F 18 30
a) Faça o diagrama de dispersão e calcule o coeficiente de correlação.
b) Encontre a equação da reta de regressão.
c) Para um indivíduo cujo resultado no teste de aptidão foi 20, qual é a 
produtividade esperada?
d) Para um indivíduo que obteve 28 no teste de produtividade, qual é o 
resultado no teste de aptidão?
FONTE: Adaptado de: Magalhães e Lima (2010)
4 Certa empresa, estudando a variação da demanda do seu produto em 
relação à variação de preço de venda (em unidades monetárias), obteve os 
seguintes dados: 
158
Preço (u.m.) Demanda
38 350
42 325
50 297
56 270
59 256
63 246
70 238
80 223
95 215
110 208
a) Determine os coeficientes de correlação e de determinação entre as variáveis.
b) Encontre a equação da reta ajustada.
c) Se o preço de venda for 75 u.m., qual é a demanda estimada?
d) Se o preço de venda for de 110 u.m., qual é a demanda estimada?
e) Qual é o valor máximo de preço possível para que haja demanda?
FONTE: Adaptado de: Crespo (2009) 
159
TÓPICO 3
REGRESSÃO MÚLTIPLA
UNIDADE 3
1 INTRODUÇÃO
Nos tópicos anteriores, vimos que é possível medir a correlação linear entre 
duas variáveis e, se elas estiverem de fato correlacionadas, ajustar uma reta de 
regressão entre elas.
Algumas vezes, os problemas que queremos estudar envolvem mais de 
duas variáveis, e precisamos saber se a variação de uma influencia na variação 
das outras. Um bom exemplo disso é a composição de carteiras de investimento. 
Normalmente, há mais de uma ação na carteira, e o seu rendimento é afetado 
pelo rendimento das ações que a compõem. Nestes casos, é interessante para o 
investidor saber quanto a variação de retorno de cada ação interfere na variação 
de retorno da carteira em si. Dependendo da resposta, o investidor pode mexer 
na composição da carteira, seja pelo aporte de valores em determinada ação (a 
compra de mais ações de uma mesma companhia), seja a composição em si da 
carteira.
Neste tópico, iremos estudar a regressão múltipla, que consiste em 
encontrar uma equação matemática (no caso, a equação de um plano) que descreva 
o comportamento de uma variável em função de várias outras. Assim, podemos 
ver a regressão linear como um caso particular da regressão múltipla.
2 O PLANO DE REGRESSÃO
Suponhamos que o volume de vendas de um produto de determinada 
empresa foi estabelecido em função de duas variáveis: custo total e gastos com 
publicidade em unidades monetárias. O quadro a seguir apresenta os dados 
observados:
UNIDADE 3 | CORRELAÇÃO E REGRESSÃO LINEAR
160
TABELA 64 – REGRESSÃO MÚLTIPLA
Período Vendas Custo Total
G a s t o s c o m 
publicidade
1 10 20 5
2 20 18 8
3 30 15 10
4 40 13 15
5 50 10 17
6 55 9 20
FONTE: Oliveira (2010)
Como queremos descrever o volume de vendas em função do custo total 
e do gasto com publicidade, consideraremos as vendas como sendo a variável 
dependente Y (pois ela depende das outras duas), e as outras duas variáveis como 
variáveis independentes X1 e X2 respectivamente.
A ideia da regressão múltipla é encontrar a equação do plano Y = α + β1∙X1 
+ β2∙X2 que melhor aproxime os dados da amostra. Assim como na regressão linear, 
precisamos então encontrar valores para as constantes α, β1 e β2 que caracterizam 
este plano, e utilizaremos o quetemos, isto é, os dados da amostra, para estimá-las. 
Novamente, é provável que nenhum dos pontos da amostra 
pertença ao plano (pelo menos um provavelmente não pertencerá). Assim, para 
cada i, teremos onde é o erro cometido – a 
distância entre o plano e cada – isto é, o resíduo.
 Assim, para cada i, 
Da mesma maneira que fizemos para regressão linear, queremos minimizar 
o erro cometido. Então vamos impor que a soma dos quadrados dos erros seja 
mínima, isto é, 
Através desta suposição e através de cálculos matemáticos, chega-se às 
seguintes equações:
TÓPICO 3 | REGRESSÃO MÚLTIPLA
161
De acordo com Oliveira (2010), isolando α na terceira equação e substituindo 
seu valor nas demais, chegamos a uma maneira mais fácil de fazermos as contas:
Voltando ao nosso exemplo, vamos construir nossa tabela auxiliar:
UNIDADE 3 | CORRELAÇÃO E REGRESSÃO LINEAR
162
TABELA 65 – TABELA AUXILIAR PARA REGRESSÃO MÚLTIPLA
i
1 10 20 5 400 25 200 50 100
2 20 18 8 324 64 360 160 144
3 30 15 10 225 100 450 300 150
4 40 13 15 169 225 520 600 195
5 50 10 17 100 289 500 850 170
6 55 9 20 81 400 495 1100 180
TOTAL 205 85 75 1299 1103 2525 3060 939
FONTE: A autora
Assim,
Substituindo estes valores no sistema, temos que:
Ou ainda
TÓPICO 3 | REGRESSÃO MÚLTIPLA
163
TABELA 65 – TABELA AUXILIAR PARA REGRESSÃO MÚLTIPLA
Resolvendo este sistema, encontraremos Falta encontrarmos 
α.
Mas Logo
Portanto, a equação do plano estimado que minimiza os erros é dada por 
Se estivermos interessados em estimar o volume de vendas, dado que o 
custo total foi 17 e os gastos com propagando totalizaram 20 unidades monetárias, 
basta substituir estes valores na equação:
O mesmo processo feito para estudarmos o comportamento de uma 
variável estatística frente a outras duas pode ser estendido para três ou mais 
variáveis, entretanto, a dificuldade de trabalhar com os cálculos necessários para 
estimar a regressão é considerável. Nestes casos, um software estatístico, ou mesmo 
o Excel pode ajudar.
UNIDADE 3 | CORRELAÇÃO E REGRESSÃO LINEAR
164
LEITURA COMPLEMENTAR
O USO DE DADOS DO IBGE PARA PESQUISAS
O IBGE é o Instituto Brasileiro de Geografia e Estatística, responsável de 
coletar e divulgar dados e informações sobre o país em diversos segmentos da 
sociedade, bem como dar subsídio para os governos federal, estadual e municipal 
na tomada de decisões. Seu objetivo principal é “retratar o Brasil com informações 
necessárias ao conhecimento da sua realidade e ao exercício da cidadania”, segundo o sítio 
eletrônico no qual ficam disponibilizados todos os dados.
Uma dica valiosa para quem gosta e se interessa por estatística é consultar 
o sitio eletrônico do IBGE (<www.ibge.gov.br>) e acessar o Brasil em Síntese. Este 
canal possibilita acesso a dados resumidos e pode servir para ilustrar, subsidiar 
ou mesmo nortear trabalhos e pesquisas na área da administração (e áreas afins).
O Brasil em Síntese reúne informações que permitem traçar um 
panorama nacional sob a forma de gráficos e tabelas, apresenta dados sobre 
território, população, educação, trabalho, habitação, agropecuária, indústria, 
comércio, serviços e contas nacionais.
FONTE: IBGE. Disponível em <http://brasilemsintese.ibge.gov.br/>. Acesso em: 7 fev. 2014.
A investigação sobre serviços vem crescendo imensamente nas últimas 
décadas no mundo inteiro, destacando-se pela representatividade no Produto 
Interno Bruto (PIB), 47,4%, em 2012. O avanço deste setor no processo de 
crescimento da economia é relevante devido a sua geração de renda e emprego. 
Trata-se de um setor heterogêneo, tanto no que se refere ao desempenho das 
empresas, como ao nível de integração aos processos de inovação e ao uso de 
tecnologia, apresentando ainda distintos perfis de ocupação de pessoal.
Neste contexto, a Pesquisa Anual de Serviços (PAS) fornece informações 
sobre a estrutura produtiva do setor de serviços formais não financeiros no 
Brasil, possibilitando diversos estudos e análises.
O segmento de transportes, serviços auxiliares aos transportes e correio 
foi responsável pela maior parcela da receita operacional líquida gerada no 
setor de serviços em 2010. Em relação ao número de empresas, destacam-se 
os serviços prestados às famílias Além de sua expressividade em termos de 
receita operacional líquida e número de empresas, os serviços profissionais, 
administrativos e complementares representaram a maior parcela do valor 
adicionado, da massa salarial e do pessoal ocupado.
TÓPICO 3 | REGRESSÃO MÚLTIPLA
165
Analisando o período de 2007 a 2011, quando a economia apresentou 
uma redução da taxa de crescimento real2 no biênio 2008-2009 e uma recuperação 
no biênio posterior, observa-se um crescimento real de 31,6% da receita 
operacional líquida das empresas de serviços. Destacam-se quatro segmentos 
que alcançaram, no período, variação superior a este resultado: serviços de 
manutenção e reparação (63,0%); atividades imobiliárias (59,8%); serviços 
prestados principalmente às famílias e serviços profissionais, administrativos e 
complementares (ambos com 44,9%). A recuperação da economia baseou-se no 
dinamismo do mercado interno, com reflexos sobre o setor de serviços.
FONTE: IBGE. Disponível em <http://brasilemsintese.ibge.gov.br/servicos>. Acesso em: 7 fev. 
2014.
Como você pode perceber, é possível e conveniente, além de confiável, 
utilizar nas suas pesquisas para trabalhos da graduação, ou mesmo de uma futura 
pós-graduação, dados do IBGE. Isto, dentre as cinco fases do método estatístico 
caracterizará uma coleta de dados indireta, pois você estará se apropriando de 
dados já coletados por alguém. Abaixo você pode conferir alguns exemplos de dados 
provenientes da pesquisa do IBGE acerca do setor de serviços. Observe que tais 
dados estão dispostos em quadros, porém no site do Brasil em Síntese (gerenciado 
pelo IBGE), há possibilidade de visualizar também o gráfico proveniente destes 
quadros. Optou-se por apresentar, nesta leitura, o formato quadro, por conta da 
fácil leitura e compreensão de todos os acadêmicos.
Exemplos de dados para utilização em pesquisas
No Quadro 1 você pode visualizar o número de empresas no segmento de 
serviços, no Quadro 2 o número de pessoas que atuam em cada segmento do setor 
de serviços e no Quadro 3 a receita obtida pelo total de empresas de cada segmento 
do setor de serviços.
Os dados apresentados são da pesquisa de 2010 realizada pelo IBGE e 
divulgada pelo Brasil em Síntese. Com base nestes dados você poderá enriquecer 
um trabalho para uma disciplina ou mesmo o seu Trabalho de Graduação, caso 
queira optar por um tema.
UNIDADE 3 | CORRELAÇÃO E REGRESSÃO LINEAR
166
QUADRO 2 – NÚMERO DE PESSOAS OCUPADAS SEGUNDO O SEGMENTO DE SERVIÇO (EM 
MIL) – BRASIL 2010
Segmentos de serviços Pessoal Ocupado
Serviços de informação e comunicação 800,542
Outras atividades de serviços 464,496
Serviços de manutenção e reparação 400,395
Serviços profissionais, administrativos e complementares 4.319,524
Serviços prestados às famílias 2.260,965
Transportes, serviços auxiliares aos transportes e correio 2.229,110
Atividades imobiliárias 146,754
Total 10.621,786
FONTE: IBGE. Disponível em <http://brasilemsintese.ibge.gov.br/servicos/pessoal-ocupado-por-
segmento-de-servico>. Acesso em: 7 fev. 2014.
Segmentos de serviços Número de empresas
Transportes, serviços auxiliares aos transportes e correios 147.022
Atividades imobiliárias 28.065
Serviços profissionais, administrativos e complementares 296.944
Outras atividades de serviços 30.434
Serviços prestados às famílias 310.958
Serviços de informação e comunicação 81.767
Serviços de manutenção e reparação 97.618
Total 992.808
FONTE: IBGE. Disponível em: <http://brasilemsintese.ibge.gov.br/servicos/numero-de-empresas-
por-segmento-de-servico>. Acesso em: 7 fev. 2014.QUADRO 1 – NÚMERO DE EMPRESAS SEGUNDO O SEGMENTO DE SERVIÇO – BRASIL – 2010
QUADRO 3 – RECEITA (EM MIL R$) SEGUNDO O SEGMENTO DE SERVIÇO – BRASIL – 2010
Segmentos de serviços Receita
Serviços de manutenção e reparação 15.285,281
Atividades imobiliárias 19.845,671
Serviços profissionais, administrativos e complementares 220.799,533
Serviços de informação e comunicação 233.541,222
Transportes, serviços auxiliares aos transportes e correios 251.117,852
Outras atividades de serviços 42.480,303
Serviços prestados às famílias 86.237,865
Total 869.308,728
FONTE: IBGE. Disponível em <http://brasilemsintese.ibge.gov.br/servicos/receita-por-segmento-
de-servico>. Acesso em: 7 fev. 2014.
167
RESUMO DO TÓPICO 3
Neste tópico, estudamos a regressão múltipla. Mais precisamente, vimos 
que: 
• A regressão múltipla consiste em encontrar uma equação matemática (no caso, 
a equação de um plano) que descreva o comportamento de uma variável em 
função de várias outras.
• A regressão linear como um caso particular da regressão múltipla.
• Aprendemos a calcular os coeficientes do plano de regressão.
• Vimos que a teoria desenvolvida para o caso de duas variáveis independentes 
pode ser expandida para três ou mais.
168
Vamos praticar os conhecimentos adquiridos? Resolva os exercícios a 
seguir:
1 Você recebeu informações sobre a porcentagem de ações no mercado, 
preços como porcentagem dos preços médios do competidor, e gastos com 
propaganda como porcentagem dos preços médios do competidor, para 
uma linha específica de comida para gatos, nos últimos oito anos. Os dados 
obtidos seguem a seguir:
Período
A ç õ e s n o 
Mercado (%)
Preço Relativo
P r o p a g a n d a 
relativa
1 30 89 110
2 31 85 115
3 30,5 86,5 120
4 29 92 114
5 29,5 90 112
6 28,5 102 115
7 28 115 116
8 26 125 114
a) Encontre a regressão múltipla que melhor estima o comportamento das ações 
no mercado em relação às outras duas variáveis.
b) Se o preço relativo for de 120 e a propaganda for de 111, qual é a estimativa 
para a porcentagem de ações no mercado?
FONTE: Adaptado de: Silver (2000)
2 Um conjunto de experimentos foi realizado para determinar uma maneira 
de prever o tempo de cozimento y em junção de vários níveis de largura do 
forno e da temperatura do gás. Os dados obtidos foram os seguintes:
AUTOATIVIDADE
169
Experimento
Tempo de 
cozimento
L a r g u r a d o 
forno
Temperatura do 
gás
1 6,40 1,32 1,15
2 15,05 2,69 3,40
3 18,75 3,56 4,10
4 30,25 4,41 8,75
5 44,85 5,35 14,82
6 48,94 6,20 15,15
7 51,55 7,12 15,32
8 61,50 8,87 18,18
9 100,44 9,80 35,19
10 111,42 10,65 40,40
Estime a equação da regressão múltipla.
FONTE: Adaptado de: Silver (2000)
3 Um estudo foi conduzido para determinar se o peso de um animal pode ser 
previsto depois de um período com base no seu peso inicial e na quantidade 
de ração que ele comeu. Os dados obtidos, em quilogramas, estão na tabela 
a seguir:
Animal Peso final Peso inicial Peso ração
1 95 42 272
2 77 33 226
3 80 33 259
4 100 45 292
5 97 39 311
6 70 36 183
7 50 32 173
8 80 41 236
9 92 40 230
10 84 38 235
a) Encontre a equação do plano que melhor ajuda os dados obtidos.
b) Dê uma previsão para o peso final do animal que tinha como peso inicial 35 
kg e foi alimentado com 250 kg de ração.
170
171
REFERÊNCIAS
ARAÚJO FILHO, J. B. Arredondamento de valores numéricos: uma abordagem 
sobre a NBR 5891:1997:ABNT e a Resolução 886:1966:IBGE. Revista 
Administração em Debate, Rio de Janeiro, v. 8, p. 21-30. Disponível em: <http://
www.cra-rj.adm.br/publicacoes/rad_08/conteudo/files/assets/basic-html/page29.
html>. Acesso em: 28 jan. 2014.
CASTANHEIRA, N. P. Estatística aplicada a todos os níveis. 4. ed. Curitiba: 
IBPEX, 2008.
CRESPO, A. A. Estatística fácil. 19. ed. São Paulo: Saraiva, 2009.
FARHAT, C. A. V.; ELIAN, S. N. Estatística básica. São Paulo: LCTE, 2006.
IBGE. Centro de Documentação e Disseminação de Informações. Normas de 
apresentação tabular. 3. Ed. Rio de Janeiro: IBGE, 1993. p.25-28 Disponível em: 
<http://biblioteca.ibge.gov.br/visualizacao/monografias/GEBIS%20-%20RJ/
normastabular.pdf>. Acesso em: 28 jan. 2014.
MAGALHÃES, M. N.; LIMA, A. C. P. Noções de probabilidade e estatística. São 
Paulo: Edusp, 2010.
MORETTIN, L. G. Estatística básica: probabilidade e inferência. São Paulo: 
Pearson, 2010.
NAVIDI, William. Probabilidade e estatística para ciências exatas. Porto Alegre: 
Bockmann, 2012.
NOVAES, D. V; COUTINHO, S. QUEIROZ, C. Estatística para educação 
profissional. São Paulo: Atlas, 2009. 
 
OLIVEIRA, J. U. Estatística: uma nova abordagem. Rio de Janeiro: Ciência 
Moderna, 2010.
SILVER, M. Estatística para administração. São Paulo: Atlas, 2000. 
TIBONI, C. G. R. Estatística básica: para os cursos de administração, ciências 
contábeis, tecnológicos. São Paulo: Atlas, 2010.

Outros materiais

Materiais relacionados

Perguntas relacionadas

Perguntas Recentes