Buscar

Estatística descritiva unidade 2 pdf

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 17 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 17 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 17 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise 
bidimensional. 
 
 
 
Estatística 
Descritiva 
 
 
Unidade 2 
Medidas de Dispersão e 
Análise Bidimensional. 
 
 
Rafaela Rodrigues Oliveira Amaro 
Introdução 
 Inicialmente, você sabe que este não é o capítulo inicial. Alguns conceitos 
já foram apresentados até aqui, não é mesmo? Aprendemos a construir tabelas 
de modo a agrupar diversos dados e seus respectivos gráficos (histograma e 
polígono de frequência). Também foi possível anunciar sobre as medidas de 
Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise 
bidimensional. 
 
tendência central (média aritmética, moda e mediana), bem como utilizar de tais 
conceitos para interpretar informações. 
Neste segundo capítulo, dando continuidade ao estudo da estatística 
descritiva, veremos a necessidade de medir a variabilidade dos dados. Afinal, com 
que grau de confiança as medidas de tendência central retratam fielmente as 
informações providas de uma pesquisa? Questionamentos semelhantes a estes 
serão respondidos pela fundamentação teórica que compreende as medidas de 
dispersão. 
A chance de relacionar duas variáveis, ou seja, determinar até qual ponto a 
manipulação de uma interfere na relação da outra, embasa o estudo da análise 
bidimensional. Neste contexto, você será apresentado a técnicas de como avaliar 
por métodos numéricos a qualidade de tal vínculo. 
Vamos em frente! 
 
 
1. Medidas de dispersão 
Imagine que em uma escola há quatro professores de matemática, de 
idades: 24, 32, 39 e 57 anos. E que, em outra escola, com essa mesma quantidade 
de docentes, as idades sejam de 35, 36, 39, 42 anos. Observe que a idade média 
entre as duas escolas é a mesma, de 38 anos; mas se atente às distintas 
variabilidades entre os dois grupos, ou seja, no quanto os números distam entre 
si. No primeiro grupo, as idades são mais heterogêneas, enquanto que, no 
segundo, estes dados são homogêneos. Desta maneira, avaliar a média somente, 
sem estabelecer uma relação entre os outros dados pertencentes a um grupo não 
permite elaborar uma afirmação precisa acerca das particularidades do conjunto. 
Martins e Domingues (2017) definem medidas de dispersão como sendo 
os parâmetros que avaliam o grau de variabilidade ou dispersão, dos valores em 
torno da média. Logo, possuem a capacidade de mensurar a representatividade 
da média. Assim, neste capítulo, você conhecerá o conceito, a maneira de calcular 
e a interpretação algumas medidas de dispersão. 
 
Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise 
bidimensional. 
 
2. Variância e desvio padrão 
Utilizando todas as entradas de um conjunto de dados, temos a variância 
e desvio padrão como medidas de dispersão. É importante salientar que estes 
indicadores podem contemplar uma amostra ou uma população. 
De acordo com Castanheira (2013), variância é o resultado da média 
aritmética dos quadrados dos desvios; e permite medir a variabilidade dos dados 
em torno da média. 
A medida de dispersão mais utilizada em estatística é o desvio padrão, ele 
é o resultado da raiz quadrada da variância, logo o cálculo da variância é um passo 
intermediário para obter o desvio padrão. Para interpretação desta medida vale 
relembrar que este indicador avalia o quanto uma entrada típica se desvia da 
média. Quanto mais espalhados estiverem os dados, maior será o desvio padrão. 
Desta forma, ele é considerado pequeno, se os valores estão bem concentrados 
em torno da média, ou grande, se estão muito espalhados ao redor da média. 
2.1. Variância e desvio padrão para dados não agrupados. 
 Uma pesquisa ao ser realizada com uma população ou amostra e, em 
seguida, contabilizada pequena quantidade de dados, podemos utilizar as 
fórmulas direcionadas a dados não agrupados, visto que não exista repetição de 
mesmos dados, não sendo necessário organizar tais informações em tabelas de 
distribuição de frequência. 
Outra ressalva deve ser considerada na identificação do método para 
encontrar a variância e o desvio padrão, assim, há diferença se for utilizada uma 
amostra ou população, como pode ser observado na tabela 1 abaixo. Essa 
distinção é encontrada a partir do enunciado e contexto do exercício a ser 
resolvido. 
 
 
 
 
Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise 
bidimensional. 
 
 População Amostra 
Variância 𝜎2 =
𝛴(𝑥 − 𝜇 )2
𝑁
 
 
𝑠2 =
𝛴(𝑥 − 𝑥 )2
𝑛−1
 
Desvio Padrão 
𝜎 = √
𝛴(𝑥 − 𝜇 )2
𝑁
 
 
𝑠 = √
𝛴(𝑥 − 𝑥 )2
𝑛−1
 
Média 𝜇 𝑥 
Tamanho do conjunto 𝑁 𝑛 
Tabela 1: Fórmulas para variância e desvio padrão de dados não agrupados. 
Elaborada pela autora, 2019. 
 Voltando ao contexto das idades dos professores de matemática de 
diferentes escolas no início do capítulo, é necessário identificar que se trata de 
uma população. Calculando sua variância, obtemos, para o primeiro grupo: 𝜎2 =
(24− 38 )2+ (32−38 )2 + (39−38 )2 + (57−38 )2
4
=
594
4
= 148,5 e, para o segundo grupo: 𝜎2 =
(35− 38 )2+ (36−38 )2 + (39−38 )2 + (42−38 )2
4
=
30
4
= 7,5 “anos ao quadrado”. 
Mas que medida de unidade é essa? Parece sem sentido, porém, com o 
resultado do cálculo da variância, obtemos respostas como esta. Essa é uma 
desvantagem em utilizar este parâmetro, pois suas unidades de medida, 
geralmente, não possuem sentido físico. Assim, devemos calcular a raiz quadrada 
desses valores, para, deste modo, conseguir interpretar tais resultados, uma vez 
que o desvio padrão é uma medida de variabilidade com idêntica unidade de 
medida dos dados. 
 Agora sim, retornando a proposta inicial, concluímos que as idades variaram, 
em relação à média, 12,2 anos para o primeiro grupo e 2,7 anos para o segundo 
grupo. Logo, é possível concluir que, apesar da média aritmética ser a mesma, na 
primeira escola há mais variabilidade em relação às idades dos professores de 
matemática, tendo assim uma diferença maior em relação a média de 38 anos. 
Enquanto que a segunda escola possui profissionais com idades mais próximas 
em relação a média, logo variaram menos. 
2.2. Variância e desvio amostral para dados agrupados. 
Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise 
bidimensional. 
 
 Quando trabalhamos com uma grande quantidade de dados é mais viável 
interligar tais informações a tabelas de distribuição de frequências, assim, 
consequentemente, a variável frequência estará presente. Por isso, a fórmula que 
permite calcular a variância e o desvio padrão não são mantidas. 
O que diferencia a fórmula utilizada é estabelecer se os dados são 
referentes a uma amostra ou a uma população, assim como as relações para 
dados não agrupados. Observe que, na variância populacional, o numerador é 
dividido por N, enquanto que, na variância amostral, é fracionado por n - 1. 
 
 População Amostra 
Variância 𝜎2 =
𝛴(𝑥 − 𝜇 )2⋅𝑓
𝑁
 
 
𝑠2 =
𝛴(𝑥 − 𝑥 )2⋅𝑓
𝑛−1
 
Desvio Padrão 
𝜎 = √
𝛴(𝑥 − 𝜇 )2⋅𝑓
𝑁
 
 
𝑠 = √
𝛴(𝑥 − 𝑥 )2⋅𝑓
𝑛−1
 
 
Média 𝜇 𝑥 
Tamanho do conjunto 𝑁 𝑛 
Tabela 2: Fórmulas de variância e desvio padrão para dados agrupados. 
Elaborada pela autora, 2019. 
 Agora, considere que, após um teste de proficiência de língua estrangeira 
foram contabilizados os erros cometidos por 50 alunos que realizaram tal prova. 
Estes números foram alocados na tabela de distribuição de frequência 3, disposta 
a seguir: 
 
Quantidade de erros Frequência 
0 I--- 4 10 
4 I--- 8 7 
8 I--- 12 21 
12 I--- 16 9 
Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise 
bidimensional. 
 
16 I--- 20 3 
Total 50 
Tabela 3: Distribuição de frequência de quantidade de erros por alunos. 
Fonte: Elaborada pela autora, 2019. 
 Bem, esse conjunto de dados retrata uma amostra ou uma população? 
Qual sua variância e seu desvioo padrão? Como podemos interpretar tais 
resultados? 
Começaremos respondendo a primeira pergunta: no enunciado está 
explícito que a pesquisa foi realizada com 50 alunos, logo, trata-se de uma 
população e utilizaremos as fórmulas destinadas a tal conjunto de dados. 
Para retornamos quanto à segunda pergunta, neste momento, 
adicionaremos uma nova coluna à tabela para cálculo da média, que é uma 
variável necessária para encontrar a variância e o desvio padrão; e outra coluna 
para facilitar as demais operações. 
Assim, a tabela 4 apresenta esses resultados (lembrando que, por se tratar 
de uma tabela de distribuição de frequência, também é necessário calcular o 
ponto médio (𝑥𝑖)). 
Quantidade 
de erros 
Frequência 
(f) 
Ponto 
médio (𝑥𝑖) 
(𝑥𝑖 ⋅ 𝑓) (𝑥𝑖 − 𝑥)
2 ⋅ 𝑓 
0 I--- 4 10 2 20 (2 − 9,04)2 ⋅ 10 = 495,61 
4 I--- 8 7 6 42 (6 − 9,04)2 ⋅ 7 = 64,69 
8 I--- 12 21 10 210 (10 − 9,04)2 ⋅ 21 = 8,29 
12 I--- 16 9 14 126 (14 − 9,04)2 ⋅ 9 = 221,41 
16 I--- 20 3 18 54 (18 − 9,04)2 ⋅ 3 = 240,84 
Total 50 
𝛴(𝑥𝑖 ⋅ 𝑓) =
452 
𝛴(𝑥𝑖 − 𝑥)
2 ⋅ 𝑓 = 1030,84 
Tabela 4: Distribuição de frequência de quantidade de erros por alunos. 
Fonte: Elaborada pela autora, 2019. 
Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise 
bidimensional. 
 
 Logo, para a média, obtemos: 𝑥 =
𝛴𝑥⋅𝑓
𝑛
=
452
50
= 9,04, observe que este valor 
interfere diretamente no cálculo da variância e do desvio padrão, já que: 𝜎2 =
𝛴(𝑥 − 𝜇 )2⋅𝑓
𝑁
=
1030,84
50
= 20,62 erros ao quadrado e 𝜎 = √
𝛴(𝑥 − 𝜇 )2⋅𝑓
𝑁
 = √
1030,84
50
= 4,54 
erros. 
Assim, a interpretação de tais resultados compreende que, cerca de 21 
erros ao quadrado, corresponde à variabilidade dos erros e que estes variaram 
em relação à média, aproximadamente, 4,5 erros. 
 
3. Análise bidimensional 1ª parte 
Frequentemente, nos deparamos com a necessidade de realizar 
estimativas ou previsões sobre ocorrências futuras, tal processo pode ser 
realizado quando conhecemos as variáveis e o modo como se relacionam. Nesta 
conjuntura, existem técnicas estatísticas que possibilitam elaborar modelos e 
avaliar sua qualidade, estas são chamadas de análise de regressão e correlação. 
Essas técnicas possuem atributos próprios. Enquanto a regressão descreve, por 
meio de equações algébricas, a previsão acerca dos comportamentos da situação, 
a correlação avalia a qualidade da relação entre as variáveis (MILONE, 2006). 
Correlações e regressões podem ser classificadas quanto ao número de 
variáveis, assim, são ditas simples, quando uma variável for conveniente para 
explicar o contexto, ou múltipla, quando necessitar de mais de uma. Também são 
diferenciadas quanto à sua complexidade, logo, recebem o nome de lineares, 
quando se enquadram em funções de 1° grau, ou não lineares, quando sua 
modelagem matemática exige funções de ordem superior (MILONE, 2006). 
Nesta primeira parte, dedicada à análise bidimensional, o foco será o 
estudo acerca da qualidade entre as relações, ou seja, a correlação linear e a 
covariância. 
 
Você sabia? Galton Francis (1822 - 1911), matemático e estatístico francês 
publicou no século XIV o resultado de uma pesquisa onde coletou a altura de 
Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise 
bidimensional. 
 
homens adultos e a de seus pais. Assim, concluiu, por intermédio na análise 
bidimensional, que a variação da altura dos homens é, em parte, explicada pela 
variação da altura de seus pais. 
 
3.1. Correlação linear 
 Suponha que um médico queira avaliar o tempo que uma pessoa pratica 
exercícios físicos em relação à manutenção de seu peso. Ou que um professor 
queira avaliar o tempo dedicado aos estudos com as notas obtidas na etapa. 
Como seria possível avaliar a relação existente entre tais variáveis? 
 Correlação é descrita por Larson e Farber (2016) como uma relação entre 
duas variáveis, onde as informações são identificadas por pares ordenados (x, y). 
X é a variável independente (ou explanatória) e y representa a variável 
dependente (ou resposta). 
 Inúmeras vezes, dados bidimensionais são coletados, simultaneamente, 
para determinar se a variação de uma interfere na variação da outra. Assim, duas 
variáveis quantitativas podem aumentar ou diminuir juntas, aumentar quando 
uma diminui ou vice-versa. 
 Uma importante ferramenta para visualizar tal comportamento é o 
diagrama de dispersão, que, de acordo com Larson e Farber (2016), consiste em 
uma representação gráfica de dois conjuntos de dados que possuem mesmo 
tamanho e, para cada entrada do primeiro conjunto, existe um correspondente 
no segundo conjunto. Este formato é utilizado para exibir a relação entre duas 
variáveis quantitativas. 
 No diagrama de dispersão, os pontos (x, y) são plotados em um plano 
coordenado, a variável independente (x) é medida no eixo horizontal e a variável 
dependente (y), no eixo vertical. Com diagrama, é possível determinar se existe 
uma correlação linear, assim como diferenciar o tipo de correlação. 
 Quando duas variáveis crescem no mesmo sentido, existe correlação 
positiva, já em sentidos contrários há correlação negativa, e, caso a variável 
independente cresça e a dependente varie ao acaso, a correlação é nula, ou seja, 
não existe. Também existe a situação da correlação não ser linear. 
Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise 
bidimensional. 
 
Observe na figura 1 os gráficos de dispersão da correlação linear negativa 
e positiva, respectivamente, e a figura 2 apresenta os casos de não existir 
correlação ou desta não ser linear. 
 
Figura 1: Gráfico de dispersão de correlação linear negativa e positiva. 
Fonte: LARSON; FARBER, 2016, p. 394. 
 
Figura 2: Gráfico de dispersão quando inexiste correlação e quando esta não é linear. 
Fonte: LARSON; FARBER, 2016, p. 394. 
3.2. Coeficiente de correlação linear 
O coeficiente de correlação linear permite determinar o quanto duas 
variáveis se relacionam. É possível encontrá-lo por meio da igualdade: 
𝑟 =
𝛴𝑥𝑦 − 
1
𝑛
𝛴𝑥𝛴𝑦
√[𝛴𝑥2−
1
𝑛
(𝛴𝑥)2][𝛴𝑦2− 
1
𝑛
(𝛴𝑦)2]
 
Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise 
bidimensional. 
 
O resultado encontrado por intermédio desta operação varia entre -1 e +1, 
assim, se a correlação for negativa, o sinal do coeficiente será negativo e, se a 
correlação for positiva, o sinal deste coeficiente também será positivo. 
 
 Vamos considerar a seguinte situação: dez alunos tiveram suas notas em 
Português e Matemática estudadas, de modo a identificar uma possível relação 
entre ambas. Estes valores compõem a tabela 5 abaixo. 
 
Português Matemática 
50 75 
68 70 
70 90 
95 93 
53 61 
70 75 
93 90 
60 54 
72 69 
54 63 
Tabela 5: Notas de dez alunos nas disciplinas de português e matemática. 
Fonte: Elaborado pela autora, 2019 
Neste contexto, que tipo de correlação existe entre tais conjuntos de 
dados? Positiva ou negativa? Qual interpretação é viável, de acordo com o valor 
de coeficiente de correlação? Bem, estas são as indagações possíveis de realizar 
acerca de tais entradas. 
Vamos em frente! Encontrar estas respostas. 
Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise 
bidimensional. 
 
 Para facilitar o cálculo do coeficiente de correlação, inserimos três novas 
colunas à tabela 5, que relacionam os dados do problema a ser resolvido. Estas 
colunas contém o produto entre e xy, x² e y², uma vez que necessitamos dos 
somatórios destes valores. Portanto, geramos a tabela 6 abaixo. 
 
 
 
Português (x) Matemática 
(y) 
𝑥𝑦 𝑥2 𝑦2 
50 75 50 ⋅ 75 =
3750 
502 = 2500 752 = 5625 
68 70 68 ⋅ 70 =
4760 
682 = 4624 702 = 4900 
70 90 70 ⋅ 90 =
6300 
702 = 4900 902 = 8100 
95 93 95 ⋅ 93 =
8835 
952 = 9025 932 = 8649 
53 61 53 ⋅ 61 =
3233 
532 = 2809 612 = 3701 
70 7570 ⋅ 75 =
5250 
702 = 4900 752 = 5625 
93 90 93 ⋅ 90 =
8370 
932 = 8649 902 = 8100 
60 54 60 ⋅ 54 =
3240 
602 = 3600 542 = 2916 
72 69 72 ⋅ 69 =
4968 
722 = 5184 692 = 4761 
54 63 54 ⋅ 63 =
3402 
542 = 2916 632 = 3969 
𝛴𝑥 = 685 𝛴𝑦 = 740 𝛴𝑥𝑦 = 51910 𝛴𝑥2 = 49107 𝛴𝑦2 = 56346 
Tabela 5: Notas de dez alunos nas disciplinas de português e matemática. 
Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise 
bidimensional. 
 
Fonte: Elaborado pela autora, 2019. 
Agora, de posse dos valores necessários, substituiremos na relação: 𝑟 =
𝛴𝑥𝑦 − 
1
𝑛
𝛴𝑥𝛴𝑦
√[𝛴𝑥2−
1
𝑛
(𝛴𝑥)2][𝛴𝑦2− 
1
𝑛
(𝛴𝑦)2]
=
51910−
1
10
⋅685⋅740
√[49107−
1
10
⋅(685)2][56346−
1
10
⋅(740)2]
=
1220
√ 2184,5⋅1586
= 0,6554 =
65,54% 
 Logo, o coeficiente de correlação entre as notas de português e matemática 
para a amostra de dez alunos indicam média correlação positiva entre as 
variáveis. Ou seja, que há uma média semelhança dos comportamentos das 
variáveis no mesmo sentido. 
 Para interpretar o valor encontrado no coeficiente de correlação utilizamos 
os seguintes parâmetros: se r estiver compreendido entre 90% e 100%, alta ou 
ótima correlação; entre 80% e 90% boa correlação; entre 60% e 80%, média 
correlação; entre 40% e 60%, baixa correlação e entre 0% e 40% é péssima 
correlação ( MARTINS E DOMINGUES, 2011). 
 
 
Você sabia? É trabalhoso realizar os cálculos para encontrar o coeficiente de 
correlação, principalmente, se a amostra ou população for grande. Para isso, 
existem softwares como o Planilha Eletrônica Excel, que dispõe de ferramentas 
específicas para o cálculo de correlações entre duas ou mais variáveis. 
 
3.3. Covariância 
 Larson e Farber (2016) caracterizam a covariância como uma medida que 
avalia a relação entre duas variáveis. Este indicador assemelha-se muito ao 
conceito de correlação, no entanto, se diferenciam em dois aspectos. Os valores 
da covariância não obedecem a uma padronização, diferente da correlação (varia 
de +1 a -1), portanto, seu campo de existência abrange todos os números. Além 
disso, a covariância fornece respostas sobre a direção da relação entre as 
variáveis. 
Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise 
bidimensional. 
 
Resultados com sinais positivos apontam que, valores acima da média de 
uma variável estão associados a valores médios acima da outra variável e, abaixo 
dos valores médios, são igualmente associados. Resultados com sinais negativos 
indicam que valores acima da média de uma variável estão associados com 
valores médios abaixo da outra variável. 
 O cálculo da covariância é feito por intermédio da relação: 𝐶𝑜𝑣(𝑥, 𝑦) =
𝛴𝑥𝑦
𝑛
−
𝛴𝑥
𝑛
⋅
𝛴𝑦
𝑛
. Agora, vamos voltar ao contexto das notas de dez alunos nas disciplinas de 
português e matemática e avaliar a covariância entre estas variáveis. 
Aproveitaremos os resultados disponibilizados na tabela 5, logo, apenas 
serão substituídos tais valores: 
𝐶𝑜𝑣(𝑥, 𝑦) =
𝛴𝑥𝑦
𝑛
−
𝛴𝑥
𝑛
⋅
𝛴𝑦
𝑛
=
51910
10
−
685
10
⋅
740
10
= 5191 − 5069 = 122, como o resultado 
foi um número positivo, podemos afirmar que as variáveis tendem a aumentar 
juntas ou diminuir juntas. Logo, se a nota em português aumentar, a de 
matemática também aumentará, ou se a nota em português diminuir, a de 
matemática também diminuirá. 
 
 
4. Análise bidimensional 2ª parte 
 Dando continuidade ao estudo de mais de um conjunto, iniciaremos uma 
nova abordagem ao trabalhar com dados bidimensionais. Até aqui, aprendemos 
a medir e qualificar a relação entre informações quantitativas e, a partir de agora, 
vamos desenvolver modelos estatísticos utilizados com o intuito de prever outros 
valores. E, assim, a partir de uma variável independente, descobrir os valores da 
variável dependente. 
4.1. Regressão linear 
 As técnicas de regressão linear são muito utilizadas em atividades em que 
organização e planejamento para o futuro são de suma importância, sendo 
empregada com o propósito de previsão. Estipular as futuras vendas de um 
produto em função do seu preço ou prever o consumo de certos alimentos em 
relação a seu valor nutritivo retratam algumas das muitas situações existentes 
Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise 
bidimensional. 
 
que permitem o uso de regressão linear. Uma vez que tal estratégia possibilite a 
previsão de médias ou valores esperados. 
 Geralmente, ao utilizar dados provenientes de observações e/ou pesquisas 
e, com o objetivo de utilizar o dispositivo de regressão linear, é necessário 
encontrar uma equação matemática que possibilite estabelecer a relação entre 
duas variáveis. Este processo é denominado ajuste de curvas. Aqui, concentramos 
no ajuste para equações lineares de duas incógnitas, ou seja, da forma y = ax + b 
(FREUND, 2009). 
4.2. Reta de ajuste linear 
O ajuste de uma reta é um tipo de regressão linear que interliga uma 
variável independente (x) a uma dependente (y) por intermédio de uma equação 
de primeiro grau, este processo sintetiza a relação linear entre duas variáveis 
aleatórias. Conforme Larson e Farber (2016), a equação de uma reta de regressão 
é: �̂� = 𝑚𝑥 + 𝑏, sabendo que �̂� é o valor 𝑦 previsto para um valor 𝑥. Para compor 
esta relação é determinado que 𝑚 =
𝑛𝛴𝑥𝑦 − (𝛴𝑥)(𝛴𝑦)
𝑛𝛴𝑥2 − (𝛴𝑥)2
 e 𝑏 =
𝛴𝑦
𝑛
 − 𝑚
𝛴𝑥
𝑛
. 
Você sabia? O ajuste de curvas no processo de regressão linear é deduzido pelo 
método dos mínimos quadrados, esse dispositivo de otimização matemática foi 
criado pelo matemático francês Adrien Legendre (1752 - 1833) e objetiva 
encontrar o mais adequado ajuste de reta para um conjunto de dados pré-
estabelecido (FREUND, 2009). 
 
 Para entender a dinâmica destas fórmulas, vamos considerar que uma 
empresa investigou a relação entre o tempo de uso de suas máquinas, em meses 
com o custo médio de manutenção em milhares de reais destas e obteve a 
seguinte tabela: 
 
Idade 3 6 14 21 28 36 
Custo 
médio 
7,7 9,5 15,2 19,8 21,2 27,7 
Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise 
bidimensional. 
 
Tabela 7: Tempo de uso de uma máquina em relação a seu custo médio. 
 Fonte: Elaborada pela autora, 2019. 
Seria possível estimar o custo médio desta máquina após 10 meses? E 
depois de 4 anos de uso? Ou para qualquer idade que não tenha seu valor já 
alocado na tabela? A resposta é sim, pois, uma vez identificada a equação de 
regressão linear, qualquer valor poderá ser substituído na igualdade que define 
tal situação e, assim, detectada a solução para qualquer um dos questionamentos 
iniciais. 
Para começarmos, vamos transpor (transformar linhas em colunas) a 
tabela 7, que contém as informações sobre o tempo de uso da máquina com seu 
gasto médio e adicionar duas novas colunas. 
Idade Custo médio 𝑥𝑦 𝑥2 
3 7,7 23,1 9 
6 9,5 57 36 
14 15,2 212,8 196 
21 19,8 415,8 441 
28 21,2 593,6 784 
36 27,7 997,2 1296 
𝛴𝑥 = 108 𝛴𝑦 = 101,1 𝛴𝑥𝑦 = 2299,5 𝛴𝑥2 = 2762 
Tabela 8: Tempo de uso de uma máquina em relação a seu custo médio(modificada). 
 Fonte: Elaborada pela autora, 2019. 
 De posse destes valores é possível determinar o valor de m, 𝑚 =
𝑛𝛴𝑥𝑦 − (𝛴𝑥)(𝛴𝑦)
𝑛𝛴𝑥2 − (𝛴𝑥)2
=
6⋅2299,5 − 108⋅101,1
6⋅2762−11664
=
2878,2
4908
= 0,5864 e, consequentemente, encontraremos o valor de 
b, pois 𝑏 =
𝛴𝑦
𝑛
 − 𝑚
𝛴𝑥
𝑛
=
101,1
6
− 0,5864 ⋅
108
6
= 6,2948. 
Agora sim, a reta será definida por: �̂� = 𝑚𝑥 + 𝑏 → �̂� = 0,5864𝑥 + 6,2948 . 
Voltando aos questionamentos no início do tópico: 
Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise 
bidimensional. 
 
Seria possível estimar o custo médio desta máquina após 10 meses? Sim, 
basta substituir a variável x por 10, observe: �̂� = 0,5864 ⋅ 10 + 6,2948 ≃ 12,2 , logo, 
após dez meses o custo médio é de 12,2mil reais. 
Depois de 4 anos de uso? Bem, quatro anos de uso equivalem a 48 meses 
(4 x 12), logo, este valor será substituído na variável x: �̂� = 0,5864 ⋅ 48 + 6,2948 ≃
34,4mil reais. Ou seja, por meio da equação, é possível descobrir o gasto médio 
para qualquer tempo de uso ou a situação contrária, encontrar o tempo de uso, 
sendo previamente informado seu gasto médio. 
 
Síntese 
No decorrer desta unidade, verificamos que a variância e o desvio padrão 
são ferramentas úteis para verificar o quanto os dados obtidos por uma pesquisa 
estão dispersos em torno do foco central, ou seja, da média aritmética. Assim, por 
esta análise, constatamos sua aplicabilidade. 
Também foi possível descrever e avaliar a significância das relações entre 
variáveis, quando estas são organizadas no formato de pares ordenados. Por 
meio do uso de técnicas de correlação, que avaliam a qualidade entre as relações 
e pela regressão linear, processo que possibilita a previsão de resultados. 
De maneira geral, foi possível: 
● Calcular a variância e desvio padrão de dados não agrupados; 
● Calcular a variância e desvio padrão de dados agrupados; 
● Distinguir a relação de variância e desvio padrão para dados 
populacionais e amostrais. 
● Compreender e aplicar o conceito de correlação 
● Compreender e aplicar o conceito de regressão linear. 
● Elaborar a reta de ajuste linear. 
● Interpretar o coeficiente de correlação linear. 
 
Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise 
bidimensional. 
 
Bibliografia 
CASTANHEIRA, Nelson Pereira. Estatística aplicada a todos os níveis. Curitiba: 
Intersaberes, 2013. Disponível em: Minha Biblioteca. 
CRESPO, A. A. (2009) Estatística Fácil. 19a ed. São Paulo: Saraiva. 
COSTA, Giovani Glaucio de Oliveira. Curso de estatística básica - Teoria e Prática. 
2ªedição. São Paulo: Atlas, 2015. Disponível em: Minha Biblioteca. 
FREUND, John E. Economia, Administração e Contabilidade. Estatística 
Aplicada. Porto Alegre: Bookman, 2009. 
LARSON, Ron; FARBER, Betsy. Estatística Aplicada. 6. ed. São Paulo: Pearson, 
2016. 654 p. v. único. Disponível em: Biblioteca Virtual Universitária. 
MARTINS, Gilberto de Andrade; DOMINGUES, Osmar. Estatística Geral e 
Aplicada. São Paulo: Atlas, 2017. 
MILONE, Giuseppe. Estatística Geral e Aplicada. Rio de Janeiro: Thomson, 2006. 
MORETIM, Luiz Gonzaga. Estatística Básica: probabilidade e inferência. 1. ed. 
São Paulo: Pearson, 2010. 376 p. v. único. Disponível em: Biblioteca Virtual 
Universitária 
MORAES, Fabíola Eugênio Arrabaça. Estatística Descritiva. 1. ed. São Paulo: 
Pearson, 2010. 142 p. v. único. Disponível em: Biblioteca Virtual Universitária. 
 
VIEIRA, Sônia. Elementos de Estatística. São Paulo: Atlas, 2012.

Outros materiais