Buscar

Estatistica descritiva (A2)

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 17 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 17 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 17 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

- -1
ESTATÍSTICA DESCRITIVA
UNIDADE 2 - MEDIDAS DE DISPERSÃO E 
ANÁLISE BIDIMENSIONAL
Autoria: Joelma Iamac Nomura e Rafaela Rodrigues Oliveira Amaro
- -2
Introdução
Nesta unidade, a respeito do estudo da estatística descritiva,
veremos a necessidade de medir a variabilidade dos dados.
Afinal, com que grau de confiança as medidas de tendência
central retratam fielmente as informações de uma pesquisa?
Questionamentos semelhantes a esse serão respondidos pela
fundamentação teórica que compreende as medidas de
dispersão.
A chance de relacionar duas variáveis, ou seja, determinar até
que ponto a manipulação de uma interfere na relação da outra, embasa o estudo da análise bidimensional. Nesse
contexto, você será apresentado a técnicas de como avaliar por métodos numéricos a qualidade de tal vínculo.
Com essa proposta, serão estudadas medidas fundamentais que constituem as medidas de variação, entre elas a
variância e o desvio-padrão. É possível que no estudo da estatística também nos deparemos com a necessidade
de realizar estimativas ou previsões sobre ocorrências futuras a partir da relação entre as variáveis. Com esse
fim, estaremos diante do estudo de modelos e técnicas de análise de regressão e correlação, sendo pertinente o
estudo da relação entre as variáveis a partir de seus gráficos de dispersão, e da equação da reta que representa
essa relação e que recebe a denominação de equação regressão linear da reta. Tais conceitos, técnicas e modelos
matemáticos propostos são assuntos fundamentais para o estudo da estatística e fundamentam muitas pesquisas
acadêmicas e científicas nas mais diversas áreas de conhecimento.
Assim, no final de unidade você terá conhecimento para responder às seguintes perguntas: quais as diferenças
para se estabelecer as medidas de dispersão entre os dados não agrupados e agrupados? Qual a relevância em se
encontrar valores que estão a um, dois ou três desvios-padrão da média? É possível afirmar que o tempo de
estudo de determinada disciplina está relacionado à nota que iremos tirar na prova? As relações entre as
variáveis podem ser expressas em termos de uma equação matemática? Bem, essas são apenas algumas
perguntas a serem respondidas no final desta unidade, pois seremos instigados a responder outras inúmeras
perguntas frente ao vasto assunto discutido aqui, perguntas que estão presentes no nosso dia a dia.
Bons estudos!
2.1 Medidas de dispersão
Imagine que em uma escola há quatro professores de matemática, de idades: 24, 32, 39 e 57 anos. E que, em
outra escola, com essa mesma quantidade de docentes, as idades sejam de 35, 36, 39, 42 anos. Observe que a
idade média entre as duas escolas é a mesma, de 38 anos; mas se atente às distintas variabilidades entre os dois
grupos, ou seja, no quanto os números distam entre si. No primeiro grupo, as idades são mais heterogêneas,
enquanto, no segundo, esses dados são homogêneos. Dessa maneira, avaliar a média, somente, sem estabelecer
uma relação entre os outros dados pertencentes a um grupo, não permite elaborar uma afirmação precisa acerca
das particularidades do conjunto.
Segundo Morettin e Bussab (2010), o resumo de um conjunto de dados que considera unicamente a medida de
posição central esconde toda informação sobre a variabilidade do conjunto de observações, pois diversas
amostras ou populações podem ter a mesma medida de tendência central e apresentar aspectos importantes que
devem ser analisados. As medidas de dispersão (ou de variabilidade) permitem comparar conjuntos diferentes
de valores de acordo com algum critério que mede a dispersão dos dados em torno da sua média. Com esse
intuito duas medidas são as mais usadas: o desvio-padrão e a variância. Vamos perceber que a análise de um
- -3
intuito duas medidas são as mais usadas: o desvio-padrão e a variância. Vamos perceber que a análise de um
conjunto de dados a partir dessas medidas nos permite verificar quais conjuntos são mais homogêneos que
outros.
De maneira semelhante, Crespo (2009) explica que, quando se trata de interpretar dados estatísticos, mesmo
aqueles que já estão convenientemente simplificados, torna-se necessário ter uma ideia retrospectiva de como
esses valores são apresentados na tabela. Assim, para que os dados estejam perfeitamente caracterizados, não é
suficiente trabalhar com as medidas de posição, levando em consideração se esses valores se distribuem de
maneira homogênea ou não.
Martins e Domingues (2017) definem medidas de dispersão como sendo os parâmetros que avaliam o grau de
variabilidade ou dispersão dos valores em torno da média. Logo, possuem a capacidade de mensurar a
representatividade da média. Assim, neste capítulo, você conhecerá o conceito, a maneira de calcular e a
interpretação de algumas medidas de dispersão.
De maneira análoga, Freund e Simon (2000) afirmam que as medidas de dispersão têm importância especial na
inferência estatística, sendo que elas nos auxiliam a avaliar a extensão da dispersão dos dados.
Entre as medidas de dispersão, a mais simples é a amplitude, calculada a partir da diferença entre o maior e
menor valor da amostra ou da população.
A seguir, apresentamos uma tabela com valores dos salários iniciais nas empresas A e B. Os dados não estão
organizados e ainda se encontram na forma bruta.
Tabela 1 - Salários iniciais nas empresas A e B (em milhares de dólares)
Fonte: Elaborada pela autora, baseada em FREUND; SIMON, 2000.
#PraCegoVer: duas tabelas, cada uma com dez colunas e uma linha, representando os salários iniciais nas
empresas A e B (em milhares de dólares).
Quando ordenados, temos a seguinte sequência dos salários da empresa A:
37 – 38 – 39 – 41 – 41 – 41 – 42 – 44 – 45 – 47
e a sequência dos salários da empresa B:
23 – 29 – 32 – 40 – 41 – 41 – 49 – 50 – 52 – 58
Dessa maneira, nos conjuntos de dados anteriores, é possível verificar que a amplitude do primeiro conjunto de
dados é igual a 47-37=10 e a amplitude do segundo conjunto de dados é igual a 58-23=35.
- -4
Para Freund e Simon (2000), esses valores extremos indicam a variabilidade dos conjuntos de dados. No
entanto, de acordo com os autores, a amplitude em geral não fornece qualquer indicação quanto à dispersão dos
valores que estão entre os dois extremos. Nesse sentido, a amplitude é usada como uma indicação “rápida e fácil”
de variabilidade.
Ainda de acordo com os exemplos apresentados anteriormente, Larson e Farber (2016) descrevem que ambos
os conjuntos de dados têm média igual a 41,4, mediana igual a 41 e moda igual a 41. No entanto, têm aspectos
significativamente distintos, pois o segundo conjunto tem uma variação maior e essa informação é muito
importante para uma análise mais aprimorada dos dados. Assim, verifica-se a necessidade do estudo de novas
medidas de dispersão para medir a dispersão dos dados em torno da média. Nesse caso, estudaremos o desvio-
médio, variância e desvio-padrão e descobriremos a diferença entre elas.
2.2 Variância e desvio-padrão
De acordo com Morettin e Bussan (2010), um critério para medir a dispersão dos dados em torno da média é
usar medidas como o desvio-padrão e a variância, sendo que o princípio básico é analisar os desvios das
observações em relação à média das mesmas observações. Conforme apontam os autores, considerando 
 as observações de um grupo e a média encontrada entre as observações, teremos 
 . Diante desse resultado, podemos chegar à conclusão de que se todos os desvios
forem pequenos em magnitude, todas as observações estarão próximas da média e, portanto, teremos pouca
variabilidade. No entanto, se os desvios das observações estiverem distantes a média , teremos uma grande
variabilidade.
Observe que, no seguinte conjunto de dados do grupo A: 3, 4, 5, 6, 7, 8, 9, temos a média igual a 6 e 
. Nessas condições, a soma dos desvios é igual a , contudo, não é uma boa
medida de dispersão para o conjunto A de dados. Assim, deve-se considerar (i) o total dos desvios em valor
absoluto e (ii) o total dos quadrados dos desvios 
. Percebemos, portanto, quea variância corresponde ao quadrado da
dimensão dos dados, o que pode nos levar a problemas de interpretação.
De acordo com Castanheira (2013), variância é o resultado da média aritmética dos quadrados dos desvios; e
permite medir a variabilidade dos dados em torno da média. A medida de dispersão mais utilizada em estatística
é o desvio-padrão, ele é o resultado da raiz quadrada da variância, logo, o cálculo da variância é um passo
intermediário para obter o desvio-padrão. Para interpretação dessa medida, vale lembrar que esse indicador
avalia o quanto uma entrada típica se desvia da média. Quanto mais espalhados estiverem os dados, maior será o
desvio-padrão. Dessa forma, ele é considerado pequeno se os valores estiverem bem concentrados em torno da
média, ou grande, se estiverem muito espalhados ao redor da média.
2.2.1 Variância e desvio-padrão para dados não agrupados
Para Devore (2019), há uma medida de variabilidade da população denominada de variância populacional e,
para representá-la, usaremos a simbologia . Já para a representação do desvio-padrão, usaremos a simbologia 
, ou seja, a raiz quadrada da variância populacional .
Desvio-
padrão
- -5
Variância
Mas que medida de unidade é essa? Parece sem sentido, porém, com o resultado do cálculo da variância,
obtemos respostas como essa. Essa é uma desvantagem de utilizar esse parâmetro, pois suas unidades de
medida, geralmente, não possuem sentido físico. Assim, devemos calcular a raiz quadrada desses valores, para,
desse modo, conseguir interpretar tais resultados, uma vez que o desvio-padrão é uma medida de variabilidade
com idêntica unidade de medida dos dados. Nesse sentido, costuma-se usar o desvio-padrão como a raiz da
variância que para o grupo A é igual a .
Para o desvio-padrão e variância calculados anteriormente, usamos como a população de nosso conjunto den
dados, que, no caso, é igual a 7. Tais valores são referentes ao desvio-padrão populacional e variância
populacional, no entanto, vale salientar que esses indicadores podem contemplar não somente a população, mas
também uma amostra. No caso de uma amostra, a variância será calculada usando o denominador , em vez
de .n
De acordo com Devore (2019, p. 37), se usássemos o divisor n na fórmula da variância amostral, a quantidade
resultante tenderia a subestimar (gerar valores estimados que são em média, muito pequenos, enquanto a 
divisão pelo valor, ligeiramente menor, corrige essa estimativa). Para o autor é habitual se referir a com 
base em graus de liberdade (gl).
Caso
A seguir é apresentado o consumo de combustível de uma amostra de dos automóveis de marca
ABC em uma rodovia brasileira. Encontre o desvio-padrão e a variância dos combustíveis consumidos
entre os veículos. Perceba que no enunciado do problema está explícito que se trata de uma amostra,
por isso, usaremos a fórmula referente a uma amostra.
A seguir são listados os consumos de combustível de 11 automóveis:
27,3 – 27,9 – 32,9 – 35,2 – 44,9 – 39,9 – 30,0 – 29,7 – 28,5 – 32, 0 – 37,6
Vamos aos cálculos para sabermos qual é o desvio-padrão e a variância do conjunto de dados.
Estamos nos referindo a uma amostra de automóveis, assim faremos uso das relações: 
 para a variância e para encontrar o desvio-padrão.
É necessário calcular a média dos valores, sendo ela igual a:
Calculando , temos o valor de:
- -6
Diante o exposto, podemos utilizar as fórmulas direcionadas a dados não agrupados e, desde que não exista
repetição de mesmos dados, não será necessário organizar tais informações em tabelas de distribuição de
frequência.
Observe a tabela a seguir.
Tabela 2 - Fórmulas para variância e desvio-padrão para dados não agrupados
Fonte: Elaborada pela autora, 2020.
#PraCegoVer: tabela com três colunas e quatro linhas.
Haverá distinção se formos encontrar a variância e o desvio-padrão para uma amostra ou população, como pode
ser observado na tabela anterior.
2.2.2 Variância e desvio-padrão para dados agrupados
Quando trabalhamos com uma grande quantidade de dados, é mais viável interligar tais informações em tabelas
de distribuição de frequências, assim, consequentemente, a variável frequência estará presente. Por isso, a
fórmula que permite calcular a variância e o desvio-padrão não é mantida. O que diferencia a fórmula utilizada é
estabelecer se os dados são referentes a uma amostra ou a uma população, assim como as relações para dados
não agrupados. Observe que, na variância populacional, o numerador é dividido por N, enquanto, na variância
amostral, é fracionado por .
Os cálculos desse exemplo foram obtidos com o auxílio do Excel. Assim, obtivemos: software
 e . Portanto, entendemos que o desvio típico ou representativo da
média amostral 33,26 é aproximadamente 5,6 mpg.
- -7
Tabela 3 - Fórmulas de variância e desvio-padrão para dados agrupados
Fonte: Elaborada pela autora, 2020.
#PraCegoVer: tabela com três colunas e quatro linhas apresentando as diferenças de fórmulas entre a variância
e desvio-padrão para uma população e para uma amostra.
Agora, considere que, após um teste de proficiência de língua estrangeira, foram contabilizados os erros
cometidos por 50 alunos que realizaram tal prova. Esses números foram alocados na distribuição de frequência
disposta a seguir.
Tabela 4 - Distribuição de frequência da quantidade de erros por alunos
Fonte: Elaborada pela autora, 2020.
#PraCegoVer: tabela com cinco colunas e cinco linhas para dados agrupados.
Bem, esse conjunto de dados retrata uma amostra ou uma população? Qual sua variância e seu desvio-padrão?
Como podemos interpretar tais resultados?
Começaremos respondendo a primeira pergunta: no enunciado está explícito que a pesquisa foi realizada com
50 alunos, portanto, trata-se de uma população e utilizaremos as fórmulas destinadas a tal conjunto de dados.
Em relação a segunda pergunta, nesse momento, adicionaremos à tabela uma nova coluna para calcular a média,
- -8
Em relação a segunda pergunta, nesse momento, adicionaremos à tabela uma nova coluna para calcular a média,
que é uma variável necessária para encontrar a variância e o desvio-padrão; e outra coluna para facilitar as
demais operações. (lembramos que, por se tratar de uma tabela de distribuição de frequência, também é
necessário calcular o ponto médio ()).
Logo, para a média, obtemos: , observe que esse valor interfere diretamente no cálculo da
variância e do desvio-padrão, já que: erros ao quadrado e 
 erros.
Assim, a interpretação de tais resultados compreende que, aproximadamente, 21 erros ao quadrado
correspondem à variabilidade dos erros e que esses variaram em relação à média, aproximadamente, 4,5 erros.
2.3 Análise bidimensional (1ª parte)
Frequentemente, nos deparamos com a necessidade de realizar estimativas ou previsões sobre ocorrências
futuras, tal processo pode ser realizado quando conhecemos as variáveis e o modo como se relacionam. Nessa
conjuntura, existem técnicas estatísticas que possibilitam elaborar modelos e avaliar sua qualidade, essas
técnicas são chamadas de análise de regressão e correlação e possuem atributos próprios. Enquanto a regressão
descreve, por meio de equações algébricas, a previsão acerca dos comportamentos da situação, a correlação
avalia a qualidade da relação entre as variáveis (MILONE, 2006).
Correlações e regressões podem ser classificadas quanto ao número de variáveis, assim, são denominadas de
simples, quando uma variável for conveniente para explicar o contexto; ou múltiplas, quando necessitar de mais
de uma. Também são diferenciadas quanto à sua complexidade, logo, recebem o nome de lineares, quando se
enquadram em funções de primeiro grau; ou não lineares, quando sua modelagem matemática exige funções de
ordem superior (MILONE, 2006).
Nesta primeira parte dedicada à análise bidimensional, o foco será o estudo acerca da qualidade entre as
relações, ou seja, a correlação linear e a covariância.
2.3.1 Correlação linear
Suponha que um médico queira avaliar o tempo que uma pessoa pratica exercíciosfísicos em relação à
manutenção de seu peso. Ou que um professor queira avaliar o tempo dedicado aos estudos com as notas
obtidas na etapa. Como seria possível avaliar a relação existente entre tais variáveis?
Correlação é descrita por Larson e Farber (2016) como uma relação entre duas variáveis, em que as informações
são identificadas por pares ordenados (x, y), sendo que é a variável independente (ou explanatória) e x y
representa a variável dependente (ou resposta).
Inúmeras vezes, dados bidimensionais são coletados, simultaneamente, para determinar se a variável
independente interfere na variável dependente. Assim, duas variáveis quantitativas podem aumentar ou
diminuir juntas, aumentar quando uma diminui ou vice-versa.
- -9
Uma importante ferramenta para visualizar tal comportamento é o diagrama de dispersão, que, de acordo com
Larson e Farber (2016), consiste em uma representação gráfica de dois conjuntos de dados que possuem o
mesmo tamanho e, para cada entrada do primeiro conjunto, existe um correspondente no segundo conjunto.
Esse formato é utilizado para exibir a relação entre duas variáveis quantitativas.
No diagrama de dispersão, os pontos ( , ) são plotados em um plano coordenado, a variável independente ( ) éx y x
medida no eixo horizontal e a variável dependente ( ), no eixo vertical. Com diagrama, é possível determinar sey
existe uma correlação linear, assim como diferenciar o tipo de correlação.
Para Morettin e Bussab (2010), um dispositivo bastante útil para verificar a associação entre duas variáveis é o
gráfico de dispersão que será introduzido a partir do estudo da tabela a seguir.
Tabela 5 - Renda bruta mensal (X) e porcentagem de renda gasta em saúde (Y) para um conjunto de famílias
Fonte: Elaborada pela autora, baseada em MORETTIN; BUSSAB, 2010.
Você quer ver?
No vídeo , apresentado pelo professorEstatística - Aula 25 - Correlação e Regressão
Fernando Berssaneti, você encontrará os conceitos relacionados à correlação e
regressão linear, estudará o diagrama de dispersão e verificará se existe uma
regressão linear entre as variáveis utilizando o teste para o coeficiente de correlação.
Acesse
https://www.youtube.com/watch?v=v6kI-9s2Qhk
- -10
#PraCegoVer: tabela com três colunas e dez linhas apresentando a renda bruta mensal (X) e porcentagem de
renda gasta em saúde (Y) para um conjunto de famílias.
Considere a renda bruta mensal (X) e a porcentagem da renda gasta em assistência médica (Y) para um conjunto
de dez famílias. Conforme o gráfico de dispersão, é possível verificar que existe uma associação inversa, ou seja,
quanto maior a renda mensal bruta (X), menor é a porcentagem da renda gasta em assistência médica.
Figura 1 - Gráfico de dispersão para as variáveis renda bruta (X) e porcentagem de renda gasta em saúde (Y)
Fonte: MORETTIN; BUSSAB, 2010, p. 82.
#PraCegoVer: gráfico de dispersão com pontos decrescentes.
Dessa maneira, é possível observar que a representação gráfica auxilia na identificação da existência ou não de
associação entre as variáveis de maneira a estudar o comportamento entre elas.
No entanto, existem muitos tipos de associações possíveis. Em nosso estudo, veremos a mais simples, que é a
linear. Na relação linear, o objetivo é definir uma medida que avalie o grau de dispersão da nuvem de pontos em
relação a uma reta, sendo que essa medida será encontrada num intervalo finito de -1 a 1.
Morettin e Bussab (2010) descrevem, a princípio, três relações que são representadas pelos gráficos de
dispersão a seguir.
Você o conhece?
Galton Francis (1822 - 1911), matemático e estatístico francês publicou no século XIV
o resultado de uma pesquisa em que coletou a altura de homens adultos e a de seus
pais. Assim, concluiu, por intermédio da análise bidimensional, que a variação da
altura dos homens é, em parte, explicada pela variação da altura de seus pais.
- -11
Figura 2 - Tipos de associações entre duas variáveis
Fonte: MORETTIN; BUSSAB, 2010, p. 83.
#PraCegoVer: três gráficos de dispersão, sendo o primeiro com pontos crescentes, o segundo com pontos
decrescentes e o terceiro com pontos espalhados de maneira aleatória.
Na primeira figura (a), é possível verificar que há uma associação linear direta (ou positiva), sendo que seus
pontos estão distribuídos entre o primeiro e terceiro quadrante. Já na segunda figura (b), é possível notar que há
uma dependência linear inversa (ou negativa), em que a soma dos produtos das coordenadas é negativa. Nesse
sentido, dizemos que há correlação linear negativa. E, por último, na última figura (c), os autores afirmam que a
soma dos produtos das coordenadas é zero. Nesse caso, dizemos que não há correlação linear entre as variáveis.
Portanto, concluímos que, quando duas variáveis crescem no mesmo sentido, existe correlação positiva; já em
sentidos contrários, há correlação negativa; e, caso a variável independente cresça e a dependente varie ao
acaso, a correlação é nula, ou seja, não existe. Também existe a situação da correlação não ser linear.
Teste seus conhecimentos
(Atividade não pontuada)
Diante dessa exposição, será apresentado o cálculo do coeficiente de correlação (linear) que, segundo Morettin e
Bussab (2010), corresponde a uma medida do grau de associação entre as variáveis e do grau de proximidade
dos dados a uma reta crescente ou decrescente, em caso de uma relação positiva ou negativa. Esse será nosso
próximo assunto a ser discutido.
2.3.2 Coeficiente de correlação linear
Para Larson e Farber (2016), o coeficiente de correlação linear é uma medida de força e direção da relação entre
duas variáveis, cuja representação é dada pela letra r que corresponde ao coeficiente de correlação produto-
momento de Pearson. Quando as variáveis têm uma correlação positiva, r está próximo de 1; caso tenham uma
correlação negativa, r está próximo de -1. Na correlação linear positiva perfeita, o coeficiente de correlação
linear é igual a 1 e, na correlação linear negativa perfeita, o coeficiente de correlação é igual a -1. Quando não há
correlação entre as variáveis, o coeficiente de correlação é igual a zero. Assim, o coeficiente de correlação linear
permite determinar o quanto duas variáveis se relacionam. É possível encontrá-lo por meio da igualdade:
- -12
De maneira a trabalhar com a relação exposta na fórmula anterior, apresentamos uma tabela com a variável x
que representa os valores do PIB (em trilhões de dólares) e com a variável y que representa as emissões de CO2
(em milhões de toneladas métricas). A partir dela, é possível obter todos os valores necessários ao cálculo do
coeficiente de correlação linear.
Tabela 6 - Dados e cálculos intermediários para a determinação do coeficiente de correlação r.
Fonte: Elaborada pela autora, baseada em LARSON; FARBER, 2016.
#PraCegoVer: tabela com cinco colunas e onze linhas apresentando os valores do PIB (x), o volume de emissão
de gás carbono CO2 (y) e as relações xy, x2 e y2.
De acordo com nosso estudo, o coeficiente de correlação linear é dado pela seguinte igualdade.
- -13
Para interpretar o valor encontrado no coeficiente de correlação utilizamos os seguintes parâmetros: se r estiver
compreendido entre 90% e 100%, alta ou ótima correlação; entre 80% e 90% boa correlação; entre 60% e 80%,
média correlação; entre 40% e 60%, baixa correlação e entre 0% e 40% é péssima correlação (MARTINS E
DOMINGUES, 2017).
Nesse contexto, que tipo de correlação existe entre tais conjuntos de dados? Positiva ou negativa? Qual
interpretação é viável, de acordo com o valor de coeficiente de correlação? Bem, essas são as indagações
possíveis de realizar acerca de tais entradas.
De acordo com o resultado obtido de r é possível afirmar que há uma correlação positiva forte, assim, conforme o
produto interno bruto do país aumenta, cresce a emissão de dióxido de carbono.
2.3.3 Covariância
Larson e Farber (2016) caracterizam a covariância como uma medida que avalia a relação entre duas variáveis.
Esse indicador assemelha-se muito ao conceito de correlação, noentanto, se diferenciam em dois aspectos. Os
valores da covariância não obedecem a uma padronização, diferente da correlação (varia de -1 a 1), portanto,
seu campo de existência abrange todos os números. Além disso, a covariância fornece respostas sobre a direção
da relação entre as variáveis.
Resultados com sinais positivos apontam que valores acima da média de uma variável estão associados a valores
médios acima da outra variável e, abaixo dos valores médios, são igualmente associados. Resultados com sinais
negativos indicam que valores acima da média de uma variável estão associados com valores médios abaixo da
outra variável.
O cálculo da covariância é feito a partir da relação: 
Assim, temos para o exemplo atribuído à tabela anterior os seguintes cálculos:
Você quer ler?
No artigo “Correlação e regressão linear de variáveis que interferem no produto
interno bruto do Brasil: uma análise estatística dos dados”, os autores buscam
investigar a correlação entre três variáveis quantitativas e determinar o coeficiente de
correlação linear de maneira a prever o produto interno bruto (PIB) do Brasil,
utilizando as variáveis independentes expectativa de vida e população do Brasil.
Acesse
https://periodicos.utfpr.edu.br/revistagi/article/view/9968
- -14
Como o resultado foi um número positivo, podemos afirmar que as variáveis tendem a aumentar juntas ou
diminuir juntas. Logo, se a nota em português aumentar, a de matemática também aumentará, ou se a nota em
português diminuir, a de matemática também diminuirá.
2.4 Análise bidimensional 2ª parte
Dando continuidade ao estudo de mais de um conjunto, iniciaremos uma nova abordagem ao trabalhar com
dados bidimensionais. Até aqui, aprendemos a medir e qualificar a relação entre informações quantitativas, a
partir de agora, vamos desenvolver modelos estatísticos utilizados com o intuito de prever outros valores. E,
assim, a partir de uma variável independente, descobrir os valores da variável dependente.
2.4.1 Regressão linear
De acordo com Larson e Farber (2016), com o estudo da regressão linear é possível respondermos algumas
questões como: há uma relação direta de causa e efeito entre as variáveis? ou ainda, é possível que a relação
entre as variáveis seja uma coincidência?
As técnicas de regressão linear são muito utilizadas em atividades em que organização e planejamento para o
futuro são de suma importância, sendo empregada com o propósito de previsão. Estipular as futuras vendas de
um produto em função do seu preço ou prever o consumo de certos alimentos em relação a seu valor nutritivo
retratam algumas das muitas situações existentes que permitem o uso de regressão linear, uma vez que tal
estratégia possibilita a previsão de médias ou valores esperados.
Geralmente, ao utilizar dados provenientes de observações e/ou pesquisas, com o objetivo de utilizar o
dispositivo de regressão linear, é necessário encontrar uma equação matemática que possibilite estabelecer a
relação entre duas variáveis. Esse processo é denominado ajuste de curvas. Aqui, concentramos no ajuste para
equações lineares de duas incógnitas, ou seja, da forma y = ax + b (FREUND, 2009).
2.4.2 Reta de ajuste linear
Para Larson e Farber (2016), a reta de regressão também é chamada de reta de melhor ajuste e sua equação é
usada para predizer valores de y (variável dependente) de acordo com valores de x (variável independente).
Conforme explicam os autores, a reta de regressão é calculada de acordo com alguns critérios.
Você sabia?
O ajuste de curvas no processo de regressão linear é deduzido pelo método dos
mínimos quadrados, esse dispositivo de otimização matemática foi criado pelo
matemático francês Adrien Legendre (1752 - 1833) e objetiva encontrar o mais
adequado ajuste de reta para um conjunto de dados pré-estabelecido (FREUND e
SIMON, 2000).
- -15
Na figura seguinte, cada ponto de i representa a diferença entre o valor observado de y e o valor previsto de y,
dado um valor de x. Tais diferenças são denominadas de resíduos e podem ser positivas, negativas ou nulas de
acordo com a posição que ocupam em relação à reta, podendo estar acima, abaixo ou na própria reta. Nesse
sentido, a reta de regressão consiste na reta desenhada em que, a partir de um conjunto de pontos, a soma dos
quadrados de todos os resíduos é um mínimo: (soma dos quadrados dos resíduos).
Figura 3 - Reta de regressão linear
Fonte: LARSON; FARBER, 2016, p. 454.
#PraCegoVer: reta linear crescente.
Ainda segundo Larson e Farber (2016), a equação da reta de regressão é dada pela relação: , em que é
o valor previsto dado um valor de x, m é a inclinação da reta e b é o intercepto em y, ou seja, é o valor de y no
ponto onde a reta cruza esse eixo.
Todas as relações anteriores são expressas pelas igualdades:
 e 
em que é a média dos valores de y; é a média dos valores de x e n é o número de pares de dados. A reta de
regressão sempre passa pelo ponto .
Agora vamos voltar ao problema do produto interno bruto e emissão de óxido de carbono e determinar sua
equação da reta de regressão.
Lembrando que temos os seguintes valores: . A inclinação
(m) da reta de regressão é igual a:
e o intercepto em y é b dado pela relação:
Portanto, a equação da reta de regressão é .
A seguir, plotamos os dados do exemplo anterior para encontrar a reta de regressão e o coeficiente de correlação
com o auxílio do software Excel.
- -16
Figura 4 - Gráfico de dispersão com sua respectiva equação de regressão e coeficiente de regressão linear.
Fonte: Elaborada pela autora, 2020.
#PraCegoVer: gráfico de dispersão de pontos com reta crescente evidenciando correlação positiva entre as
variáveis produto interno bruto e emissão de CO2.
Diante desses resultados é possível fazer predições quanto aos valores de emissão de CO2 e o produto interno
bruto do país, pois, uma vez identificada a equação de regressão linear, qualquer valor poderá ser substituído na
igualdade que define tal situação e, assim, detectar a solução que norteia essa problemática.
Teste seus conhecimentos
(Atividade não pontuada)
Conclusão
No decorrer desta unidade, aprendemos que a variância e o desvio-padrão são ferramentas úteis para verificar o
quanto os dados obtidos por uma pesquisa estão dispersos em torno do foco central, ou seja, da média
aritmética. Assim, por essa análise, constatamos sua aplicabilidade.
Também foi possível descrever e avaliar a significância das relações entre variáveis, quando essas são
organizadas no formato de pares ordenados, por meio do uso de técnicas de correlação, que avaliam a qualidade
entre as relações a partir da determinação do coeficiente de correlação linear. Também estudamos que a
regressão linear corresponde ao processo que possibilita a previsão de resultados.
Nesta unidade, você teve a oportunidade de:
• calcular a variância e desvio-padrão de dados não agrupados;
• calcular a variância e desvio-padrão de dados agrupados;
• distinguir a relação de variância e desvio-padrão para dados populacionais e amostrais;
• compreender e aplicar o conceito de correlação;
•
•
•
•
- -17
• compreender e aplicar o conceito de correlação;
• compreender e aplicar o conceito de regressão linear;
• elaborar a reta de ajuste linear;
• interpretar o coeficiente de correlação linear.
Referências
CASTANHEIRA, N. P. .Estatística aplicada a todos os níveis
Curitiba: Intersaberes, 2013.
CRESPO, A. A. 19. ed. São Paulo: Saraiva, 2009.Estatística Fácil. 
DEVORE, J. L. Probabilidade e estatística para engenharia e
. São Paulo: Cengage, 2019.ciências
ESTATÍSTICA – Aula 25. [ . .: . .], 2017. 1 vídeo (25 min.).S l s n
Publicado pelo canal UNIVESP. Disponível em: https://www.youtube.
. Acesso em: 26 dez. 2020.com/watch?v=v6kI-9s2Qhk
FREUND, J. E., SIMON, G. A. S. : economia,Estatística Aplicada
administração e contabilidade. Porto Alegre: Bookman, 2009.
KREMER, G. M.; DEINA, C.; SIQUEIRA, H. Correlação e regressão linear de variáveis que interferem o produto
interno bruto do Brasil: uma análise estatística de dados., Ponta Grossa, v. 15, n. 2, p.Revista Gestão Industrial
233-254, abr./jun. 2019.
LARSON, R.; FARBER, B. . 6. ed. São Paulo: Pearson, 2016.Estatística Aplicada
MARTINS, G. A.; DOMINGUES, O. . São Paulo: Atlas, 2017.Estatística Geral e Aplicada
MILONE, G. . Rio de Janeiro: Thomson, 2006.Estatística Geral e Aplicada
MORETTIN, P.A., BUSSAB, W.O. , 8. ed. São Paulo: Saraiva, 2010.Estatística Básica
•
•
•
•
https://www.youtube.com/watch?v=v6kI-9s2Qhk
https://www.youtube.com/watch?v=v6kI-9s2Qhk
	Introdução
	2.1 Medidas de dispersão
	2.2 Variância e desvio-padrão
	2.2.1 Variância e desvio-padrão para dados não agrupados
	Caso
	2.2.2 Variância e desvio-padrão para dados agrupados
	2.3 Análise bidimensional (1ª parte)
	2.3.1 Correlação linear
	Você quer ver?
	Você o conhece?
	Teste seus conhecimentos
	2.3.2 Coeficiente de correlação linear
	Você quer ler?
	2.3.3 Covariância
	2.4 Análise bidimensional 2ª parte
	2.4.1 Regressão linear
	2.4.2 Reta de ajuste linear
	Você sabia?
	Teste seus conhecimentos
	Conclusão
	Referências