Buscar

medidas de dispersão e analise bidimensional

Prévia do material em texto

Introdução
Autoria: Joelma Iamac Nomura e Rafaela Rodrigues Oliveira Amaro
Estatística Descritiva
UNIDADE 2 - MEDIDAS DE DISPERSÃO E
ANÁLISE BIDIMENSIONAL
Nesta unidade, a respeito do estudo da
estatística descritiva, veremos a necessidade de
medir a variabilidade dos dados. Afinal, com que
grau de confiança as medidas de tendência
central retratam fielmente as informações de
uma pesquisa? Questionamentos semelhantes a
esse serão respondidos pela fundamentação
teórica que compreende as medidas de
dispersão.
A chance de relacionar duas variáveis, ou seja, determinar até que ponto a
manipulação de uma interfere na relação da outra, embasa o estudo da análise
bidimensional. Nesse contexto, você será apresentado a técnicas de como avaliar por
métodos numéricos a qualidade de tal vínculo. Com essa proposta, serão estudadas
medidas fundamentais que constituem as medidas de variação, entre elas a variância
e o desvio-padrão. É possível que no estudo da estatística também nos deparemos
com a necessidade de realizar estimativas ou previsões sobre ocorrências futuras a
partir da relação entre as variáveis. Com esse fim, estaremos diante do estudo de
modelos e técnicas de análise de regressão e correlação, sendo pertinente o estudo
da relação entre as variáveis a partir de seus gráficos de dispersão, e da equação da
reta que representa essa relação e que recebe a denominação de equação regressão
linear da reta. Tais conceitos, técnicas e modelos matemáticos propostos são
assuntos fundamentais para o estudo da estatística e fundamentam muitas pesquisas
acadêmicas e científicas nas mais diversas áreas de conhecimento.
Assim, no final de unidade você terá conhecimento para responder às seguintes
perguntas: quais as diferenças para se estabelecer as medidas de dispersão entre os
dados não agrupados e agrupados? Qual a relevância em se encontrar valores que
estão a um, dois ou três desvios-padrão da média? É possível afirmar que o tempo de
estudo de determinada disciplina está relacionado à nota que iremos tirar na prova?
As relações entre as variáveis podem ser expressas em termos de uma equação
matemática? Bem, essas são apenas algumas perguntas a serem respondidas no
final desta unidade, pois seremos instigados a responder outras inúmeras perguntas
frente ao vasto assunto discutido aqui, perguntas que estão presentes no nosso dia a
dia. 
Bons estudos!
2.1 Medidas de
dispersão
Imagine que em uma escola há quatro professores de matemática, de idades: 24, 32, 39 e 57
anos. E que, em outra escola, com essa mesma quantidade de docentes, as idades sejam de
35, 36, 39, 42 anos. Observe que a idade média entre as duas escolas é a mesma, de 38 anos;
mas se atente às distintas variabilidades entre os dois grupos, ou seja, no quanto os números
distam entre si. No primeiro grupo, as idades são mais heterogêneas, enquanto, no segundo,
esses dados são homogêneos. Dessa maneira, avaliar a média, somente, sem estabelecer uma
relação entre os outros dados pertencentes a um grupo, não permite elaborar uma afirmação
precisa acerca das particularidades do conjunto.
Segundo Morettin e Bussab (2010), o resumo de um conjunto de dados que considera
unicamente a medida de posição central esconde toda informação sobre a variabilidade do
conjunto de observações, pois diversas amostras ou populações podem ter a mesma medida
de tendência central e apresentar aspectos importantes que devem ser analisados. As medidas
de dispersão (ou de variabilidade) permitem comparar conjuntos diferentes de valores de
acordo com algum critério que mede a dispersão dos dados em torno da sua média. Com esse
intuito duas medidas são as mais usadas: o desvio-padrão e a variância. Vamos perceber que a
análise de um conjunto de dados a partir dessas medidas nos permite verificar quais conjuntos
são mais homogêneos que outros.
De maneira semelhante, Crespo (2009) explica que, quando se trata de interpretar dados
estatísticos, mesmo aqueles que já estão convenientemente simplificados, torna-se necessário
ter uma ideia retrospectiva de como esses valores são apresentados na tabela. Assim, para que
os dados estejam perfeitamente caracterizados, não é suficiente trabalhar com as medidas de
posição, levando em consideração se esses valores se distribuem de maneira homogênea ou
não.
Martins e Domingues (2017) definem medidas de dispersão como sendo os parâmetros que
avaliam o grau de variabilidade ou dispersão dos valores em torno da média. Logo, possuem a
capacidade de mensurar a representatividade da média. Assim, neste capítulo, você conhecerá
o conceito, a maneira de calcular e a interpretação de algumas medidas de dispersão.
De maneira análoga, Freund e Simon (2000) afirmam que as medidas de dispersão têm
importância especial na inferência estatística, sendo que elas nos auxiliam a avaliar a extensão
da dispersão dos dados.
Entre as medidas de dispersão, a mais simples é a amplitude, calculada a partir da diferença
entre o maior e menor valor da amostra ou da população.
A seguir, apresentamos uma tabela com valores dos salários iniciais nas empresas A e B. Os
dados não estão organizados e ainda se encontram na forma bruta.
#PraCegoVer: duas tabelas, cada uma com dez colunas e uma linha, representando os salários
iniciais nas empresas A e B (em milhares de dólares).
Tabela 1 - Salários iniciais nas empresas A e B (em milhares de dólares)
Fonte: Elaborada pela autora, baseada em FREUND; SIMON, 2000.
Quando ordenados, temos a seguinte sequência dos salários da empresa A:
37 – 38 – 39 – 41 – 41 – 41 – 42 – 44 – 45 – 47
e a sequência dos salários da empresa B:
23 – 29 – 32 – 40 – 41 – 41 – 49 – 50 – 52 – 58
Dessa maneira, nos conjuntos de dados anteriores, é possível verificar que a amplitude do
primeiro conjunto de dados é igual a 47-37=10 e a amplitude do segundo conjunto de dados é
igual a 58-23=35.
Para Freund e Simon (2000), esses valores extremos indicam a variabilidade dos conjuntos de
dados. No entanto, de acordo com os autores, a amplitude em geral não fornece qualquer
indicação quanto à dispersão dos valores que estão entre os dois extremos. Nesse sentido, a
amplitude é usada como uma indicação “rápida e fácil” de variabilidade.
Ainda de acordo com os exemplos apresentados anteriormente, Larson e Farber (2016)
descrevem que ambos os conjuntos de dados têm média igual a 41,4, mediana igual a 41 e
moda igual a 41. No entanto, têm aspectos significativamente distintos, pois o segundo conjunto
tem uma variação maior e essa informação é muito importante para uma análise mais
aprimorada dos dados. Assim, verifica-se a necessidade do estudo de novas medidas de
dispersão para medir a dispersão dos dados em torno da média. Nesse caso, estudaremos o
desvio-médio, variância e desvio-padrão e descobriremos a diferença entre elas.
2.2 Variância e desvio-
padrão
De acordo com Morettin e Bussan (2010), um critério para medir a dispersão dos dados em
torno da média é usar medidas como o desvio-padrão e a variância, sendo que o princípio
básico é analisar os desvios das observações em relação à média das mesmas observações.
Conforme apontam os autores, considerando as observações de um grupo
e a média encontrada entre as observações, teremos 
. Diante desse resultado, podemos chegar à conclusão de que se todos os desvios forem
pequenos em magnitude, todas as observações estarão próximas da média e, portanto,
teremos pouca variabilidade. No entanto, se os desvios das observações estiverem distantes
a média , teremos uma grande variabilidade.
Observe que, no seguinte conjunto de dados do grupo A: 3, 4, 5, 6, 7, 8, 9, temos a média igual
a 6 e 
. Nessas condições, a soma dos desvios é igual a 
, contudo, não é uma boa medida de
dispersão para o conjunto A de dados. Assim, deve-se considerar (i) o total dos desvios em
valor absoluto e (ii) o total dos quadrados dos
desvios . Percebemos, portanto, que a
variância corresponde ao quadrado da dimensão dos dados, o que pode nos levar a problemas
de interpretação.
De acordo com Castanheira (2013), variânciaé o resultado da média aritmética dos quadrados
dos desvios; e permite medir a variabilidade dos dados em torno da média. A medida de
dispersão mais utilizada em estatística é o desvio-padrão, ele é o resultado da raiz quadrada da
variância, logo, o cálculo da variância é um passo intermediário para obter o desvio-padrão.
Para interpretação dessa medida, vale lembrar que esse indicador avalia o quanto uma entrada
típica se desvia da média. Quanto mais espalhados estiverem os dados, maior será o desvio-
padrão. Dessa forma, ele é considerado pequeno se os valores estiverem bem concentrados
em torno da média, ou grande, se estiverem muito espalhados ao redor da média.
2.2.1 Variância e desvio-padrão para dados não agrupados
Para Devore (2019), há uma medida de variabilidade da população denominada de variância
populacional e, para representá-la, usaremos a simbologia . Já para a representação do
desvio-padrão, usaremos a simbologia , ou seja, a raiz quadrada da variância populacional .
Mas que medida de unidade é essa? Parece sem sentido, porém, com o resultado do cálculo
da variância, obtemos respostas como essa. Essa é uma desvantagem de utilizar esse
parâmetro, pois suas unidades de medida, geralmente, não possuem sentido físico. Assim,
devemos calcular a raiz quadrada desses valores, para, desse modo, conseguir interpretar tais
resultados, uma vez que o desvio-padrão é uma medida de variabilidade com idêntica unidade
de medida dos dados. Nesse sentido, costuma-se usar o desvio-padrão como a raiz da
variância que para o grupo A é igual a .
Para o desvio-padrão e variância calculados anteriormente, usamos n como a população de
nosso conjunto de dados, que, no caso, é igual a 7. Tais valores são referentes ao desvio-
padrão populacional e variância populacional, no entanto, vale salientar que esses indicadores
podem contemplar não somente a população, mas também uma amostra. No caso de uma
amostra, a variância será calculada usando o denominador , em vez de n.
De acordo com Devore (2019, p. 37), se usássemos o divisor n na fórmula da variância
amostral, a quantidade resultante tenderia a subestimar (gerar valores estimados que são
em média, muito pequenos, enquanto a divisão pelo valor, ligeiramente menor, corrige
essa estimativa). Para o autor é habitual se referir a com base em graus de liberdade (gl).
Caso
 
Desvio-padrão 
Variância 
A seguir é apresentado o consumo de combustível de uma
amostra de dos automóveis de marca ABC em uma
rodovia brasileira. Encontre o desvio-padrão e a variância dos
combustíveis consumidos entre os veículos. Perceba que no
enunciado do problema está explícito que se trata de uma
amostra, por isso, usaremos a fórmula referente a uma amostra.
A seguir são listados os consumos de combustível de 11
automóveis:
27,3 – 27,9 – 32,9 – 35,2 – 44,9 – 39,9 – 30,0 – 29,7 – 28,5 – 32,
0 – 37,6
Vamos aos cálculos para sabermos qual é o desvio-padrão e a
variância do conjunto de dados.
Estamos nos referindo a uma amostra de automóveis,
assim faremos uso das relações: para a
variância e para encontrar o desvio-padrão.
É necessário calcular a média dos valores, sendo ela igual a:
Calculando , temos o valor de:
 
Os cálculos desse exemplo foram obtidos com o auxílio
do software Excel. Assim, obtivemos: e 
. Portanto, entendemos que o desvio típico
ou representativo da média amostral 33,26 é aproximadamente
5,6 mpg.
Diante o exposto, podemos utilizar as fórmulas direcionadas a dados não agrupados e, desde
que não exista repetição de mesmos dados, não será necessário organizar tais informações em
tabelas de distribuição de frequência.
Observe a tabela a seguir.
#PraCegoVer: tabela com três colunas e quatro linhas.
Haverá distinção se formos encontrar a variância e o desvio-padrão para uma amostra ou
população, como pode ser observado na tabela anterior. 
2.2.2 Variância e desvio-padrão para dados agrupados
Quando trabalhamos com uma grande quantidade de dados, é mais viável interligar tais
informações em tabelas de distribuição de frequências, assim, consequentemente, a variável
frequência estará presente. Por isso, a fórmula que permite calcular a variância e o desvio-
padrão não é mantida. O que diferencia a fórmula utilizada é estabelecer se os dados são
referentes a uma amostra ou a uma população, assim como as relações para dados não
agrupados. Observe que, na variância populacional, o numerador é dividido por N, enquanto, na
variância amostral, é fracionado por .
#PraCegoVer: tabela com três colunas e quatro linhas apresentando as diferenças de fórmulas
entre a variância e desvio-padrão para uma população e para uma amostra.
Agora, considere que, após um teste de proficiência de língua estrangeira, foram contabilizados
os erros cometidos por 50 alunos que realizaram tal prova. Esses números foram alocados na
distribuição de frequência disposta a seguir.
Tabela 2 - Fórmulas para variância e desvio-padrão para dados não agrupados
Fonte: Elaborada pela autora, 2020.
Tabela 3 - Fórmulas de variância e desvio-padrão para dados agrupados
Fonte: Elaborada pela autora, 2020.
#PraCegoVer: tabela com cinco colunas e cinco linhas para dados agrupados.
Bem, esse conjunto de dados retrata uma amostra ou uma população? Qual sua variância e
seu desvio-padrão? Como podemos interpretar tais resultados?
Começaremos respondendo a primeira pergunta: no enunciado está explícito que a pesquisa foi
realizada com 50 alunos, portanto, trata-se de uma população e utilizaremos as fórmulas
destinadas a tal conjunto de dados.
Em relação a segunda pergunta, nesse momento, adicionaremos à tabela uma nova coluna
para calcular a média, que é uma variável necessária para encontrar a variância e o desvio-
padrão; e outra coluna para facilitar as demais operações. (lembramos que, por se tratar de
uma tabela de distribuição de frequência, também é necessário calcular o ponto médio (𝑥𝑖)).
Logo, para a média, obtemos: , observe que esse valor interfere
diretamente no cálculo da variância e do desvio-padrão, já que: 
 erros ao quadrado e 
 erros.
Assim, a interpretação de tais resultados compreende que, aproximadamente, 21 erros ao
quadrado correspondem à variabilidade dos erros e que esses variaram em relação à média,
aproximadamente, 4,5 erros.
Tabela 4 - Distribuição de frequência da quantidade de erros por alunos
Fonte: Elaborada pela autora, 2020.
2.3 Análise bidimensional (1ª
parte)
Frequentemente, nos deparamos com a necessidade de realizar estimativas ou previsões sobre
ocorrências futuras, tal processo pode ser realizado quando conhecemos as variáveis e o modo
como se relacionam. Nessa conjuntura, existem técnicas estatísticas que possibilitam elaborar
modelos e avaliar sua qualidade, essas técnicas são chamadas de análise de regressão e
correlação e possuem atributos próprios. Enquanto a regressão descreve, por meio de
equações algébricas, a previsão acerca dos comportamentos da situação, a correlação avalia a
qualidade da relação entre as variáveis (MILONE, 2006).
Correlações e regressões podem ser classificadas quanto ao número de variáveis, assim, são
denominadas de simples, quando uma variável for conveniente para explicar o contexto; ou
múltiplas, quando necessitar de mais de uma. Também são diferenciadas quanto à sua
complexidade, logo, recebem o nome de lineares, quando se enquadram em funções de
primeiro grau; ou não lineares, quando sua modelagem matemática exige funções de ordem
superior (MILONE, 2006).
Nesta primeira parte dedicada à análise bidimensional, o foco será o estudo acerca da
qualidade entre as relações, ou seja, a correlação linear e a covariância.
2.3.1 Correlação linear
Suponha que um médico queira avaliar o tempo que uma pessoa pratica exercícios físicos em
relação à manutenção de seu peso. Ou que um professor queira avaliar o tempo dedicado aos
estudos com as notas obtidas na etapa. Como seria possível avaliar a relação existente entre
tais variáveis?
Correlação é descrita por Larson e Farber (2016) como uma relação entre duasvariáveis, em
que as informações são identificadas por pares ordenados (x, y), sendo que x é a variável
independente (ou explanatória) e y representa a variável dependente (ou resposta).
Inúmeras vezes, dados bidimensionais são coletados, simultaneamente, para determinar se a
variável independente interfere na variável dependente. Assim, duas variáveis quantitativas
podem aumentar ou diminuir juntas, aumentar quando uma diminui ou vice-versa.
Uma importante ferramenta para visualizar tal comportamento é o diagrama de dispersão, que,
de acordo com Larson e Farber (2016), consiste em uma representação gráfica de dois
conjuntos de dados que possuem o mesmo tamanho e, para cada entrada do primeiro conjunto,
existe um correspondente no segundo conjunto. Esse formato é utilizado para exibir a relação
entre duas variáveis quantitativas.
No vídeo Estatística - Aula 25 - Correlação e Regressão,
apresentado pelo professor Fernando Berssaneti, você
encontrará os conceitos relacionados à correlação e
regressão linear, estudará o diagrama de dispersão e
verificará se existe uma regressão linear entre as
variáveis utilizando o teste para o coeficiente de
correlação.
Acesse (https://www.youtube.com/watch?v=v6kI-
9s2Qhk)
Você quer ver?
https://www.youtube.com/watch?v=v6kI-9s2Qhk
No diagrama de dispersão, os pontos (x, y) são plotados em um plano coordenado, a variável
independente (x) é medida no eixo horizontal e a variável dependente (y), no eixo vertical. Com
diagrama, é possível determinar se existe uma correlação linear, assim como diferenciar o tipo
de correlação.
Para Morettin e Bussab (2010), um dispositivo bastante útil para verificar a associação entre
duas variáveis é o gráfico de dispersão que será introduzido a partir do estudo da tabela a
seguir.
#PraCegoVer: tabela com três colunas e dez linhas apresentando a renda bruta mensal (X) e
porcentagem de renda gasta em saúde (Y) para um conjunto de famílias.
Considere a renda bruta mensal (X) e a porcentagem da renda gasta em assistência médica (Y)
para um conjunto de dez famílias. Conforme o gráfico de dispersão, é possível verificar que
existe uma associação inversa, ou seja, quanto maior a renda mensal bruta (X), menor é a
porcentagem da renda gasta em assistência médica.
Tabela 5 - Renda bruta mensal (X) e porcentagem de renda gasta em saúde (Y) para um conjunto de famílias
Fonte: Elaborada pela autora, baseada em MORETTIN; BUSSAB, 2010.
Galton Francis (1822 - 1911), matemático e estatístico
francês publicou no século XIV o resultado de uma pesquisa
em que coletou a altura de homens adultos e a de seus pais.
Assim, concluiu, por intermédio da análise bidimensional,
que a variação da altura dos homens é, em parte, explicada
pela variação da altura de seus pais.
Você o conhece?
#PraCegoVer: gráfico de dispersão com pontos decrescentes.
Dessa maneira, é possível observar que a representação gráfica auxilia na identificação da
existência ou não de associação entre as variáveis de maneira a estudar o comportamento
entre elas.
No entanto, existem muitos tipos de associações possíveis. Em nosso estudo, veremos a mais
simples, que é a linear. Na relação linear, o objetivo é definir uma medida que avalie o grau de
dispersão da nuvem de pontos em relação a uma reta, sendo que essa medida será encontrada
num intervalo finito de -1 a 1.
Morettin e Bussab (2010) descrevem, a princípio, três relações que são representadas pelos
gráficos de dispersão a seguir.
#PraCegoVer: três gráficos de dispersão, sendo o primeiro com pontos crescentes, o segundo
com pontos decrescentes e o terceiro com pontos espalhados de maneira aleatória.
Na primeira figura (a), é possível verificar que há uma associação linear direta (ou positiva),
sendo que seus pontos estão distribuídos entre o primeiro e terceiro quadrante. Já na segunda
figura (b), é possível notar que há uma dependência linear inversa (ou negativa), em que a
soma dos produtos das coordenadas é negativa. Nesse sentido, dizemos que há correlação
linear negativa. E, por último, na última figura (c), os autores afirmam que a soma dos produtos
das coordenadas é zero. Nesse caso, dizemos que não há correlação linear entre as variáveis.
Portanto, concluímos que, quando duas variáveis crescem no mesmo sentido, existe correlação
positiva; já em sentidos contrários, há correlação negativa; e, caso a variável independente
cresça e a dependente varie ao acaso, a correlação é nula, ou seja, não existe. Também existe
a situação da correlação não ser linear.
Figura 1 - Gráfico de dispersão para as variáveis renda bruta (X) e porcentagem de renda gasta em saúde (Y)
Fonte: MORETTIN; BUSSAB, 2010, p. 82.
Figura 2 - Tipos de associações entre duas variáveis
Fonte: MORETTIN; BUSSAB, 2010, p. 83.
Diante dessa exposição, será apresentado o cálculo do coeficiente de correlação (linear) que,
segundo Morettin e Bussab (2010), corresponde a uma medida do grau de associação entre as
variáveis e do grau de proximidade dos dados a uma reta crescente ou decrescente, em caso
de uma relação positiva ou negativa. Esse será nosso próximo assunto a ser discutido.
2.3.2 Coeficiente de correlação linear
Para Larson e Farber (2016), o coeficiente de correlação linear é uma medida de força e
direção da relação entre duas variáveis, cuja representação é dada pela letra r que corresponde
ao coeficiente de correlação produto-momento de Pearson. Quando as variáveis têm uma
correlação positiva, r está próximo de 1; caso tenham uma correlação negativa, r está próximo
de -1. Na correlação linear positiva perfeita, o coeficiente de correlação linear é igual a 1 e, na
correlação linear negativa perfeita, o coeficiente de correlação é igual a -1. Quando não há
correlação entre as variáveis, o coeficiente de correlação é igual a zero. Assim, o coeficiente de
correlação linear permite determinar o quanto duas variáveis se relacionam. É possível
encontrá-lo por meio da igualdade:
De maneira a trabalhar com a relação exposta na fórmula anterior, apresentamos uma tabela
com a variável x que representa os valores do PIB (em trilhões de dólares) e com a variável y
que representa as emissões de CO2 (em milhões de toneladas métricas). A partir dela, é
possível obter todos os valores necessários ao cálculo do coeficiente de correlação linear.
Teste seus conhecimentos
(Atividade não pontuada)
#PraCegoVer: tabela com cinco colunas e onze linhas apresentando os valores do PIB (x), o
volume de emissão de gás carbono CO2 (y) e as relações xy, x2 e y2.
De acordo com nosso estudo, o coeficiente de correlação linear é dado pela seguinte igualdade.
Para interpretar o valor encontrado no coeficiente de correlação utilizamos os seguintes
parâmetros: se r estiver compreendido entre 90% e 100%, alta ou ótima correlação; entre 80%
e 90% boa correlação; entre 60% e 80%, média correlação; entre 40% e 60%, baixa correlação
e entre 0% e 40% é péssima correlação (MARTINS E DOMINGUES, 2017).
Nesse contexto, que tipo de correlação existe entre tais conjuntos de dados? Positiva ou
negativa? Qual interpretação é viável, de acordo com o valor de coeficiente de correlação?
Bem, essas são as indagações possíveis de realizar acerca de tais entradas.
Tabela 6 - Dados e cálculos intermediários para a determinação do coeficiente de correlação r.
Fonte: Elaborada pela autora, baseada em LARSON; FARBER, 2016.
De acordo com o resultado obtido de r é possível afirmar que há uma correlação positiva forte,
assim, conforme o produto interno bruto do país aumenta, cresce a emissão de dióxido de
carbono. 
2.3.3 Covariância
Larson e Farber (2016) caracterizam a covariância como uma medida que avalia a relação
entre duas variáveis. Esse indicador assemelha-se muito ao conceito de correlação, no entanto,
se diferenciam em dois aspectos. Os valores da covariância não obedecem a uma
padronização, diferente da correlação (varia de -1 a 1), portanto, seu campo de existência
abrange todos os números. Além disso, a covariância fornece respostas sobre a direção da
relação entre as variáveis.Resultados com sinais positivos apontam que valores acima da média de uma variável estão
associados a valores médios acima da outra variável e, abaixo dos valores médios, são
igualmente associados. Resultados com sinais negativos indicam que valores acima da média
de uma variável estão associados com valores médios abaixo da outra variável.
O cálculo da covariância é feito a partir da relação: 
Assim, temos para o exemplo atribuído à tabela anterior os seguintes cálculos:
Como o resultado foi um número positivo, podemos afirmar que as variáveis tendem a
aumentar juntas ou diminuir juntas. Logo, se a nota em português aumentar, a de matemática
também aumentará, ou se a nota em português diminuir, a de matemática também diminuirá.
No artigo “Correlação e regressão linear de variáveis
que interferem no produto interno bruto do Brasil: uma
análise estatística dos dados”, os autores buscam
investigar a correlação entre três variáveis quantitativas
e determinar o coeficiente de correlação linear de
maneira a prever o produto interno bruto (PIB) do Brasil,
utilizando as variáveis independentes expectativa de
vida e população do Brasil.
Acesse
(https://periodicos.utfpr.edu.br/revistagi/article/view/
9968)
Você quer ler?
2.4 Análise bidimensional 2ª
parte
https://periodicos.utfpr.edu.br/revistagi/article/view/9968
Dando continuidade ao estudo de mais de um conjunto, iniciaremos uma nova abordagem ao
trabalhar com dados bidimensionais. Até aqui, aprendemos a medir e qualificar a relação entre
informações quantitativas, a partir de agora, vamos desenvolver modelos estatísticos utilizados
com o intuito de prever outros valores. E, assim, a partir de uma variável independente,
descobrir os valores da variável dependente.
2.4.1 Regressão linear
De acordo com Larson e Farber (2016), com o estudo da regressão linear é possível
respondermos algumas questões como: há uma relação direta de causa e efeito entre as
variáveis? ou ainda, é possível que a relação entre as variáveis seja uma coincidência?
As técnicas de regressão linear são muito utilizadas em atividades em que organização e
planejamento para o futuro são de suma importância, sendo empregada com o propósito de
previsão. Estipular as futuras vendas de um produto em função do seu preço ou prever o
consumo de certos alimentos em relação a seu valor nutritivo retratam algumas das muitas
situações existentes que permitem o uso de regressão linear, uma vez que tal estratégia
possibilita a previsão de médias ou valores esperados.
Geralmente, ao utilizar dados provenientes de observações e/ou pesquisas, com o objetivo de
utilizar o dispositivo de regressão linear, é necessário encontrar uma equação matemática que
possibilite estabelecer a relação entre duas variáveis. Esse processo é denominado ajuste de
curvas. Aqui, concentramos no ajuste para equações lineares de duas incógnitas, ou seja, da
forma y = ax + b (FREUND, 2009).
2.4.2 Reta de ajuste linear
Para Larson e Farber (2016), a reta de regressão também é chamada de reta de melhor ajuste
e sua equação é usada para predizer valores de y (variável dependente) de acordo com valores
de x (variável independente). Conforme explicam os autores, a reta de regressão é calculada de
acordo com alguns critérios.
Na figura seguinte, cada ponto de i representa a diferença entre o valor observado de y e o
valor previsto de y, dado um valor de x. Tais diferenças são denominadas de resíduos e podem
ser positivas, negativas ou nulas de acordo com a posição que ocupam em relação à reta,
O ajuste de curvas no processo de regressão linear é
deduzido pelo método dos mínimos quadrados, esse
dispositivo de otimização matemática foi criado pelo
matemático francês Adrien Legendre (1752 - 1833) e objetiva
encontrar o mais adequado ajuste de reta para um conjunto
de dados pré-estabelecido (FREUND e SIMON, 2000).
Você sabia?
podendo estar acima, abaixo ou na própria reta. Nesse sentido, a reta de regressão consiste na
reta desenhada em que, a partir de um conjunto de pontos, a soma dos quadrados de todos os
resíduos é um mínimo: (soma dos quadrados dos resíduos).
#PraCegoVer: reta linear crescente.
Ainda segundo Larson e Farber (2016), a equação da reta de regressão é dada pela relação: 
, em que é o valor previsto dado um valor de x, m é a inclinação da reta e b é o
intercepto em y, ou seja, é o valor de y no ponto onde a reta cruza esse eixo.
Todas as relações anteriores são expressas pelas igualdades:
 e 
em que é a média dos valores de y; é a média dos valores de x e n é o número de pares
de dados. A reta de regressão sempre passa pelo ponto .
Agora vamos voltar ao problema do produto interno bruto e emissão de óxido de carbono e
determinar sua equação da reta de regressão.
Lembrando que temos os seguintes valores: 
. A inclinação (m) da
reta de regressão é igual a:
e o intercepto em y é b dado pela relação:
Portanto, a equação da reta de regressão é .
A seguir, plotamos os dados do exemplo anterior para encontrar a reta de regressão e o
coeficiente de correlação com o auxílio do software Excel.
Figura 3 - Reta de regressão linear
Fonte: LARSON; FARBER, 2016, p. 454.
#PraCegoVer: gráfico de dispersão de pontos com reta crescente evidenciando correlação
positiva entre as variáveis produto interno bruto e emissão de CO2.
Diante desses resultados é possível fazer predições quanto aos valores de emissão de CO2 e o
produto interno bruto do país, pois, uma vez identificada a equação de regressão linear,
qualquer valor poderá ser substituído na igualdade que define tal situação e, assim, detectar a
solução que norteia essa problemática.
Figura 4 - Gráfico de dispersão com sua respectiva equação de regressão e coeficiente de regressão linear.
Fonte: Elaborada pela autora, 2020.
Teste seus conhecimentos
(Atividade não pontuada)
No decorrer desta unidade, aprendemos que a variância e o desvio-
padrão são ferramentas úteis para verificar o quanto os dados
obtidos por uma pesquisa estão dispersos em torno do foco central,
ou seja, da média aritmética. Assim, por essa análise, constatamos
sua aplicabilidade.
Também foi possível descrever e avaliar a significância das relações
entre variáveis, quando essas são organizadas no formato de pares
ordenados, por meio do uso de técnicas de correlação, que avaliam
a qualidade entre as relações a partir da determinação do
coeficiente de correlação linear. Também estudamos que a
regressão linear corresponde ao processo que possibilita a previsão
de resultados.
Nesta unidade, você teve a oportunidade de:
Conclusão
calcular a variância e desvio-padrão de dados não agrupados;
calcular a variância e desvio-padrão de dados agrupados;
distinguir a relação de variância e desvio-padrão para dados
populacionais e amostrais;
compreender e aplicar o conceito de correlação;
compreender e aplicar o conceito de regressão linear;
elaborar a reta de ajuste linear;
interpretar o coeficiente de correlação linear.
CASTANHEIRA, N. P. Estatística aplicada a todos os níveis.
Curitiba: Intersaberes, 2013.
CRESPO, A. A. Estatística Fácil. 19. ed. São Paulo: Saraiva,
2009.
DEVORE, J. L. Probabilidade e estatística para engenharia e ciências. São Paulo:
Cengage, 2019.
ESTATÍSTICA – Aula 25. [S. l.: s. n.], 2017. 1 vídeo (25 min.). Publicado pelo canal
UNIVESP. Disponível em: https://www.youtube.com/watch?v=v6kI-9s2Qhk
(https://www.youtube.com/watch?v=v6kI-9s2Qhk). Acesso em: 26 dez. 2020.
FREUND, J. E., SIMON, G. A. S. Estatística Aplicada: economia, administração e
contabilidade. Porto Alegre: Bookman, 2009.
KREMER, G. M.; DEINA, C.; SIQUEIRA, H. Correlação e regressão linear de variáveis
que interferem o produto interno bruto do Brasil: uma análise estatística de dados.
Revista Gestão Industrial, Ponta Grossa, v. 15, n. 2, p. 233-254, abr./jun. 2019.
LARSON, R.; FARBER, B. Estatística Aplicada. 6. ed. São Paulo: Pearson, 2016.
MARTINS, G. A.; DOMINGUES, O. Estatística Geral e Aplicada. São Paulo: Atlas,
2017.
MILONE, G. Estatística Geral e Aplicada. Rio de Janeiro: Thomson,2006.
MORETTIN, P.A., BUSSAB, W.O. Estatística Básica, 8. ed. São Paulo: Saraiva, 2010.
Referências
https://www.youtube.com/watch?v=v6kI-9s2Qhk