Buscar

Análise de Dados em Estatística

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 18 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 18 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 18 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Inserir Título Aqui 
Inserir Título Aqui
Estatística Aplicada 
a Análise de Dados
Análises das Relações em Estatística: Correlações, 
Regressões, Aplicações e Análises
Responsável pelo Conteúdo:
Profa. Dra. Marise de Barros Miranda Gomes 
Revisão Textual:
Profa. Dra. Selma Aparecida Cesarin
Nesta unidade, trabalharemos os seguintes tópicos:
• Introdução ao Tema
• Orientações para Leitura Obrigatória 
• Material Complementar Fonte: iStock/Getty Im
ages
Objetivos
• O principal objetivo da análise das relações é, a partir de variáveis conhecidas associadas, 
estimar resultados associados a variáveis não conhecidas. 
Caro Aluno(a)!
Normalmente, com a correria do dia a dia, não nos organizamos e deixamos para o 
último momento o acesso ao estudo, o que implicará o não aprofundamento no material 
trabalhado ou, ainda, a perda dos prazos para o lançamento das atividades solicitadas.
Assim, organize seus estudos de maneira que entrem na sua rotina. Por exemplo, você 
poderá escolher um dia ao longo da semana ou um determinado horário todos ou alguns 
dias e determinar como o seu “momento do estudo”.
No material de cada Unidade, há videoaulas e leituras indicadas, assim como sugestões 
de materiais complementares, elementos didáticos que ampliarão sua interpretação e 
auxiliarão o pleno entendimento dos temas abordados.
Após o contato com o conteúdo proposto, participe dos debates mediados em fóruns de 
discussão, pois estes ajudarão a verificar o quanto você absorveu do conteúdo, além de 
propiciar o contato com seus colegas e tutores, o que se apresenta como rico espaço de 
troca de ideias e aprendizagem.
Bons Estudos!
Análises das Relações em Estatística: Correlações, 
Regressões, Aplicações e Análises
UNIDADE 
Análises das Relações em Estatística: Correlações, Regressões, Aplicações e Análises
Introdução ao Tema
Considerando alguns objetivos na análise de dados, vale reforçar que podem ser 
aplicados diferentes métodos analíticos em um mesmo conjunto de dados, para con-
firmar o estudo, refutá-lo, restituir respostas individualizadas ou coletivas, sintetizá-las, 
transformar os dados originais em sumarizações, recodificá-los ou acrescer cálculos 
correspondentes a esses conjuntos. Não basta, portanto, só as análises estatísticas que 
descrevem, explicam e classificam. 
Os métodos analíticos correspondem a uma ou mais variáveis; são individuais ou 
coletivos; atingem a população ou só a amostra. 
As sínteses, consideradas analíticas, podem compor as estratificações, os filtros ou 
as discretizações. 
A estratificação ou estrato é uma estrutura formada por camadas ou faixas. Os fil-
tros, quando aplicados, reduzem a concentração ou a dispersão do conjunto de dados. 
As discretizações são empregadas para dividir ou particionar uma população em par-
tes, amostras em partes menores, para diminuir a complexidade e facilitar as análises 
e os cálculos analíticos. 
Mas todas as técnicas anteriores referem-se a uma ou mais variáveis, que encon-
tram respaldo em três métodos de análise:
• Análise univariada  A população ou amostra é descrita pelo exame de uma va-
riável a cada vez. É a forma mais simplista de geração de informação analítica. Se 
a variável é quantidade de pessoas por faixa etária, podem ser construídos gráficos, 
interações entre os segmentos das faixas, permitindo comparações ou sumariza-
ções. Por exemplo, faixa de alunos no Ensino Médio, por ano letivo. Esse contexto 
auxiliará a comparação de quantitativos de alunos por faixa etária, em evolução ao 
período letivo. A análise univariada já foi estudada na Unidade I; dela fazem parte as 
técnicas como média, mediana, desvio padrão, amplitude, frequência, a variância e 
toda forma de tratamento analítico, considerando uma variável. 
Mas e quando a análise é feita com mais variáveis?
A resposta à pergunta anterior, é qual a relação entre as variáveis? Se forem duas 
variáveis, como medir a correlação entre ambas e quanto estão correlacionadas?
Nesse sentido, quando existem duas variáveis, o estudo de suas relações é denomi-
nado análise bivariada, quando as relações entre duas variáveis em estudo interessa 
para prover explicações ou previsões, das quais, os métodos estatísticos permitem 
inferir ou confirmar as hipóteses formuladas. 
6
7
A Tabela a seguir é um exemplo clássico dos funcionários de uma empresa fictícia.
Tabela 1 – Funcionários de uma Empresa
Funcionário Depart.
Grau de 
Instrução
Estado Civil N° Filhos Salário Idade
1 1 1 1 1 2520 23
2 2 3 2 3 3560 40
3 3 3 2 2 6200 35
4 3 2 1 0 4100 27
5 1 1 1 0 1200 18
6 1 2 2 1 2300 28
7 2 2 1 0 2430 42
8 2 1 1 0 1220 19
9 3 2 2 1 2390 22
10 3 2 1 0 4550 26
Fonte: elaborado pela própria autora
Tabela 2
Departamento Código
Grau de 
Instrução
Código Estado Civil Código
Comercial 1 Fundamental 1 Solteiro 1
Escritório 2 Técnico 2 Casado 2
Fábrica 3 Superior 3
Fonte: elaborado pela própria autora
Inicialmente, faz-se uma análise univariada do exemplo clássico. Essa análise limita-se 
a descrever os conjuntos de dados separadamente, mas não seus relacionamentos:
Tabela 3
Análise Univariada
Medida dept. instruc. civil filho salário idade
Mínimo 1.00 1.00 1.0 0.0 1200 18.009
1º Quartil 1.25 1.25 1.0 0.0 2322 22.25
Mediana 2.00 2.00 1.0 0.5 2475 26.50
Média 2.10 1.90 1.4 0.8 3047 28.00
3º Quartil 3.00 2.00 2.0 1.0 3965 33.25
Máximo 3.00 3.00 2.0 3.0 6200 42.00
Fonte: elaborado pela própria autora
A análise univariada restringe o modelo, não sendo possível inferir uma relação entre 
a média da idade e a média salarial, por exemplo. 
Nesse sentido, algumas perguntas não podem ser respondidas por modelagem des-
critiva tão somente, como: 
• Existe correlação entre a variável grau de instrução e o salário? O grau de instrução 
melhora a condição salarial? ;
7
UNIDADE 
Análises das Relações em Estatística: Correlações, Regressões, Aplicações e Análises
• Existe correlação entre o estado civil e o salário do funcionário?
A técnica de análise da correlação é empregada na análise bivariada, traduzindo se a 
relação entre uma variável independente afeta a variável dependente. 
A relação é dada pela seguinte equação da reta, ou seja, uma equação linear: 
y=a+b*x
onde: 
• y é a variável dependente. 
• x é a variável independente que influencia y.
• a é o coeficiente de interceptação da reta quando x = zero
• b é o coeficiente de inclinação da reta.
Nesse momento, hipóteses podem ser intuídas, verificando-se o grau de influência de 
uma variável independente, x, em uma variável dependente, y. 
No entanto, a força como essa correlação se comporta é dada pelo coeficiente de Pearson. 
O relacionamento é necessário para comprovar causa e efeito, mas não é suficiente 
para ser a prova definitiva. Outros testes são necessários, para confirmar ou recusar a 
hipótese levantada. 
O coeficiente de correlação é uma ferramenta simples para estimar o grau de re-
lacionamento. Esse coeficiente deriva da variância, uma medida de associação seme-
lhante à covariância.
A covariância é dada por:
S
x x y y
nxy
i i
=
∑ −( )× −( )
−1
Sxy é a covariância, que é dada pela somatória das diferenças das médias em relação 
às duas variáveis que se relacionam, x e y, dividida pela amostra. 
O Coeficiente de Pearson é dado por:
r
S
S Sxy
xy
x y
=
×
Sxy é a covariância. Sx e Sy é o desvio padrão de cada variável.
Uma medida padronizada entre [-1, 1].
Quando r = 1  relação diretamente proporcional. 
Quando r = –1  relação inversamente proporcional. 
8
9
Quando r = 0  ausência de relação.
A correlação entre as variáveis civil (estado civil do funcionário) e idade (idade do 
funcionário) é:
Cor = 0.3327432
Isso quer dizer que há uma correlação fraca, tendendo a zero, entre a variável inde-
pendente x = civil e a variável dependente y = idade. Nesse sentido, a variável civil não 
afeta a variável idade. 
A correlação entre as variáveis instruc (grau de instrução) e civil (estado civil do fun-
cionário) é de:
Cor = 0.6998542
Noteque a correlação começa a tender para 1; então, começa a hipótese de que a 
instrução influência o estado civil. 
Agora, a correlação entre as variáveis civil (estado civil do funcionário) e filho (quan-
tidade de filhos por funcionário): 
Cor = 0.7916667
Note a melhora do coeficiente tendendo a 1, mostrando uma boa relação entre a 
variável civil (estado civil do funcionário) e filho (quantidade de filhos por funcionário). 
A hipótese aqui é confirmada pelo resultado do coeficiente: que o estado civil influencia 
a quantidade de filhos dos funcionários. 
A escolha da melhor correlação e as variáveis que confirmam a existência de uma 
relação entre elas permite, ainda, verificar como esse conjunto se comporta e se um 
modelo linear pode representá-lo. 
Dessa maneira, aplicando-se a equação de modelagem linear, é possível verificar e 
prever qual será o comportamento para novos funcionários. 
Considerando a variável civil e a variável filho, pode-se descrever o modelo linear da 
seguinte forma: 
x = civil
y = filho y = a + b *x
 O modelo linear é dado por lm (linear model):
lm  filho = a + b*civil
Ao se calcular o modelo linear, encontram-se os coeficientes da equação e, assim, 
tem-se o modelo de regressão linear,
coeficiente de interceptação da reta quando x = 0  a = -1.417
coeficiente de inclinação da reta  b = 1.583
A regressão linear será y = (-1.417) + 1.583 * x
9
UNIDADE 
Análises das Relações em Estatística: Correlações, Regressões, Aplicações e Análises
Com essa equação, é possível calcular a previsão de quais seriam as possíveis quanti-
dades de filhos de novos funcionários. 
Para cada novo dado entrante no conjunto de dados, a calibração do modelo se faz ne-
cessária, recalculando-se a nova equação da reta que explica o modelo linear. Quanto me-
lhor o coeficiente de correlação melhor o modelo, mais ajustado, menos pontos dispersos. 
Estudo de caso 
O valor dos coeficientes do caso em estudo permite recalcular os valores de y para os 
valores independentes de x. 
A previsão dos novos valores é:
Tabela 4
Funcionário 1 2 3 4 5 6 7 8 9 10
Estado Civil 1 2 2 1 1 2 1 1 2 1
Filhos 
(medidos) 1 3 2 0 0 1 0 0 1 0
Filhos (previsão) 0,16 1.75 1.75 0.16 0.16 1.75 1.16 0.16 1.75 0.16
Fonte: elaborado pela própria autora
Conclusão
A aplicação do modelo de regressão linear considera que há uma influência no estado 
civil e na relação com a quantidade de filhos. O modelo regride para números menores 
de filhos por funcionário.
Figura 1 – Gráfi co de previsão – análise bivariada
Fonte: Acervo do conteudista
Obviamente, o número resultante previsto requer interpretação e, no caso em es-
tudo, não é possível aplicar uma interpretação que desconsidere o valor obtido como 
inteiro. Portanto, para as situações em que o estado civil é solteiro, não há filhos, e para 
os funcionários casados, em média 1 filho, em uma análise relativa.
10
11
Análise Multivariada
É o contexto em que mais de duas variáveis são estudadas em função do seu relacio-
namento. Sua abordagem é complexa e caracterizada pela multiplicidade de variáveis 
em questão. Importante destacar que a análise multivariada repousa em técnicas empre-
gadas que vão desde a análise univariada até as combinadas com bivariadas e outras, que 
significam múltiplas combinações de variáveis e não somente a quantidade de variáveis 
ou observações.
Aqui, apresentar-se-á a abordagem mais generalista, existindo outras mais completas 
e complexas. 
Tomando como base a análise bivariada, a multivariada é um incremento na 
análise bivariada: 
y= a + b1 *x1 + b2 *x2 + ....... bn *xn
Nesse sentido, o resultado do estudo de caso equivaleria as seguintes relações matriciais:
Figura 2 – Matriz multivariada do estudo de caso
Fonte: Acervo do conteudista
Nota-se que a matriz foi carregada de maneira completa. O interesse no estudo deve 
ser realizado desconsiderando-se as variáveis func e dept. Sendo assim, a carga dos da-
dos deve ser relativa, e seu estudo também.
11
UNIDADE 
Análises das Relações em Estatística: Correlações, Regressões, Aplicações e Análises
Figura 3 – Matriz multivariada do estudo de caso específi co de interesse
Fonte: Acervo do conteudista
Nota-se que o interesse específico está na intersecção das variáveis instruc, civil, filho, 
salário e idade, entre os triângulos vermelho e azul, no desenho gráfico. 
É a partir dessas correlações que se pode compreender a força com que uma variável 
impulsiona a outra. 
Assim, com o cálculo das correlações múltiplas, verifica-se que há forte interação entre:
instruc x idade
civil x filho
salário x instru
Em geral, a força da correlação destes relacionamentos chegou a 77% em média. 
Isto remete à ideia de que há forte influência, em torno de 77%, e que outras relações/
variáveis podem contribuir em menor percentual. 
Nota-se a complexidade da análise e, assim, é possível incluir várias hipóteses, que 
podem ser confirmadas ou refutadas. Infere-se que instruc é uma variável que se rela-
ciona em maior frequência, pois aparece duas vezes, com alto grau de relacionamento, 
combinado com idade e salário. 
A composição poderia denotar uma equação preditiva da seguinte maneira:
instruc = a + b1*idade + b2*salario
Também, é possível criar uma hipótese a partir da seguinte resultante:
w = lm (instruc~idade + civil~filho + salario ~instruc)
12
13
Outros modelos lineares e não lineares podem ser concebidos a partir dos conjuntos 
de correlações encontrados.
Observa-se que é o modelo quem retorna o comportamento dos dados, denotando 
que a variável instrução (instruc) relaciona-se à idade e ao salário. 
Importante ressaltar que essa inferência é resultado da análise dessas medidas do 
conjunto de dados e serve para calibrar o modelo. No entanto, a partir desse modelo 
e de novas medidas e correções, ajustes e novas calibrações devem ser atualizadas. O 
modelo tende sempre a uma estabilidade ao longo do tempo, desde que não receba 
influências externas de variáveis não controláveis. 
O modelo regressor da análise multivariada é também um modelo linear. Outros 
podem ser adaptados, dependendo do conjunto de dados. Essa é sem dúvida o mais 
difundindo, assimilável e implementável. 
Utilizar a técnica multivariada a partir de modelos lineares e suas correlações traz 
ganhos computacionais e análises mais rápidas. 
Embora os dados do estudo de caso não tenham volumetria, ainda assim, é possível 
visualizar as confirmações de que, para as melhores correlações identificadas, há também 
a regressão de modelos lineares que sustentam essas relações. As retas em vermelho 
que cortam os retângulos internamente representam os três modelos lineares apontados 
pelos melhores coeficientes encontrados nas correlações. 
13
UNIDADE 
Análises das Relações em Estatística: Correlações, Regressões, Aplicações e Análises
Orientações para Leitura Obrigatória
A análise das relações tem grande aplicabilidade nos mais variados segmentos: 
Financeiro, Genética, Medicina e Agricultura, entre outros. 
Em Estatística, há a regressão, que tem por premissa estimar um valor condicional 
por hipótese. A regressão linear considera que a relação da resposta às variáveis é uma 
regressão a uma função linear, sendo uma das primeiras formas de análise estudada e 
usada extensamente em aplicações práticas. Isso ocorre porque modelos dependentes são 
mais fáceis de ajustar que os modelos que não tem propriedades estatísticas resultantes, 
por meio de um gráfico, com um modelo de regressão (BUSSAB,2006).
Ver Capítulo 9 – “Correlação e regressão”, p. 333-53. In: LARSON, R.; FARBER, B. 
Estatística aplicada. São Paulo: Pearson Education do Brasil, 2015.
14
15
Material Complementar
Indicações para saber mais sobre os assuntos abordados nesta Unidade:
 Vídeos
Correlação
Assista ao vídeo sobre Correlação, disponível no Youtube.
https://goo.gl/ThcmhM
 Leitura
Caracterização e Modelagem Multivariada do Desempenho de Sistemas de Arquivos ParalelosLeia atentamente Caracterização e modelagem multivariada do desempenho de sistemas 
de arquivos paralelos. 
https://goo.gl/TbwdKg
Empresa Pernambucana Neurotech aposta no risco.
Empresa pernambucana investe em inteligência artificial e big data para automatizar operações.
https://goo.gl/GQqudH
Vínculos entre Complexidade Econômica, Instituições e Desigualdade de Renda
https://goo.gl/1XVwfk
15
UNIDADE 
Análises das Relações em Estatística: Correlações, Regressões, Aplicações e Análises
Referências
LARSON, R; FARBER, B. Estatística Aplicada. São Paulo: Pearson Education do 
Brasil, 2015.
TARAPANOFF, K. Análise da Informação para tomada de decisão: desafios e 
soluções. Curitiba: InterSaberes, 2015.
MEDEIROS, L. F. Banco de Dados: princípios e prática. Curitiba: InterSaberes, 2013.
LEVIN, J.; FOX, J. A.; FORDE, D. R. Estatística para Ciências Humanas. São Paulo: 
Pearson Education do Brasil, 2012.
 
16

Continue navegando