Baixe o app para aproveitar ainda mais
Prévia do material em texto
Inserir Título Aqui Inserir Título Aqui Estatística Aplicada a Análise de Dados Análises das Relações em Estatística: Correlações, Regressões, Aplicações e Análises Responsável pelo Conteúdo: Profa. Dra. Marise de Barros Miranda Gomes Revisão Textual: Profa. Dra. Selma Aparecida Cesarin Nesta unidade, trabalharemos os seguintes tópicos: • Introdução ao Tema • Orientações para Leitura Obrigatória • Material Complementar Fonte: iStock/Getty Im ages Objetivos • O principal objetivo da análise das relações é, a partir de variáveis conhecidas associadas, estimar resultados associados a variáveis não conhecidas. Caro Aluno(a)! Normalmente, com a correria do dia a dia, não nos organizamos e deixamos para o último momento o acesso ao estudo, o que implicará o não aprofundamento no material trabalhado ou, ainda, a perda dos prazos para o lançamento das atividades solicitadas. Assim, organize seus estudos de maneira que entrem na sua rotina. Por exemplo, você poderá escolher um dia ao longo da semana ou um determinado horário todos ou alguns dias e determinar como o seu “momento do estudo”. No material de cada Unidade, há videoaulas e leituras indicadas, assim como sugestões de materiais complementares, elementos didáticos que ampliarão sua interpretação e auxiliarão o pleno entendimento dos temas abordados. Após o contato com o conteúdo proposto, participe dos debates mediados em fóruns de discussão, pois estes ajudarão a verificar o quanto você absorveu do conteúdo, além de propiciar o contato com seus colegas e tutores, o que se apresenta como rico espaço de troca de ideias e aprendizagem. Bons Estudos! Análises das Relações em Estatística: Correlações, Regressões, Aplicações e Análises UNIDADE Análises das Relações em Estatística: Correlações, Regressões, Aplicações e Análises Introdução ao Tema Considerando alguns objetivos na análise de dados, vale reforçar que podem ser aplicados diferentes métodos analíticos em um mesmo conjunto de dados, para con- firmar o estudo, refutá-lo, restituir respostas individualizadas ou coletivas, sintetizá-las, transformar os dados originais em sumarizações, recodificá-los ou acrescer cálculos correspondentes a esses conjuntos. Não basta, portanto, só as análises estatísticas que descrevem, explicam e classificam. Os métodos analíticos correspondem a uma ou mais variáveis; são individuais ou coletivos; atingem a população ou só a amostra. As sínteses, consideradas analíticas, podem compor as estratificações, os filtros ou as discretizações. A estratificação ou estrato é uma estrutura formada por camadas ou faixas. Os fil- tros, quando aplicados, reduzem a concentração ou a dispersão do conjunto de dados. As discretizações são empregadas para dividir ou particionar uma população em par- tes, amostras em partes menores, para diminuir a complexidade e facilitar as análises e os cálculos analíticos. Mas todas as técnicas anteriores referem-se a uma ou mais variáveis, que encon- tram respaldo em três métodos de análise: • Análise univariada A população ou amostra é descrita pelo exame de uma va- riável a cada vez. É a forma mais simplista de geração de informação analítica. Se a variável é quantidade de pessoas por faixa etária, podem ser construídos gráficos, interações entre os segmentos das faixas, permitindo comparações ou sumariza- ções. Por exemplo, faixa de alunos no Ensino Médio, por ano letivo. Esse contexto auxiliará a comparação de quantitativos de alunos por faixa etária, em evolução ao período letivo. A análise univariada já foi estudada na Unidade I; dela fazem parte as técnicas como média, mediana, desvio padrão, amplitude, frequência, a variância e toda forma de tratamento analítico, considerando uma variável. Mas e quando a análise é feita com mais variáveis? A resposta à pergunta anterior, é qual a relação entre as variáveis? Se forem duas variáveis, como medir a correlação entre ambas e quanto estão correlacionadas? Nesse sentido, quando existem duas variáveis, o estudo de suas relações é denomi- nado análise bivariada, quando as relações entre duas variáveis em estudo interessa para prover explicações ou previsões, das quais, os métodos estatísticos permitem inferir ou confirmar as hipóteses formuladas. 6 7 A Tabela a seguir é um exemplo clássico dos funcionários de uma empresa fictícia. Tabela 1 – Funcionários de uma Empresa Funcionário Depart. Grau de Instrução Estado Civil N° Filhos Salário Idade 1 1 1 1 1 2520 23 2 2 3 2 3 3560 40 3 3 3 2 2 6200 35 4 3 2 1 0 4100 27 5 1 1 1 0 1200 18 6 1 2 2 1 2300 28 7 2 2 1 0 2430 42 8 2 1 1 0 1220 19 9 3 2 2 1 2390 22 10 3 2 1 0 4550 26 Fonte: elaborado pela própria autora Tabela 2 Departamento Código Grau de Instrução Código Estado Civil Código Comercial 1 Fundamental 1 Solteiro 1 Escritório 2 Técnico 2 Casado 2 Fábrica 3 Superior 3 Fonte: elaborado pela própria autora Inicialmente, faz-se uma análise univariada do exemplo clássico. Essa análise limita-se a descrever os conjuntos de dados separadamente, mas não seus relacionamentos: Tabela 3 Análise Univariada Medida dept. instruc. civil filho salário idade Mínimo 1.00 1.00 1.0 0.0 1200 18.009 1º Quartil 1.25 1.25 1.0 0.0 2322 22.25 Mediana 2.00 2.00 1.0 0.5 2475 26.50 Média 2.10 1.90 1.4 0.8 3047 28.00 3º Quartil 3.00 2.00 2.0 1.0 3965 33.25 Máximo 3.00 3.00 2.0 3.0 6200 42.00 Fonte: elaborado pela própria autora A análise univariada restringe o modelo, não sendo possível inferir uma relação entre a média da idade e a média salarial, por exemplo. Nesse sentido, algumas perguntas não podem ser respondidas por modelagem des- critiva tão somente, como: • Existe correlação entre a variável grau de instrução e o salário? O grau de instrução melhora a condição salarial? ; 7 UNIDADE Análises das Relações em Estatística: Correlações, Regressões, Aplicações e Análises • Existe correlação entre o estado civil e o salário do funcionário? A técnica de análise da correlação é empregada na análise bivariada, traduzindo se a relação entre uma variável independente afeta a variável dependente. A relação é dada pela seguinte equação da reta, ou seja, uma equação linear: y=a+b*x onde: • y é a variável dependente. • x é a variável independente que influencia y. • a é o coeficiente de interceptação da reta quando x = zero • b é o coeficiente de inclinação da reta. Nesse momento, hipóteses podem ser intuídas, verificando-se o grau de influência de uma variável independente, x, em uma variável dependente, y. No entanto, a força como essa correlação se comporta é dada pelo coeficiente de Pearson. O relacionamento é necessário para comprovar causa e efeito, mas não é suficiente para ser a prova definitiva. Outros testes são necessários, para confirmar ou recusar a hipótese levantada. O coeficiente de correlação é uma ferramenta simples para estimar o grau de re- lacionamento. Esse coeficiente deriva da variância, uma medida de associação seme- lhante à covariância. A covariância é dada por: S x x y y nxy i i = ∑ −( )× −( ) −1 Sxy é a covariância, que é dada pela somatória das diferenças das médias em relação às duas variáveis que se relacionam, x e y, dividida pela amostra. O Coeficiente de Pearson é dado por: r S S Sxy xy x y = × Sxy é a covariância. Sx e Sy é o desvio padrão de cada variável. Uma medida padronizada entre [-1, 1]. Quando r = 1 relação diretamente proporcional. Quando r = –1 relação inversamente proporcional. 8 9 Quando r = 0 ausência de relação. A correlação entre as variáveis civil (estado civil do funcionário) e idade (idade do funcionário) é: Cor = 0.3327432 Isso quer dizer que há uma correlação fraca, tendendo a zero, entre a variável inde- pendente x = civil e a variável dependente y = idade. Nesse sentido, a variável civil não afeta a variável idade. A correlação entre as variáveis instruc (grau de instrução) e civil (estado civil do fun- cionário) é de: Cor = 0.6998542 Noteque a correlação começa a tender para 1; então, começa a hipótese de que a instrução influência o estado civil. Agora, a correlação entre as variáveis civil (estado civil do funcionário) e filho (quan- tidade de filhos por funcionário): Cor = 0.7916667 Note a melhora do coeficiente tendendo a 1, mostrando uma boa relação entre a variável civil (estado civil do funcionário) e filho (quantidade de filhos por funcionário). A hipótese aqui é confirmada pelo resultado do coeficiente: que o estado civil influencia a quantidade de filhos dos funcionários. A escolha da melhor correlação e as variáveis que confirmam a existência de uma relação entre elas permite, ainda, verificar como esse conjunto se comporta e se um modelo linear pode representá-lo. Dessa maneira, aplicando-se a equação de modelagem linear, é possível verificar e prever qual será o comportamento para novos funcionários. Considerando a variável civil e a variável filho, pode-se descrever o modelo linear da seguinte forma: x = civil y = filho y = a + b *x O modelo linear é dado por lm (linear model): lm filho = a + b*civil Ao se calcular o modelo linear, encontram-se os coeficientes da equação e, assim, tem-se o modelo de regressão linear, coeficiente de interceptação da reta quando x = 0 a = -1.417 coeficiente de inclinação da reta b = 1.583 A regressão linear será y = (-1.417) + 1.583 * x 9 UNIDADE Análises das Relações em Estatística: Correlações, Regressões, Aplicações e Análises Com essa equação, é possível calcular a previsão de quais seriam as possíveis quanti- dades de filhos de novos funcionários. Para cada novo dado entrante no conjunto de dados, a calibração do modelo se faz ne- cessária, recalculando-se a nova equação da reta que explica o modelo linear. Quanto me- lhor o coeficiente de correlação melhor o modelo, mais ajustado, menos pontos dispersos. Estudo de caso O valor dos coeficientes do caso em estudo permite recalcular os valores de y para os valores independentes de x. A previsão dos novos valores é: Tabela 4 Funcionário 1 2 3 4 5 6 7 8 9 10 Estado Civil 1 2 2 1 1 2 1 1 2 1 Filhos (medidos) 1 3 2 0 0 1 0 0 1 0 Filhos (previsão) 0,16 1.75 1.75 0.16 0.16 1.75 1.16 0.16 1.75 0.16 Fonte: elaborado pela própria autora Conclusão A aplicação do modelo de regressão linear considera que há uma influência no estado civil e na relação com a quantidade de filhos. O modelo regride para números menores de filhos por funcionário. Figura 1 – Gráfi co de previsão – análise bivariada Fonte: Acervo do conteudista Obviamente, o número resultante previsto requer interpretação e, no caso em es- tudo, não é possível aplicar uma interpretação que desconsidere o valor obtido como inteiro. Portanto, para as situações em que o estado civil é solteiro, não há filhos, e para os funcionários casados, em média 1 filho, em uma análise relativa. 10 11 Análise Multivariada É o contexto em que mais de duas variáveis são estudadas em função do seu relacio- namento. Sua abordagem é complexa e caracterizada pela multiplicidade de variáveis em questão. Importante destacar que a análise multivariada repousa em técnicas empre- gadas que vão desde a análise univariada até as combinadas com bivariadas e outras, que significam múltiplas combinações de variáveis e não somente a quantidade de variáveis ou observações. Aqui, apresentar-se-á a abordagem mais generalista, existindo outras mais completas e complexas. Tomando como base a análise bivariada, a multivariada é um incremento na análise bivariada: y= a + b1 *x1 + b2 *x2 + ....... bn *xn Nesse sentido, o resultado do estudo de caso equivaleria as seguintes relações matriciais: Figura 2 – Matriz multivariada do estudo de caso Fonte: Acervo do conteudista Nota-se que a matriz foi carregada de maneira completa. O interesse no estudo deve ser realizado desconsiderando-se as variáveis func e dept. Sendo assim, a carga dos da- dos deve ser relativa, e seu estudo também. 11 UNIDADE Análises das Relações em Estatística: Correlações, Regressões, Aplicações e Análises Figura 3 – Matriz multivariada do estudo de caso específi co de interesse Fonte: Acervo do conteudista Nota-se que o interesse específico está na intersecção das variáveis instruc, civil, filho, salário e idade, entre os triângulos vermelho e azul, no desenho gráfico. É a partir dessas correlações que se pode compreender a força com que uma variável impulsiona a outra. Assim, com o cálculo das correlações múltiplas, verifica-se que há forte interação entre: instruc x idade civil x filho salário x instru Em geral, a força da correlação destes relacionamentos chegou a 77% em média. Isto remete à ideia de que há forte influência, em torno de 77%, e que outras relações/ variáveis podem contribuir em menor percentual. Nota-se a complexidade da análise e, assim, é possível incluir várias hipóteses, que podem ser confirmadas ou refutadas. Infere-se que instruc é uma variável que se rela- ciona em maior frequência, pois aparece duas vezes, com alto grau de relacionamento, combinado com idade e salário. A composição poderia denotar uma equação preditiva da seguinte maneira: instruc = a + b1*idade + b2*salario Também, é possível criar uma hipótese a partir da seguinte resultante: w = lm (instruc~idade + civil~filho + salario ~instruc) 12 13 Outros modelos lineares e não lineares podem ser concebidos a partir dos conjuntos de correlações encontrados. Observa-se que é o modelo quem retorna o comportamento dos dados, denotando que a variável instrução (instruc) relaciona-se à idade e ao salário. Importante ressaltar que essa inferência é resultado da análise dessas medidas do conjunto de dados e serve para calibrar o modelo. No entanto, a partir desse modelo e de novas medidas e correções, ajustes e novas calibrações devem ser atualizadas. O modelo tende sempre a uma estabilidade ao longo do tempo, desde que não receba influências externas de variáveis não controláveis. O modelo regressor da análise multivariada é também um modelo linear. Outros podem ser adaptados, dependendo do conjunto de dados. Essa é sem dúvida o mais difundindo, assimilável e implementável. Utilizar a técnica multivariada a partir de modelos lineares e suas correlações traz ganhos computacionais e análises mais rápidas. Embora os dados do estudo de caso não tenham volumetria, ainda assim, é possível visualizar as confirmações de que, para as melhores correlações identificadas, há também a regressão de modelos lineares que sustentam essas relações. As retas em vermelho que cortam os retângulos internamente representam os três modelos lineares apontados pelos melhores coeficientes encontrados nas correlações. 13 UNIDADE Análises das Relações em Estatística: Correlações, Regressões, Aplicações e Análises Orientações para Leitura Obrigatória A análise das relações tem grande aplicabilidade nos mais variados segmentos: Financeiro, Genética, Medicina e Agricultura, entre outros. Em Estatística, há a regressão, que tem por premissa estimar um valor condicional por hipótese. A regressão linear considera que a relação da resposta às variáveis é uma regressão a uma função linear, sendo uma das primeiras formas de análise estudada e usada extensamente em aplicações práticas. Isso ocorre porque modelos dependentes são mais fáceis de ajustar que os modelos que não tem propriedades estatísticas resultantes, por meio de um gráfico, com um modelo de regressão (BUSSAB,2006). Ver Capítulo 9 – “Correlação e regressão”, p. 333-53. In: LARSON, R.; FARBER, B. Estatística aplicada. São Paulo: Pearson Education do Brasil, 2015. 14 15 Material Complementar Indicações para saber mais sobre os assuntos abordados nesta Unidade: Vídeos Correlação Assista ao vídeo sobre Correlação, disponível no Youtube. https://goo.gl/ThcmhM Leitura Caracterização e Modelagem Multivariada do Desempenho de Sistemas de Arquivos ParalelosLeia atentamente Caracterização e modelagem multivariada do desempenho de sistemas de arquivos paralelos. https://goo.gl/TbwdKg Empresa Pernambucana Neurotech aposta no risco. Empresa pernambucana investe em inteligência artificial e big data para automatizar operações. https://goo.gl/GQqudH Vínculos entre Complexidade Econômica, Instituições e Desigualdade de Renda https://goo.gl/1XVwfk 15 UNIDADE Análises das Relações em Estatística: Correlações, Regressões, Aplicações e Análises Referências LARSON, R; FARBER, B. Estatística Aplicada. São Paulo: Pearson Education do Brasil, 2015. TARAPANOFF, K. Análise da Informação para tomada de decisão: desafios e soluções. Curitiba: InterSaberes, 2015. MEDEIROS, L. F. Banco de Dados: princípios e prática. Curitiba: InterSaberes, 2013. LEVIN, J.; FOX, J. A.; FORDE, D. R. Estatística para Ciências Humanas. São Paulo: Pearson Education do Brasil, 2012. 16
Compartilhar