Baixe o app para aproveitar ainda mais
Prévia do material em texto
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 1/52 ANÁLISE DEANÁLISE DE REGRESSÃOREGRESSÃO UNIVARIADAUNIVARIADA UNIDADE 1 – ASSOCIAÇÃOUNIDADE 1 – ASSOCIAÇÃO E CAUSAÇÃOE CAUSAÇÃO Autor: Antonio Carlos Fonseca PontesAutor: Antonio Carlos Fonseca Pontes Revisor: Catia AlmeidaRevisor: Catia Almeida INICIAR Introdução Caro(a) estudante, Prepare-se para uma nova experiência na área. Nesta primeira unidade da disciplina Análise de Regressão Univariada, associação e causação, você irá ampliar os seus horizontes, adentrando em uma atmosfera bivariada. Naturalmente que essa ampliação gera maiores dificuldades, tanto do ponto de vista teórico como prático, mas, ao mesmo tempo, você estará em uma atmosfera mais realista, utilizável e prática. Você verá como é estudada a associação entre variáveis através dos coeficientes de correlação mais utilizados. A verificação do relacionamento entre variáveis, sem a preocupação com a causação neste primeiro momento, tem como objetivo observar o comportamento de um conjunto de variáveis populacionais, através de suas amostras. O texto reflete as 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 2/52 1.1 Aspectos gerais Ao iniciar uma nova disciplina, espera-se que uma nova janela seja aberta para você e despontem novas aplicações. Uma disciplina dentro de um curso não é isolada, mas faz parte de um conjunto de conhecimentos que é agregado aos anteriormente adquiridos. Esta nova disciplina, denominada Análise de Regressão Univariada, é mais um elemento deste conjunto que pretende abrir novas possibilidades de aplicações da Estatística. Alguns conhecimentos básicos, adquiridos em outras disciplinas, serão utilizados nesta e deverão ser revistos por você antes de iniciar. Incluem-se os seguintes tópicos: a. Análise descritiva de dados: medidas de posição (média e mediana), medidas de dispersão (variância, desvio-padrão, covariância); b. Análise gráfica: gráficos cartesianos de pontos e box-plot (diagrama de caixas), com a verificação de dados discrepantes ( outliers ); c. Probabilidade: distribuição normal, distribuição t de Student, distribuição F de Snedecor e distribuição bivariada (binormal); d. Verificação de normalidade de dados, através dos testes de Shapiro-Wilk ou Kolmogorov-Smirnov ou ainda outro teste de normalidade estudado; e. Verificação do ajuste de um conjunto de pares de dados à distribuição binormal; f. Intervalos de confiança: entendimento do que é um intervalo de confiança e como é construído; g. Testes de hipóteses: construção de um teste de hipóteses estatístico e condições para sua rejeição ou não rejeição. preocupações com a utilização correta desta ferramenta poderosa que é a correlação e algumas armadilhas que poderão ser colocadas no seu caminho na interpretação dos resultados. Bons estudos! 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 3/52 Assim, a abertura deste novo horizonte para você é condicional, ou seja, é necessário que você tenha base de sustentação para poder caminhar em direção a estes novos conhecimentos. Naturalmente, alguns destes conhecimentos básicos, que pressupomos conhecidos, deverão ser revistos sob a ótica dos novos conceitos que serão incluídos para gerar novos conhecimentos e, consequentemente, a possibilidade de novas aplicações. Os estudos nas disciplinas anteriores em geral tratavam as variáveis de forma isolada, buscando verificar a distribuição que melhor se adaptava aos dados obtidos e às estimativas de seus parâmetros (média e variância). Entretanto, sabe-se que os fenômenos não ocorrem de forma univariada. Assim, chega o momento de ampliar um pouco o seu espectro, observando duas ou mais variáveis de forma conjunta. Para tal, inicialmente, temos dois aspectos a serem considerados: a associação e causação (observe a interação): Associação e causação » Clique nas setas ou arraste para visualizar o conteúdo No presente caso, a associação é mensurada através de coeficientes de correlação, enquanto a causação, em geral, leva à necessidade de estabelecer o tipo de relação existente entre a variável independente e a dependente através de métodos de regressão, no caso de variáveis quantitativas. A associação refere-se ao relacionamento entre as variáveis, ou seja, se existe algum grau de dependência entre elas. CAUSAÇÃO A causação se refere à noção de que a modificação de valores em uma das variáveis (considerada independente) causa modificações na outra (considerada dependente). 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 4/52 Um terceiro conceito que pode ser explorado é o de casualidade. A casualidade, ou aleatoriedade, ocorre quando duas variáveis aparentemente têm um comportamento que indica uma associação e/ou uma causação entre elas quando, na realidade, isto ocorre somente por acaso. Assim, vamos considerar alguns exemplos e ver se há associação, causação ou somente casualidade: » Exemplo 1 Se considerarmos anos de estudo (AE) e rendimento mensal (RM) de um conjunto de pessoas, é possível verificar se há relação entre essas variáveis. Em geral, pessoas com maior número de anos de estudo tendem a ter maiores rendimentos. Naturalmente, o discente vai contra-argumentar que existem diversos casos que ele conhece ou soube de pessoas com poucos anos de estudo que ganham fortunas ou ainda pessoas que estudaram a vida toda para terem um salário mensal baixo. Apesar de parecerem como normais, tais casos são anomalias que ocorrem e, por serem anomalias, acabam chamando mais atenção do que os casos “normais”. » Exemplo 2 Um exemplo na área de agronomia é referente à adubagem. A dose (variável D) de um determinado adubo influencia na produção (variável P). Quanto maior a dose de adubo, maior a produção, certo? Isso é real dentro de certo intervalo de dosagem, mas o aumento excessivo de produtos químicos afeta o solo e faz com que a produção, a partir de uma certa dosagem, comece a decair. Além disso, a aplicação indiscriminada de adubo pode levar ao cansaço do solo e prejudicar futuras colheitas. » Exemplo 3 O número de filhos de um determinado domicílio tem relação com a renda e com a escolaridade da mãe. O aumento da renda e da escolaridade têm sido fatores determinantes no tamanho da prole. Incluindo nesta equação o aumento da expectativa de vida, temos uma situação em que o número de pessoas com idade acima de 60 anos está crescendo, proporcionalmente, em relação à população economicamente ativa, impactando na previdência, no sistema de saúde, etc. 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 5/52 » Exemplo 4 A partir de dados obtidos nos sistemas de informação, vem-se buscando informações que levam a alguma indicação de quais fatores são fundamentais para diminuir o contágio na pandemia da COVID-19. Tem-se preconizado que o uso de máscaras, o distanciamento entre as pessoas, dentre outras ações preventivas, são elementos importantes para a não proliferação desta doença. Entretanto, para realizar experimentos visando a comprovar este tipo de associação, seria necessário expor pessoas não acometidas da doença às situações de risco, o que é eticamente reprovável. No caso do distanciamento, seria necessária a realização de um experimento em que pessoas, com e sem máscara, fossem expostas a pessoas sintomáticas com distâncias controladas (0,5 m, 1 m, 1,5 m, 2 m, 2,5 m, 3,0 m) conversando normalmente, cantando ou discutindo e, a partir disso, aguardar para ver se elas contrairiam a doença. Com isso, talvez fosse possível definir distâncias seguras entre pessoas nas diversas situações. Assim, tais precauções não foram comprovadas por métodos estatísticos, mas foram baseadas em evidências médicas e, principalmente,bom senso. Ainda, países que fizeram o confinamento social, uso massivo de máscaras, dentre outras providências, tiveram menor incidência da doença e de mortes pela COVID-19. » Exemplo 5 Em Psicologia, existem baterias de testes que têm como finalidade verificar a situação de uma determinada pessoa com relação ao grau de estresse, burnout, dentre outras. Esses testes necessitam ser validados para que possam ser utilizados pelos psicólogos. A validação desses testes é feita com base na percepção do profissional em comparação com as pontuações obtidas pelos indivíduos (correlação). Dessa forma, é construída uma categorização. » Exemplo 6 A altura tem relação com o peso de pessoas? Se lembrarmos que a altura das pessoas aumenta até uma certa idade, é possível estabelecer uma relação nessa faixa etária. As crianças são pesadas e medidas, muitas vezes, com o intuito de saber se seu desenvolvimento pode ser considerado normal. Já nos adultos, a altura praticamente não varia, mas o peso sim. Assim, é necessário considerar essas peculiaridades ao estudar essas variáveis conjuntamente. 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 6/52 » Exemplo 7 Algumas variáveis são difíceis de serem mensuradas diretamente. Uma dessas variáveis é a satisfação de uma determinada pessoa em relação a um produto ou um atendimento. Nestes casos, assim como em Psicologia, utilizamos questionários com várias perguntas para poder estabelecer, de forma indireta, qual o nível de satisfação desse consumidor e, ao fim, buscar relacionar o nível de satisfação com a possibilidade desse indivíduo voltar a consumir aquele produto. » Exemplo 8 Seria possível relacionar renda com a distância percorrida pelo indivíduo de casa até seu local de trabalho? Ou seria mais indicado buscar saber a relação entre renda e o tempo médio de deslocamento ao local de trabalho? Neste caso, tem-se três variáveis: renda, distância percorrida e tempo de deslocamento. A distância percorrida tende a ser relacionada com o tempo de deslocamento, mas a associação entre renda e distância ou a renda e o tempo de deslocamento depende fundamentalmente do local (município, região metropolitana) que está sendo avaliado. Entretanto, não é medida a qualidade deste deslocamento (automóvel, serviço de transporte público, vans, ônibus das empresas, etc.). Observa-se que é necessária, portanto, uma visão mais ampla do pesquisador e não somente a obtenção de um resultado numérico de associação ou de causação. » Exemplo 9 A mídia tem hoje inúmeros canais de comunicação. O consumo de mídia se dá através da imprensa física, rádio, transmissão de TV, TV on-line/ streaming , podcasts, videogames, livros/literatura, dentre outros. Para a área do mercado é fundamental saber que tipo de mídia é consumida dentro dos diversos canais e que tipo de pessoa os utiliza. O tipo da pessoa pode se referir à idade, à renda, situação social, etc. Assim, através de pesquisas, é possível estabelecer o tempo de utilização de cada um dos canais de mídia e comparar essa informação com a idade, estrato de renda ou outra variável de interesse. » Exemplo 10 Em muitas situações, os dados obtidos de duas variáveis X e Y indicam uma alta correlação, mas não conseguimos enxergar nenhuma relação entre elas. Nestes casos, 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 7/52 não há nem associação nem causação, ou seja, a correlação obtida ocorre por acaso (casualidade) ou por elas serem relacionadas com uma terceira variável. Por exemplo, a quantidade de sorvete vendida em um determinado estabelecimento de uma cidade (variável X) e o número de casos de dengue no referido município (variável Y) pode gerar um coeficiente de correlação alto. Entretanto, não podemos dizer que o consumo de sorvete causa a dengue ou vice-versa. Neste caso, as duas variáveis são ligadas (linkadas) por uma terceira, que é a temperatura ambiente. A temperatura é correlacionada com o consumo de sorvete e, mais ainda, com o aumento da temperatura a tendência é de aumento do consumo de sorvete, gerando o fenômeno da causação ou causalidade. » Exemplo 11 O número de casos de dengue tem correlação com a quantidade de chuva. Mas porque a dengue tende a afetar mais uma região do município que outra região, supondo o mesmo volume de chuva? Isto porque o volume de chuva é um fator que faz aumentar o número de criadouros dos mosquitos que, por sua vez, possibilita o aumento no número de casos de dengue. O número de criadouros do mosquito está ligado à quantidade de chuva mas, principalmente, aos hábitos de higiene da área do município e da existência ou não de locais que proporcionem que a água fique parada. Assim, na realidade, o número de casos de dengue está correlacionado com o hábito de higiene que, numericamente, pode ser relacionado com o número de criadouros, que aumenta com a quantidade de chuva. Assim, em muitos estudos, verifica-se o efeito da quantidade de chuva ( X ) sobre o número de casos de dengue ( Y ), ou seja, X e Y são associados através de uma terceira variável (número de criadouros), que é difícil de ser mensurada. » Exemplo 12 Outras situações ocorrem nas quais a correlação existe, do ponto de vista numérico, mas não é possível estabelecer nenhuma relação entre as variáveis. Assim, o número mensal de vítimas fatais em acidentes de automóvel nas rodovias paulistas (variável X) poderia, hipoteticamente, estar relacionado com a quantidade mensal produzida de açaí no estado do Acre (variável Y) em um determinado ano, mas não existe nenhum indício de relacionamento entre estas variáveis. Neste caso, observamos um movimento casual (casualidade ou aleatoriedade), que gerou uma situação em que a associação mensurada é espúria (ou sem sentido). 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 8/52 Após ler este texto você deverá ser capaz de verificar se existe alguma relação entre pares de variáveis como peso e altura de pessoas, população e área de países ou municípios, notas de alunos em disciplinas diferentes, peso e pressão sistólica, idade e níveis de colesterol, dentre outros. Caso se perceba esta relação, verificar se ela é consistente tanto do ponto de vista estatístico como do ponto de vista da coerência. Lembrando ainda que a primeira unidade contempla o início de uma ampliação dos conhecimentos da Estatística, sendo ainda uma preparação para as unidades posteriores. Assim, depois de saber se existe relação entre as variáveis, nas etapas posteriores buscaremos descobrir qual a forma dessa relação (linear ou não linear). VAMOS PRATICAR Que tal buscar novas associações, além daquelas apresentadas nos exemplos acima? Você está convidado a pensar e apresentar cinco combinações de variáveis que tendem a ser relacionadas. Entretanto, você deve lembrar que a associação deve ser analisada de forma ampla nos seus aspectos, mas restrita na condição temporal e geográfica. Uma associação pode ser verdadeira em uma determinada parte do País, mas não ter validade em outra. Por outro lado, uma relação pode ser válida hoje, mas não ter o mesmo resultado em outra época. A ideia é não só apresentar a possibilidade de associação, mas também entender sua amplitude e suas restrições. Que tal começar com as variáveis “consumo de energia elétrica” e “renda familiar”? E qual o comportamento do “valor de seguro de automóvel” e a “idade do segurado”? E se o seguro for de vida, a mesma associação é válida? 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 9/52 1.2 Correlação linear de Pearson Karl Pearson, em 1896, criou um coeficiente de correlação que, além de ser adimensional, varia no intervalo de -1 a +1. Esse coeficiente, denominado coeficiente de correlação de Pearson (CCP), utiliza as variáveis X e Y de forma padronizada(estandartizada) no seu cálculo. Aliás, você tem interesse em história? O conhecimento é adquirido a partir de necessidades de expansão de negócios, da curiosidade humana em relação ao seu papel no universo, das possibilidades de obter vantagens sobre seus adversários, dentre outros fatores. O desenvolvimento da Estatística acompanha, naturalmente, fatos históricos e, em alguns casos, é fruto de situações fortuitas. Observe a interação a seguir. Cronologia da estatística na Antiguidade (a.C.) » Clique nas abas para saber mais sobre o assunto Fonte: PERDONA, G. Mundo. Portal da Cronologia da Estatística , [s.l.], [s.d.]. Disponível em: < http://redeabe.org.br/historia_estatistica/ >. Acesso em: 14 dez. 2020. Assim, voltando ao coeficiente de correlação de Pearson, que também pode ser denominado de produto momento, gerado a partir da covariância após sua padronização. Supondo as variáveis aleatórias X e Y, mensuradas sobre um mesmo elemento i, com i variando do 1 a N (no caso populacional) ou de 1 a n (no caso da amostra), temos, para a obtenção do coeficiente de correlação de Pearson: 5000 a.C 2000 a.C 1500 a.C 1100 a.C 585 a.C 540 a.C 430 a.C 400 a.C 300 a.C 140 a.C 100 a.C http://redeabe.org.br/historia_estatistica/ 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 10/52 #PraCegoVer : inicialmente, temos a interação entre as variáveis X e Y; em B, a variável X menos a média de X é dividida pelo desvio- padrão de X e a variável Y menos a média de Y é dividida pelo desvio-padrão de Y; em C, utiliza-se a função soma, com índice de 1 até N de X índice i menos a média de X, que é dividida pelo desvio- padrão de X, tudo isto multiplicado por Y índice i menos a média de Y, dividido pelo desvio-padrão Y; em D, colocamos os desvios padrões em evidência na equação, ou seja, 1 divide a multiplicação entre o desvio-padrão de X e o desvio-padrão de Y, que é multiplicado pelo somatório, que vai de 1 a N, de X índice i menos a média de X, que é multiplicado pela diferença entre Y índice i menos a média de Y. A sequência de obtenção do coeficiente de correlação se inicia em A, na qual temos as variáveis X e Y que, em B, são padronizadas. Na sequência, em C, são utilizados os dados populacionais e, por último, em D, fazemos as operações algébricas para obtenção do referido coeficiente, baseados no produto. O coeficiente de correlação de Pearson (ou simplesmente coeficiente de correlação), denotado por ρ, é, portanto, a covariância dos dados dividida pelos respectivos desvios padrões, indicando a padronização (estandartização) deste parâmetro. O ρ é o parâmetro populacional que tem sua estimativa dada por r, que é obtida substituindo os parâmetros da equação (1) pelas suas respectivas estimativas. Assim, tem-se que: 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 11/52 #PraCegoVer : para a fórmula do coeficiente de correlação tem-se n o tamanho da amostra, r o coeficiente de correlação amostral, X e Y as variáveis, x-barra a média de X, y-barra a média de Y, sx o desvio- padrão de X, sy o desvio-padrão de Y e os somatórios variando sempre de 1 até n. Assim r é igual ao somatório da multiplicação de (abre parênteses) x índice i menos x-barra (fecha parênteses) multiplicado por, (abre parênteses) y índice i menos y-barra (fecha parênteses), tudo isso dividido pela multiplicação de sx com o sy. Isto equivale à covariância estimada entre x e y dividida pela multiplicação do desvio-padrão de x pelo desvio-padrão de y. Uma terceira forma do coeficiente de correlação é: no numerador temos o somatório da multiplicação entre X e Y, ambos com o índice i, menos (abre parênteses) o somatório da variável x índice i (fecha parênteses), vezes (abre parênteses) o somatório em i da variável y índice i (fecha parênteses); estes dois somatórios são divididos por n. No denominador: raiz quadrada (abre colchete) da soma de x índice i ao quadrado menos (abre parênteses) o quadrado da soma de x índice i (fecha parênteses) dividido por n (fecha colchete) vezes (abre colchete) a soma de y índice i ao quadrado menos (abre parênteses) o quadrado da soma de y índice i (fecha parênteses) dividido por n (fecha colchete). É possível demonstrar que o valor do coeficiente de correlação de Pearson está entre -1 e 1, ou seja, o valor absoluto do coeficiente de correlação é menor ou igual a 1, utilizando a desigualdade de Cauchy-Stewart (Bonelli, 2017). Como percebemos, o sinal do coeficiente depende do sinal da covariância, já que o denominador é sempre positivo (sx > 0 e sy > 0). O sinal da covariância será positivo se, em geral, as diferenças entre os valores e suas médias tiverem os mesmos sinais (+ e +; - e -). Isto significa que o aumento em uma variável implica no aumento de outra variável e vice-versa. Por exemplo: estudos indicam que o aumento no número de anos de estudo impacta diretamente no salário da pessoa; outro exemplo, seria o referente à adubagem, no qual 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 12/52 é possível verificar que, dentro de um determinado intervalo que varia em cada caso, o aumento nas doses de adubo faz com que a produtividade aumente. Então, as variáveis tempo de estudo e salário ou, ainda, a dosagem de adubo e produtividade do solo para uma determinada cultura, têm covariância positiva. Se estes sinais forem trocados, no entanto, a covariância tenderá a ser negativa; mas, sinais trocados indicam que, para um mesmo elemento amostral, o aumento de uma variável, em geral, gera a diminuição da outra variável. Assim, por exemplo, o aumento da dose de um remédio para a dor implica na diminuição desta dor. Portanto, para um remédio efetivo, a dosagem (dentro de uma faixa de valores) tem covariância negativa com a dor (medida em uma escala adequada). Assim, a correlação acompanha o sinal da covariância, mas como seu cálculo gera um valor adimensional (sem dimensão ou sem unidade de medida) e limitado entre -1 e 1, é sempre tentador buscar classificar seus resultados em classes, indicando baixa correlação, média correlação ou alta correlação, etc. Entretanto, é necessário ter claro que cada situação deve ser estudada separadamente, já que esse tipo de classificação depende das variáveis: o local de coleta dos dados, época, precisão das informações, tamanho da amostra, etc. Naturalmente que, para situações em que já foram feitos dezenas de estudos de relacionamento entre as variáveis, é possível estabelecer este tipo de classificação, como no caso do coeficiente de variação. VAMOS PRATICAR O artigo de Passos e colaboradores (2012) denominado “Análise estatística da evolução do produto interno bruto da indústria da construção civil brasileira, 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 13/52 utilizando regressão linear simples” é um exemplo de utilização do coeficiente de correlação de Pearson para verificar a associação entre duas variáveis. Faça a leitura do artigo e observe as Tabelas 1, 2 e 3 e o Gráfico 3. Os dados são trimestrais, ou seja, há quatro informações para cada ano estudado (exceto 2012) perfazendo 85 pares. Descubra quais são as variáveis que estão sendo realmente estudadas e se o resultado da correlação apresentado no artigo está de acordo com a sua percepção a respeito destas variáveis? Se os dados fossem anuais e não trimestrais, você esperaria que os resultados fossem idênticos? Assim, uma classificação que pode ser estabelecida é através de gráficos de dispersão já discutidos. Observa-se que, no caso da correlação, a inversão das variáveis, ou seja, a troca de eixos no diagrama de dispersão, pode ser realizada, e o coeficiente não se modificará, ou seja, r = r . O coeficiente de correlação de Pearson, portanto, serve somente para mediras relações lineares e devem ser acompanhadas do teste de hipóteses para termos algum grau de certeza que uma relação numérica existe; já que é possível ainda observar correlação entre duas variáveis, sem que haja realmente relação entre elas (correlações espúrias). 1.2.1 Coeficiente de correlação de postos de Spearman A correlação obtida através do coeficiente de Pearson, que é a medida de correlação mais conhecida, é linear. Assim, nos casos em que a relação entre as variáveis seja não linear (quadrática, cúbica, exponencial, etc.), ela não será medida adequadamente. Nesses casos, os dados devem ser transformados para a obtenção da medida adequada. O coeficiente de correlação de Spearman, que utiliza os dados transformados por seus postos ou ranks, pode ser utilizado nas situações em que a relação entre os pares de dados não é linear. Outra aplicação para o coeficiente de correlação de Spearman é quando as variáveis (ou uma delas) não é adequadamente mensurada ou coletada. Existem casos em que a mensuração só é possível para valores aproximados; outra xy yx 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 14/52 situação é aquela em que a medida é feita em escala ordinal, ou seja, sabe-se a ordem, mas não o valor exato da medida. Nesses casos, a utilização do coeficiente de correlação do Spearman (CCS) é aconselhada. Observa-se que, no caso do CCP, os valores -1 e +1 são apenas hipotéticos e não ocorrem na prática. Para o CCS, é possível a ocorrência desses valores extremos, ou seja, pode ocorrer o valor -1, que indica perfeita correlação negativa ou inversa, ou +1 , que indica perfeita correlação positiva ou direta. Naturalmente, valores negativos da correlação de Spearman indicam que o crescimento de uma das variáveis implica no decrescimento da outra. Valores positivos indicam, em geral, o crescimento ou decrescimento concomitante das duas variáveis consideradas. Para obter o CCS devemos, inicialmente, manualmente, ou com o auxílio de ferramentas computacionais, classificar os dados de uma amostra x1, x2,...,xn-1, xn em ordem crescente. Os dados, ordenados dessa forma, formam uma sequência denotada por x(1), x(2),...,x(n-1), x(n) , onde os parênteses no subscrito indicam ordem. De modo formal, dizemos que x(1), x(2),...,x(n) são as chamadas estatísticas de ordem da amostra, e x(i) indica a i-ésima estatística de ordem, ou seja, a i-ésima observação ordenada. Com base nessa ordenação, pode-se definir o posto ou rank de uma observação. Em geral, tem-se que o posto de x(i) é igual a i , ou seja, o posto é dado pelo subscrito da estatística de ordem. Assim, temos os postos crescentes. Teoricamente, observações empatadas, ou seja, que têm valores iguais, não ocorrem. Na prática, entretanto, tais situações são comuns e, nesse caso, valores equivalentes devem ter postos iguais. Uma maneira encontrada para solucionar tais problemas é considerar, para os casos em que existam empates, a média dos postos. Assim, quando duas observações, que teriam supostamente os postos k e k+1 forem iguais, considera-se a média desses postos para ambas. Assim, o posto para essas observações seria igual a [k+k+1]/2 = k+1/2 . Um procedimento equivalente é feito se há três ou mais observações empatadas. Nesse sentido, a discussão sobre estatísticas de ordem é especialmente útil na definição e aplicação de testes não paramétricos, em que os dados originais são substituídos por 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 15/52 seus respectivos postos. Os testes não paramétricos são poderosos substitutos dos testes paramétricos, especialmente nos casos em que as amostras são pequenas, naqueles em que a distribuição dos dados não é normal ou ainda quando dados discrepantes ( outliers ) ocorrem. Dentre as técnicas não paramétricas, o coeficiente de correlação de Spearman ( r ) é uma das mais conhecidas e utilizadas na prática. Esse coeficiente é utilizado em substituição ao coeficiente de correlação de Pearson ( r ) nos casos em que a binormalidade dos dados não ocorre, bem como em situações envolvendo poucos pares de dados. Dadas duas variáveis, X e Y , cujos valores são Xi e Yi, i = 1, 2, ..., n , podemos relacionar essas variáveis mediante o uso do coeficiente de correlação. O coeficiente de correlação linear de Spearman, conhecido como o coeficiente de correlação de postos, equivale ao coeficiente de correlação de Pearson adaptado aos dados transformados em postos de acordo com a transformação de Wilcoxon. A atribuição de postos, nesse caso, é feita separadamente para cada uma das variáveis. Assim, para a variável X atribui-se o posto 1 à menor variável, posto 2 à segunda menor variável, e assim por diante, até o posto n para a maior variável. O mesmo procedimento é feito para a variável Y , independente dos valores da variável X . Os empates são tratados como usuais, ou seja, valores iguais de cada uma das variáveis devem receber o mesmo posto. Assim, se X = X , ou seja, se os valores de ordem k e de ordem k + 1 estão empatados, para ambos se atribui o posto: #PraCegoVer : (abre parênteses) k mais k mais 1 (fecha parênteses) divido por dois que é igual a (abre parêntesis) duas vezes k (fecha parêntesis) dividido por dois (que é igual a k mais meio). O coeficiente de correlação de postos (Spearman) é dado por: s (k) (k+1) 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 16/52 #PraCegoVer : r índice s (coeficiente de correlação de Spearman) é igual a um menos seis vezes o somatório de d índice i ao quadrado, dividido por n ao cubo menos n. Em que: com P e P variando de 1 a n. #PraCegoVer : d índice i é igual ao posto P (ou rank) de x índice i menos o posto P de y índice i). Sabe-se que: #PraCegoVer : sendo r subscrito s o coeficiente de correlação de Spearman, tem-se o máximo de r subscrito s é igual ao máximo de (abre parênteses) um menos seis vezes o somatório de d índice i ao quadrado, dividido por n ao cubo menos n. Isto equivale a um menos o mínimo de (abre parênteses) seis vezes o somatório de d índice i ao quadrado, dividido por n ao cubo menos n (fecha parênteses) que é igual a um menos o mínimo do (abre parênteses) somatório de d índice i ao quadrado (fecha parênteses), ou seja, um menos zero que é igual a um. A correlação negativa ocorre quando há uma inversão dos valores dos postos da variável Y em relação à variável X . A correlação positiva ocorre se os postos das duas variáveis seguem, aproximadamente, o mesmo padrão. A obtenção de coeficientes de correlação de postos com valores próximos de zero sugere a não existência de correlação entre as duas variáveis. Xi Yi 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 17/52 Pode-se observar que o CCS nada mais é do que o CCP aplicado aos dados transformados em postos. VOCÊ SABIA? O coeficiente de correlação de Pearson pode ser obtido no Excel. Para tal fim, devemos utilizar a função “=correl(matriz1;matriz2)”. Selecionamos, para a matriz1, todos os dados da variável X e, para a matriz2, todos os dados da variável Y . O resultado será dado na célula em que a função foi escrita. Teste seus conhecimentos Atividade não pontuada. 1.3 Gráfico de dispersão Gráficos de dispersão são gráficos cartesianos de pontos nos quais, na abscissa, temos os valores de uma das variáveis (digamos, X ), e na ordenada, a outra variável ( Y ). Como são variáveis que, em geral, têm unidades diferentes, deve-se tomar cuidado com as escolhas das escalas de cada uma das coordenadas, para que a visualização gráfica não seja distorcida. Nestes casos, ainda, nem sempre a escala tem origem no zero, pois a intenção é observar o comportamento conjunto dessas variáveis. O gráfico de dispersão pode servir como um balizador para indicar se há ou não relaçãoentre as variáveis estudadas. A nuvem de pontos formada indica esta relação, mas não a associação ou a causação. Se os pontos estiverem alinhados dentro de uma elipse com inclinação, positiva ou negativa, pode-se intuir que há uma relação entre as variáveis. Se os pontos ficarem inseridos em um círculo ou quadrado é uma indicação de que não há relação entre as variáveis. Ainda, se os pontos se apresentarem em duas ou mais formações distintas, temos um indicador de que temos grupos diferentes num mesmo 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 18/52 gráfico. Observa-se que o Gráfico de Dispersão nos dá uma visão inicial, que deve ser homologada ou não pelo coeficiente de correlação e seu teste de hipóteses. Através dos gráficos de dispersão podemos, antes de realizar os cálculos, observar como os pontos são distribuídos no plano cartesiano e intuir se há e, caso positivo, qual o tipo de relação existente entre as variáveis estudadas. Ainda é possível verificar, neste gráfico de dispersão, a ocorrência ou não de pontos discrepantes ( outliers ). Todos os softwares estatísticos apresentam o gráfico de dispersão em seu menu de alternativas para a plotagem de dados. Existem muitos softwares estatísticos, que são utilizados pelos profissionais que utilizam a Estatística como ferramenta para seus trabalhos. Podemos dividi-los em dois grupos: os de livre acesso e os pagos (veja a interação). Softwares estatísticos » Clique nas abas para saber mais sobre o assunto A preferência por um ou outro destes, em geral, se dá por conta da utilização que se pretende, o valor a ser despendido para a aquisição da licença de uso, dentre outros. Dentre os de livre acesso, o de maior destaque, atualmente, é o R, um software colaborativo extremamente poderoso e que abrange praticamente todas as áreas da Estatística. Por ser colaborativo, ele está sendo atualizado constantemente. Entretanto, o R, em algumas situações, exige um pouco de conhecimento de programação, o que pode complicar sua utilização. Dentre os softwares livres, pode-se destacar o Bioestat (nacional), o GRETL, o OpenStat, dentre outros. Em casos de utilização de técnicas simples, como cálculos de medidas de posição e dispersão, regressão linear simples, correlação, ANOVA, etc. temos uma terceira opção: o uso do Excel ou de seu equivalente. O Excel, apesar de não ser um software livre, vem instalado no pacote Office em muitos dos computadores adquiridos. Entretanto, existe um pacote equivalente ao Office, denominado Libreoffice, no qual está incluso um software equivalente ao Excel, Sofwares de livre acesso Sofwares pagos 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 19/52 denominado CALC. Vamos agora explorar graficamente algumas situações que podem ocorrer quando construímos um gráfico de dispersão: a) As variáveis X e Y têm entre si uma relação linear perfeita positiva (ou direta): X e Y são ligados por uma função linear e, portanto, r = 1 ; este caso ocorre somente na teoria. No exemplo, a cada 3 cm de altura, o indivíduo teria um aumento de 4 kg em seu peso (massa). Gráfico 1 – Peso vs altura – valores hipotéticos Fonte: Elaborado pelo autor, 2020. #PraCegoVer : gráfico com fundo branco em que são incluídos onze pontos amarelos alinhados numa reta com inclinação aproximada de sessenta e seis graus, iniciando no ponto (50,150) e terminando no ponto (90,180). A escala do eixo das abscissas vai de 40 a 100 e a do eixo das ordenadas, de 145 a 185. Os pontos, pintados em amarelo, estão dispostos totalmente na reta Y = 0,75X + 112,5. 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 20/52 b) As variáveis X e Y têm uma relação linear direta, ou seja, o crescimento de uma, em geral, leva ao crescimento da outra e vice-versa; entretanto, essa relação não é perfeita. Assim, temos 0 < r < 1 . É o caso dos dados referentes ao peso (em kg) e altura (em cm) para n = 11 alunos da Universidade Federal do Acre. Gráfico 2 - Peso vs altura – masculino Fonte: Elaborado pelo autor, 2020. #PraCegoVer : figura com onze pontos amarelos plotados num gráfico cartesiano de fundo branco, com o peso na ordenada e a altura na abscissa, para pessoas do sexo masculino. O eixo das abscissas vai de 50 a 95 e o eixo das ordenadas de 160 a 190. Da esquerda para a direita, o primeiro ponto é (55, 165) e o último ponto é (92,185). De baixo para cima, o primeiro ponto também é (55, 165) e o último (92,185). Os pontos estão dispersos como numa elipse com inclinação positiva em relação ao eixo das abscissas. c) A relação linear entre X e Y é inversa, mas não é perfeita, de tal forma que o crescimento de uma variável leva, em geral, ao decrescimento da outra; o valor de r , neste caso, é negativo, ou seja, -1 < r < 0 . No exemplo, foram anotados os pesos e as 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 21/52 alturas de 11 discentes da Universidade Federal do Acre (discussões a respeito deste resultado e do resultado anterior serão feitas ainda neste texto). Gráfico 3 – Peso (em kg) vs altura (em cm) de mulheres Fonte: Elaborado pelo autor, 2020. #PraCegoVer : figura que representa um gráfico de dispersão com pontos amarelos num fundo branco, representando o peso e a altura de onze discentes do sexo feminino. Os pontos estão dispersos numa forma de elipse, com inclinação negativa em relação ao eixo das abscissas. Da esquerda para direita, o primeiro ponto é (45,165) e o último ponto é (67,162); de cima para baixo, o primeiro ponto é (66, 158) e os dois últimos pontos são (49,167) e (52, 167). d) Relação linear inversa perfeita entre X e Y , ou seja, r = -1 , um caso apenas teórico. Gráfico 4 – Exemplo de relação linear inversa perfeita 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 22/52 Fonte: Elaborado pelo autor, 2020. #PraCegoVer : gráfico de pontos amarelos com fundo branco, com os pesos na abscissa e as alturas na ordenada, com valores coincidentes com uma reta que inicia no ponto (50,180) e termina no ponto (90,150). Os pontos estão dispostos sobre a reta Y é igual a menos zero vírgula setenta e cinco X mais 217,5. e) Não é possível verificar relação linear entre as variáveis X e Y e, nesta situação, temos dois casos a considerar: a. Não existe relação entre X e Y ; Gráfico 5 – Exemplo de variáveis não correlacionadas 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 23/52 b. Fonte: Elaborado pelo autor, 2020. #PraCegoVer : gráfico de dispersão com 22 pontos amarelos sobre o fundo branco, com a abscissa de 40 a 75 e a ordenada de 160 a 190. Os pontos amarelos estão espalhados em um retângulo que vai de 45 a 73, na abcissa e de 165 a 185, na ordenada. O espalhamento dos pontos não mostra uma tendência, parecendo que os pontos foram aleatoriamente espalhados pelo retângulo. Da esquerda para direita temos os pontos limites inferiores (45, 167), (45, 175) e (45,182) e o ponto (73,177) como limite superior. No eixo das ordenadas, os pontos limites inferiores são (55,165), (66,165) e (69,165) e os superiores (52,185) e (67,185). Existe relação entre X e Y , mas essa relação não é linear, ou os dados são compostos de dois ou mais grupos. Na primeira situação, estão incluídas relações quadráticas, exponenciais, logarítmicas ou outros tipos de relação não lineares. Na segunda situação, incluem-se aquelas nas quais o pesquisador não separou corretamente as variáveis e, portanto, temos dois ou mais grupos sendo examinados em um mesmo gráfico ou, ainda, dois períodos que deveriam ser observados separadamente. Na situação apresentada na Figura 6, claramente 29/04/23, 11:12 Unidade1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 24/52 temos que as variáveis apresentam um relacionamento (correlação) mas, aparentemente, temos dois blocos que não foram claramente separados. O primeiro, representado pelos pontos em que a variável Y vai de 155 a 168 (e a variável X de 40 a 66), e outro em que a variável Y varia de 169 a 185 (e a variável X varia de 66 a 92). No primeiro grupo, temos uma correlação linear positiva e no segundo grupo uma relação não linear entre X e Y . Nestes casos, percebe-se a necessidade de estudar melhor o conjunto de dados, dividindo-o em dois grupos. Esta situação é geralmente examinada na análise descritiva inicial. Gráfico 6 – Relação entreXeY– situação hipotética Fonte: Elaborado pelo autor, 2020. #PraCegoVer : gráfico de dispersão com dados hipotéticos, no qual os valores aparentemente pertencem a dois grupos: o primeiro, com pontos que variam de 45 a 66, na abscissa e de 157 a 167 na ordenada, apresentam-se na forma de uma elipse com inclinação positiva; o segundo grupo, com pontos que de 66 a 91, na abscissa e de 169 a 185, na ordenada, apresentam a forma de uma função logarítmica. 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 25/52 1.4 Coeficientes de correlação A associação entre duas variáveis pode ser mensurada através de um coeficiente, denominado coeficiente de correlação. O prefixo “co” é encontrado em várias palavras, tais como cooperação (operação conjunta), coordenação (ordenação compartilhada), colaboração (trabalho ou labor conjunto). No caso específico, correlação indica a relação entre duas variáveis, de forma conjunta. Antes de tudo, vamos relembrar a variância e a covariância. A variância é uma medida de dispersão positiva (se for nula, não há variação), calculada pela soma das diferenças quadráticas entre as variáveis e uma medida de posição específica – a média, ponderada pelo tamanho da população (no caso de variância populacional) ou pelo tamanho da amostra, menos uma unidade, no caso em que desejamos obter a variância amostral. Assim, considerando N o tamanho da população, μ a média populacional e os N valores da variável X (X , X , ,X ) , a variância é dada por: #PraCegoVer : sigma ao quadrado é igual a um dividido por ene maiúsculo vezes o somatório que vai de um a ene maiúsculo de (abre parênteses) X índice i menos mu (fecha parênteses) elevado ao quadrado que é igual a um dividido por ene maiúsculo vezes (abre chave) somatório que vai de um a ene maiúsculo de X índice i elevado ao quadrado menos (abre parênteses) somatório que vai de um até ene maiúsculo de X índice i (fecha parênteses) ao quadrado, dividido por ene maiúsculo (fecha colchete). A estimativa da variância, obtida através da amostra com n elementos e com média X , denotada por S é dada por: 1 2 N 2 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 26/52 #PraCegoVer : esse maiúsculo ao quadrado é igual a um dividido por ene minúsculo menos um vezes o somatório que vai de um a ene minúsculo de (abre parênteses) X índice i menos X barra (fecha parênteses) elevado ao quadrado que é igual a um dividido por ene minúsculo menos um vezes (abre colchetes) somatório que vai de um a ene minúsculo de X índice i elevado ao quadrado menos (abre parênteses) somatório que vai de um até ene minúsculo de X índice i (fecha parênteses) ao quadrado, dividido por ene minúsculo (fecha colchetes). O cálculo da variância e da média é conhecido e já praticado anteriormente. Assim, a covariância ou variância conjunta entre duas variáveis X e Y é obtida por: #PraCegoVer : lembrando que todos os somatórios vão de um até ene maiúsculo, covariância de X e Y é igual a um dividido por ene maiúsculo vezes o somatório de (abre parênteses) X índice i menos mu de X (fecha parênteses) (abre parênteses) Y índice i menos mu de Y (fecha parênteses) que é igual a um dividido por ene maiúsculo vezes (abre colchetes) somatório de X índice i vezes Y índice i menos (abre parênteses) somatório de X índice i (fecha parênteses) vezes (abre parênteses) somatório de Y índice i (fecha parênteses) dividido por ene maiúsculo (fecha colchetes). Ou por sua estimativa: 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 27/52 #PraCegoVer : como se trata de uma estimativa, os somatórios vão de um até ene minúsculo e assim, a covariância estimada de X e Y é igual a um dividido por ene maiúsculo menos um vezes o somatório de (abre parênteses) X índice i menos X barra (fecha parênteses) (abre parênteses) Y índice i menos Y barra (fecha parênteses) que é igual a um dividido por ene minúsculo menos um vezes (abre colchete) somatório de X índice i vezes Y índice i menos (abre parênteses) somatório de X índice i (fecha parênteses) vezes (abre parênteses) somatório de Y índice i (fecha parênteses) dividido por ene minúsculo (fecha colchete). A covariância pode variar de: #PraCegoVer : de menos infinito a mais infinito. Temos duas considerações a fazer a respeito da covariância: sua magnitude e seu sinal. Em relação à magnitude, quanto mais distante da média são os valores de X e de Y , maior a covariância. Em relação ao sinal da covariância, esse depende do comportamento conjunto das variáveis. Se a maioria das diferenças entre a variável X e sua média, e entre a variável Y e sua média, tiverem sinais iguais, a covariância tende a ser positiva. Se os sinais forem opostos (+ para X e – para Y ou vice-versa), então a covariância tenderá a ser negativa. A covariância mede, portanto, o quão distante os valores das variáveis X e Y , de forma conjunta, estão de suas respectivas médias. A unidade da covariância é igual à da variância, ou seja, o quadrado da unidade em que a variável foi mensurada. Assim como 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 28/52 no caso da variância, o valor da covariância é comparável somente se os dados forem tomados na mesma unidade e em grupos semelhantes. O tamanho das amostras não é tão decisivo, já que a covariância, assim como a variância, é ponderada em número de graus de liberdade (tamanho da amostra menos uma unidade). Pela covariância, podemos apenas saber qual a direção da relação entre as variáveis – direta, se a covariância for positiva, ou inversa, se a covariância for negativa. Assim, torna-se necessária a obtenção de uma medida que seja independente da escala que estamos trabalhando e que também seja adimensional, além de estar dentro de um intervalo de valores, tornando-o comparável. Na sequência, discutiremos dois coeficientes de correlação utilizados para dados em escalas ordinais, intervalares e de razão. Ademais, é importante lembrar que padronizar ou estandartizar uma variável, no contexto da estatística é realizar a transformação linear que consiste em, para cada valor da variável, subtrair a média e a diferença, dividir pelo desvio-padrão S (no caso de amostras), ou seja: #PraCegoVer : X com índice sti é igual à X índice i menos x barra dividido pelo desvio-padrão de x). Este procedimento foi utilizado, entre outros, para permitir a utilização da distribuição normal padrão em casos em que a média era diferente de zero e a variância diferente de 1. Esta normalização é geralmente apresentada apenas de passagem, como em Bussab & Morettin (2017), mas tem uma importância fundamental na utilização de dados em Estatística. Outros tipos de normalização podem ser encontrados utilizando, por exemplo, a mediana no lugar da média. Entretanto, neste caso, as propriedades matemáticas não são simples como no caso da média. 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 29/52 VOCÊ QUER LER? Para variáveis qualitativas,existem procedimentos específicos que geram, entre outros resultados, coeficientes de correlação como os de Yule, de Kendall, a correlação tetracórica e outros. Tais coeficientes são obtidos a partir de tabelas de contingência que utilizam, em suas células, valores obtidos através de contagens de casos. Para maiores informações sobre a obtenção de tabelas de contingência e as medidas de associação entre variáveis qualitativas, consultar, dentre outros, o Capítulo 8 do livro Métodos Estatísticos para as Ciências Sociais , de Alan Agresti e Barbara Finlay (AGRESTI, A.; FINLAY, B., 2012). 1.4.1 Teste de hipóteses para o coeficiente de correlação Como estamos tratando de inferência estatística, é possível criar um teste de hipóteses para o coeficiente de correlação de Pearson. O coeficiente de correlação de Pearson é um teste estatístico que tem suas etapas de desenvolvimento baseadas nas etapas de construção de um teste de hipótese (1) Definição de hipóteses; (2) Estatística do teste; (3) Regra ou critério de decisão. O teste mais comum é aquele em que a hipótese nula é da não correlação entre as variáveis, ou seja: #PraCegoVer : Agá zero dois pontos letra grega “rô” igual a zero versus Agá um, dois pontos, “rô” diferente de zero. Neste caso, utilizamos o teste t de Student para a seguinte expressão: 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 30/52 #PraCegoVer : r vezes raiz de n menos dois, dividido pela raiz de um menos o quadrado de r tem distribuição de t de Student com n menos 2 graus de liberdade. Ou seja, a expressão tem distribuição t de Student com n-2 graus de liberdade. Observa- se que, nessa expressão, a diferença entre o denominador e o numerador cresce rapidamente quando o tamanho da amostra n cresce. Assim, para valores grandes de n é comum valores baixos de r serem significativos. Nestes casos, é necessária muita cautela na análise do valor- p obtido. Assim, deve-se estar atento para a realização do teste de hipóteses pois, para que ele seja válido, são necessárias algumas pressuposições (veja a interação). Pressuposições para o teste de hipóteses Tais pressuposições são necessárias para que o teste do coeficiente de correlação de Pearson seja consistente. O coeficiente de correlação de Spearman é não paramétrico e estas pressuposições não são necessárias (ver Kendall, 1975). O uso da distribuição t de Student para testar este coeficiente só é adequado do ponto de vista assintótico. Devemos lembrar que o tamanho da amostra, que é suficientemente grande para a utilização de testes estatísticos, não é simples de ser definido. Em alguns casos, em que o ajuste à distribuição normal é obtido, a amostra pode ser menor. Em outras situações, em que os dados não se comportam normalmente, há a presença de dados discrepantes ( outliers ), o tamanho da amostra tem que ser maior para poder gerar testes robustos. Além disso, é importante ressaltar que a interpretação geométrica do coeficiente de correlação de Pearson indica que se X e Y são vetores n -dimensionais, tem-se que ρ = 1ª pressuposição 2ª pressuposição 3ª pressuposição 4ª pressuposição 5ª pressuposição 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 31/52 cos (α) , sendo α o ângulo entre estes vetores. Assim, se ρ = 1, α = 0 (vetores colineares); se ρ = 0, α = 90º (vetores ortogonais) e se ρ = -1; α = 180º (vetores colineares com sentidos opostos). Outros tipos de relacionamento não são mensurados corretamente através do coeficiente de correlação de Pearson, mas podem ser indicados através do coeficiente de determinação ( R ). O coeficiente de determinação, dado por R = r (coeficiente de correlação ao quadrado) é uma medida de força da relação entre as variáveis e pode ser expresso através de percentual, indicando o quanto da variação de Y (variável dependente) é devido à variação de X (variável dependente) no caso em que temos uma relação de causação. Para realizar testes de hipóteses sobre o coeficiente de correlação de Spearman, em geral, utiliza-se o procedimento assintótico aplicado ao coeficiente de correlação de Pearson. Tais procedimentos, entretanto, não são adequados quando o número de pares de variáveis é pequeno. Nesses casos, é possível obtermos o nível de significância (valor- p ) exato para o coeficiente obtido, ou ainda utilizar testes de permutação aleatórios para a obtenção de valores-p aproximados, nos casos em que o número das possíveis permutações é grande. VOCÊ SABIA? Teste para o coeficiente de correlação de Pearson no Excel. Para fazer o teste de hipóteses do coeficiente de correlação no Excel, devemos, primeiramente, calcular o coeficiente, através da função “=correl”. Na sequência, calculamos =r*raiz(n-2)/raiz(1-r*r). Supondo que a amostra foi de 15 elementos e o valor de r foi calculado anteriormente na célula E1, calculamos “=E1*raiz(13)/raiz(1-E1*E1). Teste seus conhecimentos Atividade não pontuada. 2 2 2 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 32/52 1.4.2 Exemplos de aplicação Em sala de aula, são vários os exemplos em que o coeficiente de correlação pode ser utilizado abordando situações (dados) cotidianas. Assim, pode-se calcular o coeficiente de correlação existente entre a altura e o peso dos alunos, entre o número de horas de estudo e a nota obtida, entre as idades do pai e a idade da mãe dos alunos, dentre outros. Outros exemplos podem ser buscados em situações do dia a dia, como, por exemplo, entre o preço de determinados bens duráveis e o número de famílias possuidoras daquele tipo de bem, entre a área construída da residência e o número de membros da família etc. Uma aplicação bem interessante, portanto, é relacionar a pontuação no CCEB (Critério de Classificação Econômica Brasil) e a renda familiar. O CCEB é um indicador da ABEP (Associação Brasileira de Pesquisa) que indica, por meio de uma pontuação para um grupo de bens que uma família possui, qual a classe de renda presumida para aquele determinado domicílio. Outro exemplo hipotético seria aquele em que as variáveis são o preço e o lucro de uma determinada empresa. Quando aumentamos o preço do produto, o lucro da empresa aumenta, certo? Isso pode ser verdade, mas até certo ponto, já que se aumentarmos o preço do produto além de uma certa quantia, as vendas decrescem significativamente, afetando o lucro negativamente. » Exemplo 1 Para exemplificar o cálculo do coeficiente de correlação, utilizaremos parte dos dados de Pontes (2003), que apresenta as notas médias de cinco juízes para a preocupação ambiental de 27 produtores rurais do Assentamento Sumaré II. Detalhes sobre a maneira de obtenção dessas notas podem ser obtidos no trabalho original. Utilizaremos aqui as notas dos primeiros seis moradores (Quadro 1) para que os cálculos sejam mais simples. Quadro 1 – Notas de três juízes para a preocupação ecológica de seis famílias do assentamento Sumaré II CASA JUIZ 1 (IREc1) JUIZ 2 (IREc2) JUIZ 3 (IREc3) 1 2,73,8 2,9 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 33/52 Fonte: PONTES, 2003. » Clique nas setas ou arraste para visualizar as imagens 2 3 4 4,3 5 4,6 6 4,5 2,1 1,7 2,6 4,6 2,2 2,43,3 1,5 4,53,7 4,4 3,1 Gráfico 7 – Gráfico de dispersão - Juiz 1 (X) vs Juiz 2 (Y) Fonte: PONTES, 2003. #PraCegoVer : o gráfico 7 inclui seis pontos amarelos, distribuídos entre os valores 2,1 e 4,4 na abscissa e 1,5 e 4,6, na ordenada, na 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 34/52 forma de uma elipse com inclinação positiva. A abscissa e a ordenada iniciam no ponto 0 e terminam no ponto 5. Os valores dos pontos inseridos estão no Quadro 1, colunas 2 e 3. Gráfico 8 - Gráfico de dispersão - Juiz 1(X) vs Juiz 3 (Y) Fonte: PONTES, 2003. #PraCegoVer : o gráfico 8 inclui seis pontos amarelos, distribuídos entre os valores 2,1 e 4,4 na abscissa e 1,7 e 4,6, na ordenada, na forma de uma elipse com inclinação positiva. A abscissa e a ordenada iniciam no ponto 0 e terminam no ponto 5. Os valores dos pontos inseridos estão no Quadro 1, colunas 2 e 4. A dispersão dos pontos nos gráficos 7 e 8 são semelhantes. Gráfico 9 – Gráfico de dispersão – Juiz 2 (X) vs Juiz 3 (Y) 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 35/52 A partir do Quadro 1 são obtidos os três (C3,2) coeficientes de correlação de Pearson entre as notas dos cinco juízes. Quadro 2 – Coeficientes de correlação e seus respectivos valores-p PARES DE JUÍZES COEFICIENTE DE CORRELAÇÃO DE PEARSON VALOR-P 1 e 2 0,1820,6277 Fonte: PONTES, 2003. #PraCegoVer : o gráfico 9 é resultado da plotagem de seis pontos amarelos referentes aos juízes 2 e 3 (colunas 3 e 4 do Quadro 1, distribuídos entre os valores 1,5 e 4,6 na abscissa e 1,7 e 4,6, na ordenada, na forma de uma elipse com inclinação positiva. Neste caso os pontos estão quase totalmente em linha reta. A abscissa e a ordenada variam de 0 a 5. 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 36/52 Fonte: PONTES, 2003. Os valores-p obtidos no quadro referem-se ao teste do coeficiente de correlação linear de Pearson. Esses valores definem se podemos dizer que duas variáveis são linearmente correlacionadas do ponto de vista estatístico. Em geral, se esse valor for menor que 0,05, considera-se que a correlação entre as variáveis trabalhadas é significativa. Assim, no exemplo, as notas dos juízes 1 e 3 são positivamente correlacionadas entre si, ou seja, ambos têm a mesma visão referente à percepção ecológica dos moradores do assentamento. Entretanto, quando se consideram os pares de juízes 1,2 e 1,3, a correlação não é significativa, ou seja, não há correspondência entre as notas destes juízes no que concerne à percepção ecológica dos moradores amostrados. Naturalmente, temos um exemplo em que o número de observações é pequeno, ou seja, a amostra não é suficiente para que possamos ter dados considerados fidedignos. Nesses casos, o teste, em geral, apresenta falhas. » Exemplo 2 Os dados apresentados, neste exemplo, referem-se à altura, peso e idade de alunos da Universidade Federal do Acre. Além destas variáveis quantitativas, foi ainda considerada a variável nominal sexo, com duas categorias: F = feminino e M = masculino. Os dados dos 44 estudantes, 20 do sexo feminino e 24 do sexo masculino, estão na Quadro 3. Quadro 3 – Dados referentes a sexo, idade, peso e altura de 44 estudantes 1 e 3 2 e 3 0,1100,7157 0,9911 < 0,001 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 37/52 Fonte: Elaborado pelo autor, 2020. Inicialmente obtemos o box-plot para verificar como os dados se comportam. Naturalmente, devemos fazer um box-plot para cada variável, contendo os dados dos dois sexos para comparação. 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 38/52 Gráfico 10 – Box-plot da idade, por sexo Fonte: Elaborado pelo autor. VOCÊ SABIA? Box-plot é uma representação dos dados por meio de uma caixa com um traço em seu interior e hastes em seu exterior. O traço no interior da caixa indica o valor da mediana. O tamanho da caixa mostra a variabilidade; já seus pontos limites são o 1º quartil (limite inferior da caixa) e o 3º quartil (limite superior da caixa). Os limites das hastes inferior e superior indicam o menor e o maior valor, respectivamente, sem considerar os valores discrepantes (outliers). Em geral, estes valores discrepantes podem ser de dois tipos: influentes (indicado por um asterisco) e não influentes (assinalado por uma bola, como no exemplo). (BUSSAB; MORETTIN, 2017). #PraCegoVer : o Gráfico 10 apresenta o box-plot da idade, por sexo, ou seja, tem-se duas caixas. A caixa referente ao sexo feminino é 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 39/52 Percebe-se que a idade dos discentes do sexo masculino tem maior variabilidade e um elemento discrepante (Aluno 44, com 38 anos). No caso feminino, o elemento discrepante é a Aluna 19, com 30 anos. As medianas, para ambos os sexos, são iguais. Gráfico 11 – Peso de 44 discentes, por sexo Fonte: Elaborado pelo autor. estreita, indo de 19 (1º quartil) a 21 anos (3º quartil), a haste inferior vai até o valor 18 (ponto de mínimo é 18 anos) e a haste superior vai até o ponto 24. O máximo é 30, sendo um ponto discrepante, representado por uma bolinha. A caixa que representa o sexo masculino é mais alta (três vezes maior), indo de 18 (1º quartil) a 25 anos (3º quartil). O valor mínimo é 17 que coincide com o final da haste inferior. A haste superior vai até o ponto 32, restando ainda, como ponto discrepante, o valor 38 marcado por uma bolinha. O traço central das duas caixas, que corresponde à mediana, encontra-se no ponto 20. 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 40/52 Gráfico 12 – Altura, por sexo, de 44 estudantes Fonte: Elaborado pelo autor. #PraCegoVer : o gráfico 11, do peso dos discentes, tem duas caixas, uma para cada sexo. A caixa do sexo feminino é mais estreita, indo de 52 (1º quartil) a 65 (3º quartil), com o traço no ponto 59 (mediana). Não há valores discrepantes e, portanto, o valor mínimo da haste inferior é 45 e o valor máximo é 79, que coincide com os valores mínimo e máximo dos dados. No caso do sexo masculino, a caixa inicia em 61 (1º quartil) e termina em 84 (3º quartil), com traço em 78 (mediana). Não há valores discrepantes e, assim, a haste inferior (que corresponde ao valor mínimo) inicia em 49, e a haste superior termina em 105 (que corresponde ao valor máximo). #PraCegoVer : o gráfico 12 apresenta o box-plot da altura, em centímetros, por sexo (duas caixas separadas). Em ambas não há valores discrepantes. No caso do sexo feminino, a haste inferior inicia em 150 (valor mínimo) e a superior termina em 177. A caixa vai de 157 (1º quartil) a 166 (3º quartil), com traço interior em 161 (mediana). Para o sexo masculino, o traço central é no ponto 175 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 41/52 Para as variáveis peso e altura não foram encontrados dados discrepantes. O peso dos estudantes do sexo masculino tem maior variabilidade e também sua mediana é maior. No caso da altura, a variabilidade é semelhante para os dois sexos, mas a mediana da altura dos estudantes do sexo masculino é maior que a dos estudantes do sexo feminino. A análise dos dados, quando separamos os elementos da amostra por sexo, mostra um comportamento diferente para cada grupo em termos de variabilidade (idade e peso) e valores medianos (peso e altura). Este é um indicativo de que a separação, por sexo, deve ser realizada para que os dados sejam corretamente analisados. Essa conclusão coincide com o senso comum, que indica que altura e peso de pessoas adultas tendem a ser diferentes, quando se trata de sexo. Em geral, pessoas do sexo masculino são mais altas e têm maior peso do que as do sexo feminino. Na sequência, iremos plotar os gráficos de dispersão para observar o comportamento de cada uma das variáveis. Podemos incluir três gráficos para cada sexo, totalizando seis gráficos de dispersão, que levaria ao cálculo de seis coeficientes de correlação de Pearson: uma para as variáveis idade x peso; outro para as variáveis idade x altura; e o terceiro para as variáveis peso x idade. Faremos, no exemplo, apenas os dois gráficos para as variáveis peso x idade,para os sexos masculino e feminino. Os outros serão deixados como exercício. VAMOS PRATICAR (mediana) e a caixa está entre os valores 170 (1º quartil) e 181 (3º quartil). A haste inferior inicia no valor 165 e a superior termina em 185. As caixas têm tamanhos semelhantes, indicando que a variabilidade da altura do sexo feminino é semelhante à do sexo masculino. 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 42/52 Com os dados do Quadro 3, no Excel ou em outro software de sua preferência, você pode reproduzir os Gráficos 13 e 14 e fazer os outros quatro gráficos de dispersão não disponibilizados no texto. No Excel, basta escolher os valores a serem plotados, que estão em colunas diferentes, mas contêm o mesmo número de pontos e, na sequência, selecionar INSERIR – GRÁFICO DE DISPERSÃO. Para melhor visualização, sugere-se fazer modificações na escala da abcissa e da ordenada (LEVINE e colaboradores, 2016 p. 57 e 58). Gráfico 13 – Dispersão de peso e altura – sexo feminino Fonte: Elaborado pelo autor. Gráfico 14 – Dispersão de peso e altura – sexo masculino #PraCegoVer : gráfico de dispersão de peso (na abscissa) e altura (na ordenada). Dos 20 pontos amarelos presentes no gráfico, 18 deles apresentam-se espalhados em um retângulo que vai de 45 a 67 (na abscissa) e de 150 a 172, na ordenada. Os outros dois pontos são (74,173) e (78,176), e indicam diversa dos demais. 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 43/52 Fonte: Elaborado pelo autor. Percebe-se, observando os gráficos de dispersão, que está bem clara a relação linear entre peso e altura para os discentes do sexo masculino (Figura 5). Por outro lado, essa relação não é facilmente observada no caso dos discentes do sexo feminino. Iremos, agora, calcular os valores dos coeficientes de correlação entre o peso e a altura, para cada sexo, através da função correl do Excel. No caso feminino, nossa amostra é de 20 elementos e o coeficiente de correlação de Pearson é dado por: #PraCegoVer : o Gráfico 14 representa a dispersão entre peso e altura para pessoas do sexo masculino. Neste gráfico, com 24 pontos amarelos, todos os pontos estão dispersos dentro de uma elipse imaginária com inclinação positiva. A abcissa varia de 40 a 110, e a ordenada, de 160 a 190. Da esquerda para a direita, na abcissa, o menor valor é (49,170) e o maior valor é (106,179). De baixo para cima, na ordenada, o menor valor é (55,165) e os maiores são (92,185) e (100,185). 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 44/52 É possível, ainda, calcular o coeficiente de correlação utilizando a fórmula da divisão da covariância pelos desvios padrões individuais. No caso específico, tem-se: Para os 24 dos elementos do sexo masculino, realizando a mesma sequência de cálculos, tem-se que: #PraCegoVer : sendo a covariância entre peso e altura igual a vinte e sete inteiros e cinco mil, duzentos e onze décimos de milésimos, o desvio-padrão do peso igual a oito inteiros e seis mil, cento e cinquenta e dois décimos de milésimos, o desvio-padrão da altura igual a sete inteiros e três mil, quinhentos e quatro décimos de milésimos, então o coeficiente de correlação é igual a divisão do valor da covariância de x e y pela (abre parênteses) multiplicação entre os desvios padrões de x e y (fecha parênteses). No numerador o valor é vinte e sete inteiros e cinco mil, duzentos e onze décimos de milésimos, e no denominador o valor é sessenta e três inteiros e três mil, duzentos e cinquenta e dois décimos de milésimos, resultante da multiplicação dos desvios padrões. O resultado final, a coeficiente de correlação de Pearson, é quatro mil, trezentos e quarenta e seis décimos de milésimos. #PraCegoVer : o coeficiente de correlação de Pearson para os elementos do sexo masculino, denotado por erre índice eme é igual 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 45/52 Em ambos os casos, o coeficiente de correlação de Pearson foi positivo, indicando que, caso se comprove a relação, ela é direta, tanto no caso do sexo feminino quanto no caso do sexo masculino, ou seja, o crescimento da altura é relacionado com o crescimento do peso ou vice-versa. Quando tratarmos da regressão, deveremos verificar se uma variável causa a outra (causação) e, neste caso, aparentemente, a altura é um elemento importante na variação do peso. Contudo, este não é um ponto importante quando estamos trabalhando com a correlação. Por último, é necessário verificar a hipótese: #PraCegoVer : sendo “rô” o coeficiente de correlação linear de Pearson populacional, a hipótese nula (denominada agá zero) é “rô” igual a zero versus a hipótese alternativa (denominada agá um ou agá a) é “rô” diferente de zero. Para isto, lembramos que: #PraCegoVer : r vezes raiz de n menos 2 dividido por raiz de 1 menos o quadrado de r. Tem distribuição t de Student com n-2 graus de liberdade. No caso do sexo feminino, a amostra é de 20 elementos, que resulta em 18 graus de liberdade. a sete mil, oitocentos e oitenta e seis décimos de milésimos. 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 46/52 #PraCegoVer : o valor de t calculado é igual a r vezes raiz de n menos 2 e dividido por raiz de 1 menos o quadrado de r. Usando os valores obtidos anteriormente para o caso feminino temos quatro mil, trezentos e quarenta e seis décimos de milésimos vezes raiz de 20 menos 2, dividido por 1 menos o quadrado de quatro mil, trezentos e quarenta e seis décimos de milésimos, que resulta no valor dois inteiros e quarenta e sete milésimos. Podemos, a partir deste valor, obter o valor-p (ou p-valor) diretamente no Excel ou podemos utilizar uma tabela de t ‑ Student para comparar o valor obtido com o valor para um determinado nível de significância α. Este nível α é, em geral, 0,05 ou 0,01 (5% ou 1%). Para α = 0,05, o valor tabelado é de 2,101, e para α = 0,01 o valor tabelado é 2,878 (lembrando que o teste é bicaudal). Comparando o valor obtido para o teste, tem-se que t < t0,05, ou seja, não rejeitamos a hipótese nula. Isto significa que a correlação entre o peso e a altura não é significativa. Utilizando a função o Excel para obtenção do valor- p temos que calcular: #PraCegoVer : igual a dois vezes (abre parênteses) um menos a função DIST PONTO T (abre parênteses) dois inteiros e quarenta e sete milésimos ponto e vírgula dezoito ponto e vírgula VERDADEIRO (fecha parênteses) e (fecha parênteses). Sabe-se que DIST.T calcula o valor da probabilidade para o primeiro argumento (2,047) com o número de graus de liberdade dado pelo segundo argumento (18). O argumento VERDADEIRO indica que estamos calculando a função acumulada. Ao retirarmos este valor de 1, obtemos o valor da probabilidade de uma cauda. Como o teste é bilateral e a distribuição t de Student é simétrica, multiplicamos o resultado por dois para obter o valor-p. Neste caso específico, o valor-p é igual a 0,0555. Sendo esse valor maior que 0,05, a indicação é de que a hipótese de correlação nula não é rejeitada, ou seja, não temos indícios suficientes para afirmar que existe correlação entre peso e altura, no caso calc 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 47/52 das discentes do sexo feminino. Repetindo o procedimento para o coeficiente de correlação obtido para os dados dos elementos masculinos da amostra, tem-se que: #PraCegoVer : r índice M (valor do coeficiente de correlação para o caso masculino) é igual a sete mil, oitocentos e oitenta e seis décimos de milésimos. #PraCegoVer : o valor de t calculado é igual a seis inteiros e cento e sessenta e dois décimos de milésimos,cujo valor de probabilidade é igual a sete milionésimos que é menor que cinco centésimos (ou cinco porcento). Assim, a hipótese de que o coeficiente de correlação é nulo é rejeitada. Conclui-se que há uma correlação positiva entre as variáveis peso e altura para os discentes do sexo masculino. Para uma análise completa de correlação, é necessária a construção do gráfico de diagrama de dispersão seguido do cálculo do coeficiente de correlação. O gráfico de dispersão indica o comportamento dos dados, o cálculo do coeficiente de correlação informa o grau de relacionamento entre as duas variáveis. Ressalta-se, ainda, que o comportamento dos dados no gráfico de dispersão dialoga com o coeficiente de correlação. Observa-se, ainda, que nem sempre o fato de termos um teste significativo indica a real condição de relacionamento entre variáveis. Nesse sentido, observe a interação a seguir para ter alguns exemplos de correlações espúrias. 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 48/52 Correlações espúrias Fonte: VIGEN, s.d. Assim, duas variáveis podem ter um alto valor de coeficiente de correlação e um p-valor baixíssimo e mesmo assim não haver nenhuma indicação de que as variáveis são correlacionadas, as chamadas correlações espúrias. Dessa forma, como observamos anteriormente, é preciso cautela ao interpretamos as relações entre as variáveis, de forma a evitarmos erros elementares nas análises. Síntese Nesta unidade, os conceitos univariados foram ampliados para uma perspectiva bivariada. As ideias de associação e causação foram apresentadas, embora tenha-se discutido somente a associação. A noção de correlação foi apresentada em alguns de seus aspectos, e os coeficientes de correlação linear de Pearson e de correlação de postos foram discutidos com maiores detalhes. O teste de hipóteses para o coeficiente de correlação foi contemplado também. Um aspecto importante desta unidade foi a discussão de casos e resultados que indicam que não basta apenas calcular o coeficiente de correlação e verificar sua significância estatística. Conhecer as variáveis que estão sendo estudadas, os aspectos que envolvem sua aplicação, incluindo sua temporalidade, são fatores importantes para um melhor entendimento dos resultados obtidos através das técnicas estatísticas apresentadas. SAIBA MAIS 1ª correlação 2ª correlação 3ª correlação 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 49/52 Título : Estatística – Teoria e Aplicações usando MS Excel em português Autores : David M. Levine, David F. Stephan e Kathryn A. Szabat Editora : Grupo GEN Ano : 2016 Comentário : Sugerimos a leitura deste livro caso queira saber mais detalhes sobre como obter o coeficiente de correlação de Pearson (r), seu valor de teste (tcalc) e o valor de probabilidade (valor-p ou p-valor). Onde encontrar : Livrarias virtuais e físicas. Referências bibliográficas 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 50/52 AGRESTI, A.; FINLAY, B. Métodos estatísticos para as ciências sociais . Porto Alegre: Penso, 2012. BONELLI, R. C. Desigualdades matemáticas e aplicações . 2017. 114 f. Dissertação (mestrado profissional em matemática) – Instituto de Geociências e Ciências Exaras, UNESP, Rio Claro, 2017. Disponível em < http://hdl.handle.net/11449/151180 >. Acesso em: 20 dez. 2020. BUSSAB, W. O.; MORETTIN, P. A. Estatística básica . São Paulo: Saraiva, 2017. CHEN, P. Y.; POPOVICH, P. M. Correlation : parametric and nonparametric measures. Thousand Oaks: Sage, 2006. DIETZ, T.; KALOF, L. Introdução à estatística social : a lógica do raciocínio estatístico. Rio de Janeiro: LTC, 2015. FÁVERO, L. P. Análise de Dados - Modelos de Regressão Com Excel, Stata e Spss. Rio de Janeiro: Elsevier, 2015. KENDALL, M. Rank correlation methods . London: Charles Griffin & Company LTD., 1975. LARSON, R.; FARBER, B. Estatística aplicada . São Paulo: Pearson, 2010. LEVINE, D. M.; STEPHAN, D. F.; SZABAT, K. A. Estatística – Teoria e aplicações usando MS Excel em português. Rio de Janeiro: Grupo GEN, 2016. PASSOS, A. et al. Análise estatística da evolução do produto interno bruto da indústria da construção civil brasileira utilizando regressão linear simples. Revista GEINTEC , São Cristóvão, v. 2, n. 5, p. 505-524, 2012. Disponível:< http://www.revistageintec.net/index.php/revista/article/view/74/153 >. Acesso: 14 de nov. 2020. PONTES, L. O. Agricultura Familiar : Recuperação e Valoração da Floresta no Assentamento Rural de Sumaré II. 2003. 102 f. Dissertação (Mestrado) – Escola Superior http://hdl.handle.net/11449/151180 http://www.revistageintec.net/index.php/revista/article/view/74/153 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 51/52 de Agricultura, Universidade de São Paulo, Piracicaba, 2003. VIGEN, T. Spurious Correlations , s.d. Disponível em: < http://www.tylervigen.com/ spurious-correlations >. Acesso em: 30 nov. 2020. http://www.tylervigen.com/%20spurious-correlations 29/04/23, 11:12 Unidade 1 - Análise de regressão univariada https://ambienteacademico.com.br/mod/url/view.php?id=778687 52/52
Compartilhar