Baixe o app para aproveitar ainda mais
Prévia do material em texto
ANÁLISE MULTIVARIADA DEANÁLISE MULTIVARIADA DE DADOSDADOS TÉCNICASTÉCNICAS MULTIVARIADAS EMULTIVARIADAS E ANÁLISE DEANÁLISE DE CONGLOMERADOSCONGLOMERADOS Au to r ( a ) : D r. Lu i s A l b e r to R a b a n a l R a m i re z R ev i s o r : A l e s s a n d ro Fe r re i ra Tempo de leitura do conteúdo estimado em 1 hora e 30 minutos. Introdução Olá, estudante! Tudo bem? É com prazer que lhe apresentamos este material, que o ajudará a conhecer as diferentes técnicas de análise multivariada, em especial, a técnica de análise de conglomerados. Em pesquisas, frequentemente acontece de desejarmos descrever efeitos que são entidades complexas e difíceis de caracterizar em uma única medida. Podemos, portanto, em um único experimento, medir um conjunto de variáveis dependentes em vez de uma única variável, tendo, então, uma maior chance de descobrir qual fator é realmente importante. Ao considerar se um tratamento especí�co afeta um conjunto de variáveis dependentes, que tal realizar vários testes univariados? Quais são as desvantagens de uma análise que considera cada variável separadamente em vez de uma única que considera padrões em todas elas simultaneamente? No modelo multivariado, assume-se que as correlações entre um conjunto de variáveis observadas podem ser explicadas em termos de um conjunto mais simples de variáveis derivadas. Então, como vamos derivar um conjunto de novas variáveis hipotéticas mais adequadas a partir das informações obtidas sobre as correlações individuais entre elas? Por meio das técnicas multivariadas. Bons estudos! As técnicas de análise multivariada podem ser classi�cadas em duas grandes categorias. Essa classi�cação depende da resposta à pergunta: as variáveis envolvidas são dependentes umas das outras ou não? Se a resposta for sim, temos técnicas de dependência (ou associação). Se a resposta for não, temos técnicas de interdependência. As de�nições formais são: Fonte: allvision / 123RF. Fonte: vadymvdrobot / 123RF. Técnicas Multivariadas Técnica de dependência: V E R M A I S Técnicas de interdependência: V E R M A I S Na sequência, discutiremos as técnicas mais representativas dos dois grupos. Análise de Regressão A análise de regressão é uma técnica de dependência utilizada para investigar e modelar a relação entre variáveis. A razão pela qual é tão amplamente aplicada é porque fornece a resposta para uma pergunta frequente: como uma variável de interesse especial depende de outras variáveis? As suas aplicações são numerosas, em diferentes áreas, incluindo engenharia, ciências médicas, biológicas, sociais, ciências físicas, químicas, economia, dentre outras. Termos usados na análise de regressão Variável de resposta: a variável que os pesquisadores estão tentando explicar ou prever é chamada de variável de resposta. Ela é chamada, mais comumente, de variável dependente, porque depende de outra variável. No caso de duas variáveis independentes, a variável de resposta sempre pertence ao eixo y. Variável explicativa ou preditora: a variável usada para explicar ou prever a variável de resposta é chamada de explicativa ou preditora. Às vezes, também é chamada de variável independente, porque é independente da outra variável. No caso de duas variáveis independentes, a variável explicativa sempre pertence ao eixo x. A teoria de regressão estatística, inclusive, se divide em análise de regressão simples e múltipla. Regressão linear simples A regressão linear simples, também chamada de regressão linear univariável, é um modelo que avalia a relação entre uma variável dependente e uma independente. O modelo linear simples é expresso usando a equação: Y = a + bx + ϵ (2.1) onde: x: variável independente (explicativa); a: intercepto com o eixo horizontal “x” do plano cartesiano; b: inclinação da linha; ϵ: o erro, que indica a variabilidade da variável dependente devido a causas não controladas pelo modelo. ϵ também é chamado de resíduo. Como veremos em uma seção posterior, a análise de resíduos é uma parte muito importante da análise de regressão. A equação (2.1) representa uma linha, conhecida como linha de regressão. Ela permite predizer o valor da variável dependente Y a partir do valor da variável independente x. Assim, após uma regressão linear, seria possível estimar a massa corporal de uma pessoa (variável dependente, Y) a partir de sua altura (variável independente, x), por exemplo. A inclinação b da linha de regressão, por sua vez, é chamada de coe�ciente de regressão. Ela fornece uma medida da contribuição da variável independente x para explicar a variável dependente Y. Se a variável independente for contínua (por exemplo, altura corporal em centímetros), então o coe�ciente de regressão representa a mudança na variável dependente (peso corporal em quilogramas) por unidade de mudança na variável independente (altura corporal em centímetros). A interpretação adequada do coe�ciente de regressão requer, portanto, atenção às unidades de medida. Se as variáveis independentes forem categóricas ou binárias, então o coe�ciente de regressão deve ser interpretado em referência à codi�cação numérica dessas variáveis. As variáveis binárias, geralmente, devem ser codi�cadas com dois números inteiros consecutivos (geralmente 0/1 ou 1/2). Agora, ao interpretar o coe�ciente de regressão, deve-se lembrar qual categoria da variável independente é representada pelo número mais alto (por exemplo, 2, quando a codi�cação é 1/2). Além disso, ele re�ete a mudança na variável dependente que corresponde a uma mudança na variável independente de 1 para 2. A equação (2.1), por sua vez, representa uma linha, conhecida como linha de regressão. Os seus parâmetros a e b são estimados a partir dos valores da variável independente x e com o auxílio de vários métodos, sendo o método dos mínimos quadrados o mais conhecido. Método dos mínimos quadrados: consiste em descrever uma linha reta de modo que a soma de todas as diferenças entre os valores observados e a linha reta seja a mínima possível (Figura 2.1). O cálculo do estimador do coe�ciente de regressão, com base nos dados da amostra, é dado pela equação (2.2) (SPIEGEL; LIPSCHUTZ, 2012, p. 222): b = nΣni= 1XiYi− Σ n i= 1X1Σ n i= 1Yi nΣni= 1X 2 i − ( Σ n i= 1X1 ) 2 (2.2) O estimador do termo independente (ordenada na origem) pode ser calculado usando a seguinte expressão (SPIEGEL; LIPSCHUTZ, 2012, p. 222): a = Σni= 1Yi−bΣ n i= 1Xi n (2.3) Figura 2.1 – Linha de regressão obtida usando as fórmulas (2.2) e (2.3). X corresponde aos dados de temperatura em °C versus Y, que corresponde às vendas de refrigerantes em R$/ no verão de 2022, em Copacabana – RJ. Observe que nem todos os pontos estão sobre a linha, o que corresponde ao erro, mas que a distância de cada ponto à linha é mínima. Toda linha tem sua inclinação (calculada pela fórmula (2.2)) e tem seu valor quando a temperatura é zero (calculado pela fórmula (2.1)) Fonte: Elaborada pelo autor. #PraCegoVer: a �gura apresenta uma grade retangular com 12 círculos na cor azul. No eixo horizontal “X”, os valores estão na faixa de 10 até 26, com incrementos de dois. No eixo vertical, os valores aparecem na faixa de 0 até 700, com incrementos de 100. Os círculos estão acompanhando uma linha laranja, mas somente cinco estão sobre a linha; os outros sete estão muito próximos dela. Exemplo A renda e a educação de uma pessoa estão relacionadas. Espera-se que, em condições normais, em média, um maior nível de educação proporcione uma renda maior. Assim, um modelo de regressão linear simples pode ser expresso como: Y = a + bx + ϵ renda = a + b educação + ϵ Nele, “b” re�ete a mudança na renda em relação à mudança por unidade de educação e “a” re�ete a renda quando a educação é zero, pois é esperado que mesmo uma pessoa analfabeta possa ter alguma renda. Para nosso exemplo, a equação anterior é su�ciente, mas nossa realidade é mais complexa, com outras variáveisa se considerar. Pensemos em mais uma variável no problema do exemplo. Esse modelo negligencia que a maioria das pessoas (em condições normais) tem renda mais alta quando é mais velha do que quando é jovem, independentemente da educação. Portanto, “b” exagerará o impacto marginal da educação. Se a idade e a escolaridade estiverem positivamente correlacionadas, então o modelo de regressão associará todo o aumento observado na renda com um aumento da educação. Assim, um modelo melhor seria: Y = a + bx + ϵ renda = a + b educação + ϵ renda = a + b educação + c(idade) + ϵ De forma a conseguir uma modelagem mais próxima da realidade (considerando um maior número de variáveis preditoras), a regressão múltipla aparece como uma consequência natural. Regressão múltipla A análise de regressão múltipla é uma técnica utilizada para examinar a relação entre uma variável dependente e várias variáveis preditoras. “O objetivo da análise de regressão múltipla é prever as mudanças na variável dependente como resposta a mudanças nas variáveis independentes” (HAIR et al., 2009, p. 33). Para melhor ilustrar, em biologia, usa-se a regressão múltipla para prever o crescimento das culturas (modelos de simulação do crescimento e desenvolvimento). Considere, nesse exemplo, o milho. O crescimento da cultura é sua variável dependente, e você deseja ver como diferentes fatores o afetam. Suas variáveis independentes podem ser a chuva, a temperatura, a quantidade de luz solar e a quantidade de fertilizante adicionado ao solo. Um modelo de regressão múltipla mostraria a proporção de variância no crescimento da cultura que cada variável independente representa. ( ) ( ) ( ) A regressão é, provavelmente, a metodologia estatística mais utilizada. Geralmente, tem respostas a questões do tipo: Em várias con�gurações quantitativas, as técnicas de regressão modelam a relação entre a variável de resposta de interesses especiais (Y) e um conjunto x1, x2, x3 …xk de variáveis explicativas ou preditoras. Vinculando a variável de resposta às variáveis preditoras: Y = f x1. . . xk + ϵ (2.4) onde: f x1. . . xk é determinístico; ϵ é aleatório. 𝛜 é o termo de erro, que não pode ser controlado ou previsto. No entanto conhecer o seu valor é útil. Note que k é o número de variáveis preditoras e que a variável resposta deve ser quantitativa contínua. Procura-se achar a função f (a priori, desconhecida), de modo que é necessária uma informação adicional para restringir o espaço de soluções. Se assumirmos uma modelagem linear, teremos: Y = β0 + β1x1 + . . . + βkxk + ϵ (2.5) Achar f(.) se resume a determinar β0, β1, β2, . . . , βk dos dados. Exemplo: linha de regressão para uma regressão multivariável. Y = –120,07 + 100,81 X1+ 0,38 X2+ 3,41 X3 , onde: ( ) ( ) como o preço do apartamento depende do tamanho, da localização, do andar, da proximidade com o metrô, dentre outros fatores; X1 = altura (metros); X2 = idade (anos); X3 = sexo (1 = feminino, 2 = masculino); Y = o peso a ser estimado (kg). β0 = − 120, 07; β1 = 100, 81; β2 = 0, 38; β3 = 3, 41 Para estimar os parâmetros β0, β1, β2, . . . , βk foi usado o método dos mínimos quadrados para dados multivariados, de forma a somar todos os “desvios quadrados” observados na linha de regressão. Veja a seguir a Tabela 2.1, com dados �ctícios, que relaciona as três variáveis e os coe�cientes βi correspondentes às variáveis preditoras. Na coluna cinco, vemos as variáveis resposta Yi. A seguir, na Figura 2.2, com os dados plotados em três dimensões (usando o software matlab®), observe que, usando três variáveis preditoras, ainda é possível visualizar os dados. Figura 2.2 – Grá�co representando os valores da Tabela 2.1, correspondendo às variáveis: altura (x1), idade (X2) e sexo (X3) Fonte: Elaborada pelo autor. #PraCegoVer: a �gura apresenta um grá�co em três dimensões. No plano base horizontal, os rótulos X1 (altura, metros) apresentam valores de 1 até 2,5, com incrementos de 0,5, e os rótulos X2 (idade, anos), valores entre 20 até 35, com incrementos de cinco. O eixo vertical corresponde à variável X3 (sexo, 1 homem, 2 mulher). Na parte interior do espaço de três dimensões, há nove círculos na cor azul. Na Figura 2.2, ainda é possível representar, gra�camente, as variáveis preditoras. Considere o caso de ter mais de três variáveis preditoras, como poderíamos visualizar as inter-relações entre elas? É necessário considerar todas as variáveis? O modelo pode ser simpli�cado? Ou seja, é possível juntar variáveis preditoras e criar novas que sejam representativas? As seções a seguir respondem a cada uma dessas perguntas. Planejamento Fatorial A análise fatorial visa simpli�car as múltiplas e complexas relações que podem existir entre um conjunto de variáveis observadas x1, x2, x3 … xk. Para isso, ela tenta encontrar dimensões ou fatores comuns que incluam as variáveis que, aparentemente, não estão relacionadas. Especi�camente, trata-se de encontrar um conjunto de q<p fatores não observáveis diretamente, f , f … f , que permitam explicar su�cientemente as variáveis observadas, perdendo o mínimo de informação, para que sejam facilmente interpretáveis e que sejam, em quantidade, o menor número possível, ou seja, k pequenos. Além disso, os fatores devem ser extraídos de forma que sejam independentes entre si. Na sequência, abordaremos os modelos lineares generalizados, que são frequentemente usados na indústria de seguros para apoiar decisões críticas. Modelos Lineares Generalizados 1 2 n Fonte: donskarpo / 123RF. A modelagem linear generalizada é utilizada para avaliar e quanti�car a relação funcional entre uma variável de resposta aleatória e um conjunto de variáveis explicativas. Os modelos lineares generalizados são extensões dos modelos lineares vistos nas seções anteriores. Para Jong e Heller (2008), essa modelagem difere da modelagem de regressão comum em dois aspectos importantes: (i) a distribuição da resposta é escolhida pela família exponencial. Assim, a distribuição da resposta não precisa ser normal ou próxima do normal e pode ser explicitamente não normal; (ii) uma transformação da média da resposta é linearmente relacionada às variáveis explicativas. Exemplos Nos estudos de mortalidade, o objetivo é explicar o número de óbitos em função de variáveis como idade, sexo e estilo de vida. Nos seguros de saúde, podemos querer explicar o número de sinistros feitos por diferentes indivíduos ou grupos de indivíduos em termos de variáveis explicativas, como idade, sexo e ocupação. No seguro geral ou de acidentes, a contagem de juros pode ser o número de sinistros feitos em apólices de seguro de veículos. Isso pode ser uma função da cor do carro, da capacidade do motor, da experiência anterior em sinistros e assim por diante. A partir dos exemplos, vemos que os modelos lineares generalizados são utilizados no setor de seguros para apoiar decisões críticas. Assim, chegamos ao �m do nosso tópico sobre técnicas multivariadas de dados. Nele, você teve a oportunidade de aprender mais sobre o assunto. Agora, o que acha de realizar uma atividade para testar os seus conhecimentos? Vamos lá! Conhecimento Teste seus Conhecimentos (Atividade não pontuada) A �gura a seguir é uma representação grá�ca auxiliar para ilustrar a fórmula de mínimos quadrados, cujos coe�cientes “a” e “b” são calculados por meio das fórmulas: a = Σni= 1Yi − bΣ n i= 1Xi n b = nΣni= 1XiYi − Σ n i= 1X1Σ n i= 1Yi nΣni= 1X 2 i − (Σ n i= 1X1) 2 Figura – Tabela e grá�co de uma linha de regressão, obtida com o Excel © Fonte: Elaborada pelo autor. #PraCegoVer: a imagem apresenta um print de tela obtido com o Excel©, composta por uma tabela e um grá�co. Na tabela, temos, na coluna “B”, “Temperatura °C” e os valores “11,82”; “14,10”; “15,61”; “16,30”; “17,22”; “18,10”; “18,70”; “22,03”; “23,80”; e “25,00”. Na coluna “C”, “Vendas R$/.” e os valores“196”, “201”, “311”, “311”, “403”, “405”, “403”, “503”, “511” e “601”. No grá�co, observamos dez pontos vermelhos, que correspondem aos pontos de interseção dos dados, e uma linha preta, que inicia no primeiro ponto e �naliza no último. Essa linha acompanha a distribuição dos pontos. Assinale a alternativa correta, que apresenta os valores numéricos dos parâmetros “a” e “b”. a) a = -171,5 e b = 30,44 b) a = 171,5 e b = 30,44 c) a = 30,44 e b = 171,5 d) a = -30,44 e b = 171,5 e) a = -171,5 e b = -30,44 Na sequência, vamos estudar, no escopo da análise de conglomerados, alguns dos diferentes modelos para cálculo da distância entre elementos, de forma a construir conglomerados (clusters) aglomerativos. Saber escolher qual modelo usar para o cálculo da distância pode te ajudar a mudar de um classi�cador ruim para um modelo preciso. Distância Euclidiana Para construirmos clusters aglomerativos, precisamos de�nir a distância entre dois objetos (casos) xi1, xi2, xi3 … xik e (xj1, xj2, xj3 … xjk) e, eventualmente, entre clusters. Primeiro, temos que examinar a distância entre dois objetos e veri�car se as unidades de medida das variáveis “k” são iguais. Em caso negativo, indica-se que as variáveis Análise de Conglomerados: Distâncias Euclidiana, Manhattan e Chebyshev ( ) sejam normalizadas. A medida de distância mais usada entre os dois casos é a euclidiana, de�nida pela equação (FÁVERO; BELFIORE, 2015, p. 316): dij = (xj1 − xi1) 2 + (xj2 − xi2) 2 + . . . + (xkj − xki) 2 Em geral, a distância euclidiana funciona muito bem quando se tem dados de baixa dimensão. Embora muitas outras fórmulas tenham sido desenvolvidas para calcular a distância, ela ainda é uma das mais usadas, e por boas razões: é uma fórmula incrivelmente intuitiva de se usar, simples de implementar e mostra ótimos resultados na maioria dos casos. Na �gura a seguir, podemos observar um exemplo do caso da distância entre dois objetos (pontos) no espaço bidimensional. Figura 2.3 – Distância euclidiana entre dois elementos Fonte: Elaborada pelo autor. #PraCegoVer: a imagem apresenta o primeiro quadrante do plano cartesiano. Nele, podemos observar dois pontos pretos, representando elementos do conglomerado, unidos por uma linha preta. Cada ponto representa suas respectivas coordenadas cartesianas. A fórmula para esse caso particular seria: √ d12 = (x21 − x11) 2 + (x22 − x22) 2 de forma mais familiar d12 = (x2 − x1) 2 + (y2 − y1) 2 Distância de Manhattan A distância de Manhattan, muitas vezes chamada de distância do táxi ou distância do quarteirão da cidade, difere da distância euclidiana. Ela utiliza a soma das diferenças absolutas das variáveis, ou seja, os dois lados de um triângulo retângulo em vez de a hipotenusa (HAIR et al., 2009, p. 207). A distância de Manhattan é a média por diferença de coordenadas. Na maioria dos casos, seu valor fornece os mesmos resultados de agrupamento que a distância euclidiana, no entanto ela reduz a in�uência dos valores distantes (KOLODIAZHNYI, 2020, p. 105). Ela é de�nida pela equação (FÁVERO; BELFIORE, 2015, p. 316): dij = xj1 − xi1 + xj2 − xi2 + . . . + xjk − xik Quando o conjunto de dados tem atributos discretos e/ou binários, a Manhattan parece funcionar muito bem, pois leva em consideração os caminhos que poderiam ser tomados de forma realista, dentro dos valores desses atributos. Distância de Chebyshev A distância de Chebyshev é a maior diferença absoluta individual de qualquer par de coordenadas entre dois pontos (EISELET; SANDBLOM, 2007, p. 344). Essa de�nição �ca clara na fórmula de Chebyshev, observe que o valor absoluto garante que a diferença entre pares de coordenadas seja sempre positiva. Obviamente, não teria sentido falar de distâncias negativas. Além disso, é escolhida a maior diferença como resultado da aplicação da função “max”. A distância de Chebyshev pode ser útil quando precisamos classi�car dois objetos como diferentes quando eles diferem apenas por uma das coordenadas (KOLODIAZHNYI, 2020, p. 105). Ela é de�nida pela equação (FÁVERO; BELFIORE, 2015, p. 316): dij = max xj1 − xi1 , xj2 − xi2 , . . . . xjk − xik √ √ | | | | | | (| | | | | | ) Chegamos ao �m do nosso tópico sobre análise de conglomerados, especi�camente, sobre o cálculo das distâncias nesse escopo: distâncias euclidiana, Manhattan e Chebyshev. Nele, você teve a oportunidade de aprender mais sobre o assunto. O que acha de realizar uma atividade para testar os seus conhecimentos? Vamos lá! Conhecimento Teste seus Conhecimentos (Atividade não pontuada) Os diferentes métodos de cálculo da distância aparecem em várias outras disciplinas, como Data Science, Machine Learning e Econometria. Você tem que escolher a mais conveniente segundo o tipo de variável que esteja trabalhando. As distâncias proporcionam o grau de similaridade entre os dados. Dados os pontos da tabela a seguir, calcule as distâncias usando: a) Distância de Manhattan dij = xj1 − xi1 + xj2 − xi2 + . . . . + xjk − xik b) Distância euclidiana dij = (xj1 − xi1) 2 + (xj2 − xi2) 2 + . . . + (xkj − xki) 2 c) Distância de Chebyshev dij = max xj1 − xi1 , xj2 − xi2 , . . . . xjk − xik A partir do que foi apresentado, assinale a alternativa correta. | | | | | | √ ( | | | | | |) a) As respectivas distâncias são: 5,4; 4,0 e 3,23. b) As respectivas distâncias são: 6,4; 3,0 e 3,23. c) As respectivas distâncias são: 0,4; 3,2 e 3,23. d) As respectivas distâncias são: 5,0; 4,12 e 4,0. D. e) As respectivas distâncias são: 6,4; 4,2 e 3,23. No estudo da distância entre conglomerados, precisamos de�nir, de alguma forma, a distância entre os objetos em um aglomerado e em outro. Essas distâncias, geralmente, são de�nidas em: ligação única (vizinho mais próximo) e ligação completa (vizinho mais distante). Cada uma dessas medidas é de�nida na ordem abaixo. Método de Ligação do Vizinho mais Próximo A distância de ligação do vizinho mais próximo, também chamada de distância de ligação única entre dois conglomerados, é de�nida como a distância entre o par de objetos mais próximo nos dois conglomerados (um objeto em cada). Se o aglomerado A é o conjunto de objetos A , A , ..., A e o aglomerado B é B , B , ..., B , a distância de ligação única entre os conglomerados A e B é: Análise de Conglomerados: Métodos de Ligação 1 2 n 1 2 n D(A, B) = min dij Nele: d é a distância euclidiana entre A e B ; A é um elemento que pertence ao conglomerado A; e B é um elemento que pertence ao conglomerado B. Em cada estágio de agrupamento, baseados na medida de distância de ligação do vizinho mais próximo, os conglomerados A e B, para os quais D(A, B) é mínimo, são misturados. A �gura a seguir ilustra um exemplo. Figura 2.4 – Distância de ligação do vizinho mais próximo entre conglomerados Fonte: Elaborada pelo autor. #PraCegoVer: a imagem apresenta grupos de pontos pretos. Em cada grupo, os pontos estão próximos uns dos outros. Na fronteira, há dois pontos cuja distância entre eles é mínima. Uma linha preta os une. A seguir, vamos estudar os métodos de ligação conhecidos como método de ligação do vizinho mais longe, também chamado de método de ligação completa. ( ) ij i j i j Método de Ligação do Vizinho mais Longe A distância de ligação do vizinho mais longe, também chamada de distância de ligação completa entre dois conglomerados, é de�nida como a distância entre o par de objetos mais longe nos dois conglomerados (um objeto em cada). Se o aglomerado A é o conjunto de objetos A , A , ..., A e o aglomerado B é B , B , ..., B , a distância de ligação completa entre os conglomerados A e B é: D(A, B) = max dij Nele: d é a distância euclidiana entre A e B ; A é um elemento que pertence ao conglomerado A; e B é um elemento que pertence ao conglomerado B. Em cada estágio de agrupamento, baseados na medida de distância de ligação do vizinho mais longe, os conglomerados A e B, para os quais D(A, B) é máximo, são misturados. A �gura a seguir ilustra um exemplo. 1 2 n 1 2 n ( ) ij i j i j Figura 2.5 – Distânciade ligação do vizinho mais distante entre conglomerados Fonte: Elaborada pelo autor. #PraCegoVer: a imagem apresenta grupos de pontos pretos. Em cada grupo, os pontos estão próximos uns dos outros. Na fronteira, há dois pontos cuja distância entre eles é máxima. Uma linha os une. A seguir, podemos observar um infográ�co interessante, apresentado no livro “Data mining: practical machine learning tools and techniques” (WITTEN; FRANK, 2005, p. 78), relacionado com dados nominais. Note que, indiferente ao tipo de dado, ele tem que ser codi�cado de forma a ter a sua representação numérica. Agora, pense em uma imagem e seus diferentes tons de cores, eles precisam ser codi�cados para poderem ser tratados por meio dos diferentes métodos da análise multivariada. Fonte: vectorjuice / Freepik. #PraCegoVer: o infográ�co estático, intitulado “Distância entre atributos nominais”, apresenta logo abaixo do título a ilustração de um braço robótico segurando uma engrenagem, junto com uma pessoa, que também segura uma engrenagem; ao fundo, há uma tela. À esquerda do título e da ilustração, há o texto "Quando atributos nominais estão presentes, é necessário criar uma ‘distância’ entre os diferentes valores desse atributo. Quais são as distâncias entre, digamos, os valores vermelho, verde e azul? Normalmente, uma distância de zero é atribuída se os valores forem idênticos; caso contrário, a distância é um. Assim, a distância entre vermelho e vermelho é zero, mas entre vermelho e verde é um. No entanto pode ser desejável usar uma representação mais so�sticada dos atributos. Por exemplo, com mais cores, pode-se usar uma medida numérica de matiz no espaço de cores, tornando o amarelo mais próximo do laranja do que do verde, e o ocre ainda mais. Alguns atributos são mais importantes que outros, e isso geralmente se re�ete na métrica de distância por algum tipo de ponderação de atributo. Derivar pesos de atributos adequados do conjunto de treinamento é um problema-chave no aprendizado baseado em instâncias (WITTEN; FRANK, 2005)”. Na sequência, vamos ler e re�etir sobre um parágrafo interessante, que põe em destaque um assunto relacionado ao método dos mínimos quadrados e à sua associação com os softwares livres e comerciais. Além disso, destaca a sua aplicação em várias áreas, desde as mais conhecidas até aquelas que estão surgindo, como a inteligência arti�cial, o aprendizado de máquina, a economia e a administração, até em ciências puras, como a física e a química. Nas ciências puras, especi�camente na parte experimental, nos testes e nos experimentos de laboratório. Chegamos ao �m do nosso tópico sobre análise de conglomerados, especi�camente sobre os métodos de ligação. Nele, você teve a oportunidade de aprender mais sobre o assunto. O que você acha de praticar para testar seus conhecimentos? Vamos lá! praticar REFLITA “Os modelos de regressão simples e múltipla estimados pelo método de mínimos quadrados ordinários representam o grupo de técnicas de regressão mais utilizadas em ambientes acadêmicos e organizacionais, dada a facilidade de aplicação e de interpretação dos resultados obtidos, além do fato de estarem disponíveis na grande maioria dos softwares, mesmo naqueles em que não haja especi�camente um foco voltado à análise estatística de dados. É importante também ressaltar a praticidade das técnicas estudadas neste capítulo para �ns de elaboração de diagnósticos e previsões.” Fonte: Fávero e Bel�ore (2015, p. 599). praticar Vamos Praticar Como você pode constatar no nosso estudo, é possível usar o Excel © para calcular a linha de regressão e os parâmetros “a” e “b”. Para isso, siga os passos: Figura – Passo 1. Escolha, no menu principal do Excel, a opção “Dispersão”, depois, sendo mais especí�co, “Dispersão somente pontos” Fonte: Elaborada pelo autor. #PraCegoVer: print de uma planilha do Excel ©. Nele, é possível observar parte do menu principal, com destaque à opção “Dispersão”, que se encontra expandida. Dos quatro modelos de dispersão, está em destaque a “Dispersão por pontos”. Na parte da planilha, nas colunas “B” e “C”, há uma tabela com dados de temperatura em graus centígrados e vendas em reais. Os dados para as temperaturas são: “11,82”; “14,10”; “15,61”; “16,30”; “17,22”; “18,10”; “18,70”; “22,03”; “23,80”; e “25,00”. Na coluna “Vendas R$/.”, temos: “196”; “201”; “311”; “311”; “403”; “405”; “403”; “503”; “511”; e “601”. Figura – Passo 2. Plotando os dados da tabela Fonte: Elaborada pelo autor. #PraCegoVer: print de uma planilha do Excel ©. Nele, é possível observar que, na parte da planilha nas colunas “B” e “C”, há uma tabela com dados de “Temperatura” em graus centígrados e “Vendas” em reais. Os dados para as temperaturas são: “11,82”; “14,10”; “15,61”; “16,30”; “17,22”; “18,10”; “18,70”; “22,03”; “23,80”; e “25,00”. Na coluna vendas, temos: “196”; “201”; “311”; “311”; “403”; “405”; “403”; “503”; “511”; e “601”. Ao lado da tabela, podemos observar um grá�co de dispersão de pontos em que cada ponto se intersecta no par de coordenadas (“Temperatura”, “Vendas”), correspondentemente. Figura – Passo 3. Adicionando uma linha de regressão Fonte: Elaborada pelo autor. #PraCegoVer: print de uma planilha do Excel ©. Nele, é possível observar que, na parte da planilha nas colunas “B” e “C”, há uma tabela com dados de “Temperatura” em graus centígrados e “Vendas” em reais. Os dados para as temperaturas são: “11,82”; “14,10”; “15,61”; “16,30”; “17,22”; “18,10”; “18,70”; “22,03”; “23,80”; e “25,00”. Na coluna “Vendas”, temos: “196”; “201”; “311”; “311”; “403”; “405”; “403”; “503”; “511”; e “601”. Ao lado da tabela, podemos observar um grá�co de dispersão de pontos, cada ponto se intersecta no par de coordenadas (“Temperatura”, “Vendas”), correspondentemente. Adicionalmente, há uma linha preta que acompanha a tendência dos pontos espalhados no grá�co. Figura – Passo 4. Adicionando a equação de regressão Fonte: Elaborada pelo autor. #PraCegoVer: print de uma planilha do Excel ©. Nele, é possível observar que, na parte da planilha nas colunas “B” e “C”, há uma tabela com dados de “Temperatura” em graus centígrados e “Vendas” em reais. Os dados para as temperaturas são: “11,82”; “14,10”; “15,61”; “16,30”; “17,22”; “18,10”; “18,70”; “22,03”; “23,80”; e “25,00”. Na coluna vendas, temos: “196”; “201”; “311”; “311”; “403”; “405”; “403”; “503”; “511”; e “601”. Ao lado da tabela, podemos observar um grá�co de dispersão de pontos, cada ponto se intersecta no par de coordenadas (“Temperatura”, “Vendas”), correspondentemente. Adicionalmente, há uma linha preta que acompanha a tendência dos pontos espalhados no grá�co. Acima de um ponto selecionado, vemos uma janela mostrando várias opções, em destaque, a opção “Adicionar Linha de Tendência”, indicando que esse seria o próximo passo. Figura – Passo 5. Adicionando a equação de regressão linear no grá�co de dispersão Fonte: Elaborada pelo autor. #PraCegoVer: nessa �gura, podemos observar um grá�co correspondente a uma janela de opções para inserir a linha de tendência. Em destaque, vemos a opção “Opções de Linha de Tendência" no painel esquerdo. No painel direito, há vários tipos de grá�cos de regressão, com o grá�co de tendência “Linear” selecionado, e, na parte inferior, selecionada a opção “Exibir Equação no grá�co”. Figura – Passo 6. Equação de regressão no grá�co Fonte: Elaborada pelo autor. #PraCegoVer: print de uma planilha do Excel ©. Nele, é possível observar que, na parte da planilha nas colunas “B” e “C”, há uma tabela com dados de “Temperatura” em graus centígrados e “Vendas” em reais. Os dados para as temperaturas são: “11,82”; “14,10”; “15,61”; “16,30”; “17,22”; “18,10”; “18,70”; “22,03”; “23,80”; e “25,00”. Na coluna vendas, temos: “196”; “201”; “311”; “311”; “403”; “405”; “403”; “503”; “511”; e “601”. Ao lado da tabela, podemos notar um grá�co de dispersão de pontos, cada ponto se intersecta no par de coordenadas (“Temperatura”, “Vendas”), correspondentemente. Adicionalmente, há uma linha preta que acompanhaa tendência dos pontos espalhados no grá�co. Em vermelho, com fontes grandes, temos a equação de regressão linear com a = -171,5 e b = 30,43, correspondentes à equação: Y = a + bx. Para você praticar, faça uma tabela no Excel ©. Na primeira coluna, a estatura em metros de quinze conhecidos, na segunda coluna, a idade em anos correspondente. Depois, calcule a equação de regressão. Em uma segunda fase, inverta os conteúdos das colunas e veri�que se os parâmetros “a” e “b” mudam. Em seguida, analise seus resultados e justi�que a semelhança ou diferença. Material Complementar W E B Introdução à regressão linear Ano: 2018 Comentário: muitas das técnicas da análise multivariada estão sendo utilizadas em Machine Learning e Data Science. Esse vídeo pertence a um canal chamado Academia de Experts em Inteligência Arti�cial e trata do assunto da Regressão Linear, com vários exemplos. Para acessá-lo, clique no link a seguir: ACESSAR https://youtu.be/ltRVgNsZBXE L I V R O Análise estatística de dados geológicos multivariados Autor: Paulo M. Barbosa Landim Editora: O�cina de Textos Capítulo: 2 Ano: 2011 ISBN: 9788579751523 Comentário: o livro foi escrito numa linguagem simples, por um professor experiente, para alunos principiantes com conhecimentos básicos de estatística. A leitura do capítulo 2 é amplamente recomendável devido ao que virá a complementar e ilustrar com mais exemplos a seção 2.1.1, em especial, o tópico sobre regressão múltipla, apresentando as fórmulas usadas para cálculo dos parâmetros . Disponível em: Biblioteca Virtual. Conclusão Chegamos ao �nal do nosso estudo sobre técnicas multivariadas e análise de conglomerados. O método de ligação do vizinho mais longe é semelhante ao método de ligação do vizinho mais próximo, embora se baseie na distância máxima entre os objetos. No primeiro, a distância entre dois grupos é calculada entre seus dois pontos mais afastados. No método do vizinho mais próximo, ao unir elementos dos conglomerados que estejam mais próximos, os objetos intermediários entre os grupos são rapidamente conglomerados. Não é possível a�rmar, taxativamente, qual método é melhor, depende, dentre outras coisas, da natureza dos dados e do escopo dos mesmos. O que é possível e recomendável é efetuar medidas do grau de ajuste entre a matriz original dos coe�cientes de distância e a matriz resultante do processo de agrupamento. Alguns autores, inclusive, recomendam aceitar a matriz resultante se o valor do grau de ajuste for igual ou maior que 0,7%. Diversas técnicas são propostas, não há uma teoria generalizada e amplamente aceita. Recomenda-se utilizar vários métodos e obter o grau de ajuste para cada um deles e, logo depois, passar à análise dos dados. Os diferentes modelos da análise multivariada não fornecem respostas de�nitivas às perguntas. Os modelos simplesmente fornecem mais informações sobre os dados. Especi�camente, os conglomerados permitem que os pesquisadores identi�quem quais observações são semelhantes em muitas variáveis diferentes. Referênci as EISELET, H. A.; SANDBLOM, C. L. Linear programming and its applications. Berlim: Springer, 2007. FÁVERO, L. P.; BELFIORE, P. Análise de dados: técnicas multivariadas exploratórias com SPSS e STATA. São Paulo: Gen Atlas, 2015. HAIR, J. F. et al. Análise multivariada de dados. 5. ed. Porto Alegre: Bookman, 2009. INTRODUÇÃO à regressão linear. [S. l.: s. n.], 2018. 1 vídeo (18 min.). Publicado pelo canal IA Expert Academy. Disponível em: https://www.youtube.com/watch?v=ltRVgNsZBXE. Acesso em: 27 abr. 2022. JONG, P.; HELLER, G. Z. Generalized linear models for insurance data. Cambridge: Cambridge University Press, 2008. KOLODIAZHNYI, K. Hands-on machine learning with C++: build, train, and deploy end-to-end machine learning and deep learning pipelines. Birmingham: Packt Publishing, 2020. LANDIM, P. M. B. Análise estatística de dados geológicos multivariados. São Paulo: O�cina de Textos, 2011. (Disponível na Biblioteca Virtual). MATSUMOTO, E. Regression Analysis in MATLAB: new in statistics toolbox R2012a. MathWorks, [2022]. Disponível em: https://www.mathworks.com/videos/regression- analysis-in-matlab-new-in-statistics-toolbox-r2012a-82429.html. Acesso em: 26 abr. 2022. SPIEGEL, M. R.; LIPSCHUTZ, S.; LIU, J. Manual de fórmulas e tabelas matemáticas. Porto Alegre: Bookman, 2012. WITTEN, I. H.; FRANK, E. Data mining: practical machine learning tools and techniques. 2. ed. Massachusetts: Morgan Kaufmann Publishers, 2005. https://www.youtube.com/watch?v=ltRVgNsZBXE https://www.mathworks.com/videos/regression-analysis-in-matlab-new-in-statistics-toolbox-r2012a-82429.html https://www.mathworks.com/videos/regression-analysis-in-matlab-new-in-statistics-toolbox-r2012a-82429.html
Compartilhar