Baixe o app para aproveitar ainda mais
Prévia do material em texto
Introdução ANÁLISE MULTIVARIADA DE DADOSANÁLISE MULTIVARIADA DE DADOS CONJUNTOS MULTIVARIADOSCONJUNTOS MULTIVARIADOS DE DADOS E DIFERENTESDE DADOS E DIFERENTES TÉCNICAS DISPONÍVEISTÉCNICAS DISPONÍVEIS Au to r ( a ) : D r. Lu i s A l b e r to R a b a n a l R a m i re z R ev i s o r : A l e s s a n d ro Fe r re i ra A l ve s Tempo de leitura do conteúdo estimado em 1 hora e 10 minutos. Olá, caro(a) estudante! Tudo bem? Vamos dar início ao nosso estudo sobre análise multivariada de dados? Vamos lá! A análise estatística multivariada é uma poderosa ferramenta para a análise e a avaliação de dados, em diversos campos do conhecimento. Embora a análise estatística multivariada tenha surgido no início do século passado, apenas nos dias atuais, tem sido efetiva a sua aplicação, pois, sem o auxílio dos computadores, não seria possível realizá-la tão rapidamente e com tamanha clareza. Assim sendo, os recursos computacionais permitem que sejam levantados grá�cos precisos para avaliação do inter- relacionamento das variáveis. Vamos estudar, no decorrer desta unidade, técnicas importantes da análise multivariada: Análise de Conglomerados (AC), análise de componentes principais (PCA), análise de discriminantes e de regressão logística. Estabelecidas as condições de existência da análise multivariada de dados, apresenta-se, nesta unidade, uma breve, porém completa, revisão de literatura no que tange às diferentes técnicas de análise de dados. Bons estudos! Você já estudou sobre conjuntos multivariados de dados? Vamos abordar um pouco sobre este assunto. Em situações cotidianas, tomar decisões implica levar em consideração diversos fatores. Obviamente, nem todos possuem a mesma ponderação ao se realizar uma escolha. Às vezes, a intuição não permite identi�car esses fatores ou variáveis, ou seja, deixa-se de identi�car quais são as variáveis que afetam de forma signi�cativa o processo de tomada de decisão (HAIR et al., 2005). Conjuntos Multivariados de Dados Quando se realiza uma análise sobre o mundo que nos rodeia, pode-se observar que todos os fatos envolvem um grande número de variáveis. No pôr do sol, por exemplo (Figura 1.1), a luz é re�etida, refratada e difratada por diferentes meios e objetos, gerando cores de frequências diferentes. De fato, as diversas categorias cientí�cas apresentam uma tendência à pretensão de conhecer a realidade e de interpretar os fenômenos que a descrevem, tomando como base o conhecimento das variáveis envolvidas. Nesse ínterim, estabelecer as inter-relações, achar ou propor leis explicativas passa a ser papel próprio da ciência (veja, na Figura 1.1., exemplo de ótica). Para tal, são necessários o controle e a medição das variáveis, que são consideradas relevantes ao entendimento do fenômeno analisado. Figura 1.1 – Pôr do Sol: situações reais, muitas vezes, envolvem grá�cos, nuvens de pontos, pontos de atração, ruídos e diferentes ambientes espaciais Fonte: muha / 123RF. #PraCegoVer: a imagem é de uma fotogra�a colorida, na qual, na metade superior, aparece um céu azul, com degradê de fundo. Na metade inferior, o mar; no lado inferior esquerdo da foto, uma árvore de cor mais escura, contrastando com as outras cores; na parte central da foto, o sol, como fonte de uma forte luz amarela dominante. Tipos de variáveis Uma variável é uma dada característica de interesse sobre os elementos estudados, sendo que pode assumir diversos resultados (valores ou qualidades). Inicialmente, consideremos: variáveis quantitativas; variáveis qualitativas/categóricas. As variáveis quantitativas têm resultados dados por números. Com medições dessas variáveis, você pode fazer coisas como adicionar, subtrair, multiplicar e dividir, e obter um resultado signi�cativo. Existem dois tipos de variáveis quantitativas: variáveis discretas; variáveis contínuas. Uma variável discreta é quando há um número �nito de valores. Uma variável contínua é quando se tem um número in�nito de valores, dito de outra forma, valores dentro de uma escala intervalar. Uma variável independente é qualquer uma que esteja sendo manipulada. Já a dependente é qualquer variável que esteja sendo medida. Existem quatro tipos de dados de variáveis medidas: nominal, ordinal, intervalo e razão. #PraCegoVer: o infográ�co interativo contém quatro botões interativos, alinhados verticalmente. Como plano de fundo, há a ilustração de um quadro-negro e um professor, à esquerda. O primeiro botão interativo, intitulado “Dados nominais”, ao ser clicado, apresenta o texto “(também conhecidos como dados qualitativos/categóricos) são dados divididos em categorias”. O segundo botão interativo, Dados nominais Dados ordinais Dados de intervalo Dados de razão Fonte: sapannpix / 123RF. intitulado “Dados ordinais”, ao ser clicado, apresenta o texto “são dados nos quais a ordem importa, mas a distância entre os valores, não”. O terceiro botão interativo, intitulado “Dados de intervalo”, ao ser clicado, apresenta o texto “são dados em que a ordem é importante, as distâncias entre os valores são iguais e signi�cativas, e um zero natural não está presente”. O quarto botão interativo, intitulado “Dados de razão”, ao ser clicado, apresenta o texto “também são conhecidos como dados de proporção, e são dados nos quais a ordem importa, as distâncias entre os valores são iguais e signi�cativas, e um zero natural está presente”. A seguir, veremos com mais detalhe os métodos estatísticos de análise de variáveis. Métodos estatísticos de análise de variáveis Os métodos estatísticos de análise de variáveis estão dispostos em dois grupos principais: um deles trata da estatística que enxerga as variáveis de maneira isolada — estatística univariada —, e outro, que enxerga as variáveis de forma conjunta — estatística multivariada. Em geral, a análise de dados com base nos tipos de variáveis é dividida em três categorias. Análise univariada: o mais simples de todos os modelos de análise de dados, a análise univariada considera apenas uma variável no cálculo. Assim, embora seja bastante simples na aplicação, tem uso limitado na análise de dados. Por exemplo, a incidência de uma doença. Como a análise univariada é conduzida? A análise univariada é conduzida por meio de algumas formas, que são, principalmente, de natureza descritiva: tabelas de distribuição de frequência; histogramas; polígonos de frequência; grá�co de setores; grá�cos de barra. Análise bivariada: como o nome sugere, a análise bivariada leva em consideração duas variáveis. Ela tem uma área de aplicação, ligeiramente expandida, mas é limitada quando se trata de grandes conjuntos de dados. Por exemplo, a incidência de uma doença e a estação do ano. Como a análise bivariada é conduzida? A análise bivariada é conduzida por meio das técnicas: coe�cientes de correlação — é uma técnica de associação estatística, em que se observa a força do relacionamento entre duas variáveis. Isso mostra a força como correlações fortes ou fracas, e estas são classi�cadas em uma escala de -1 a 1, em que 1 é uma correlação direta perfeita, -1 é uma correlação inversa perfeita e 0 é nenhuma correlação. análise de regressão — a análise de regressão é usada para estimar as relações entre duas variáveis diferentes. Inclui técnicas de modelagem e análise de diversas variáveis, quando o foco é a relação entre uma variável dependente e uma ou mais variáveis independentes. Ajuda a entender como o valor da variável dependente muda quando qualquer uma das variáveis independentes é alterada. A análise de regressão é usada para �ns avançados de modelagem de dados, como previsão. Há uma gama de diferentes técnicas de regressão utilizadas, dependendo da natureza da variável e do tipo de análise procurada pela pesquisa. São elas: ○ regressão linear; ○ regressão simples; ○ regressão polinomial; ○ modelo linear geral; ○ escolha discreta; ○ regressão binomial; ○ regressão binária; ○ regressão logística. Análise multivariada: a análise multivariada leva em consideração umasérie de variáveis. Isso a torna uma ferramenta complicada e essencial. A maior virtude de tal modelo é que este considera tantos fatores quanto se é possível, o que resulta em uma tremenda redução de viés e dá um resultado mais próximo à realidade. Como a análise multivariada é conduzida? As técnicas de análise multivariada, comumente usadas, incluem: análise fatorial; AC; análise de variância; análise discriminante; dimensionamento multidimensional; PCA; análise de redundância. Conhecer as características dos dados multivariados na pesquisa é uma tarefa muito importante em análise multivariada de dados. Vejamos, a seguir, algumas sugestões que permitiram escolhas certas. Características da Escolha de Dados Multivariados Em um conjunto de dados multivariados, muitas variáveis são medidas para cada sujeito ou objeto. Essas variáveis não são, necessariamente, ordenadas. Existem três tipos principais de perguntas que norteiam a pesquisa. 1. Qual o grau de relacionamento entre as variáveis? 2. Como é a medição de diferenças signi�cativas entre as médias dos grupos? 3. Qual a previsão de associação de sujeitos/objetos em dois ou mais grupos, com base em duas ou mais variáveis? Para melhor compreensão e ampliação do escopo, vamos rever, sucintamente, a estrutura subjacente. Estrutura Subjacente Em meados da década de 1950, com o surgimento e a expansão dos computadores, a análise multivariada passou a desempenhar um grande papel nas áreas geológica, meteorológica, de medicina, de ciências sociais e de aplicações cientí�cas. A partir de então, novas teorias e novos métodos foram propostos e testados, constantemente, pela prática, e, ao mesmo tempo, mais campos de aplicação foram explorados. Com o auxílio de computadores modernos, podemos aplicar a metodologia de análise multivariada para fazer análises estatísticas bastante complexas. Até a efetiva adoção dos computadores, só era possível analisar as variáveis de modo isolado, e, a partir dessa análise, realizar-se inferências sobre a realidade. Tal simpli�cação possui vantagens e desvantagens, dado que um fenômeno depende de muitas variáveis. Em geral, esse tipo de análise falha, devido ao fato de não bastar conhecer informações estatísticas isoladas, sendo necessário compreender a totalidade dessas informações e suas inter-relações. Quando as relações existentes entre as variáveis não são percebidas em sua totalidade, estas di�cultam a interpretação do fenômeno. O avanço na eletrônica tem permitido construir computadores cada vez mais potentes, que têm alavancado o desenvolvimento cientí�co, elevando a capacidade de se obter informações mais completas tanto de acontecimentos quanto de fenômenos, o que antes não era possível analisar. A análise multivariada corresponde a um número considerável de métodos e técnicas. São usadas, simultaneamente, todas as variáveis interdependentes, de forma que permitam uma interpretação teórica de todo o conjunto de dados obtidos. Existem vários métodos de análise multivariada, cada um com �nalidades diferentes. Consequentemente, volta-se ao passo inicial, no qual precisamos saber que conhecimento se pretende gerar. Ou, em outras palavras, que tipo de hipótese se quer gerar a respeito dos dados. Não basta conhecer os métodos da análise multivariada, nem de explorar a fundo suas potencialidades; indica-se cautela, uso apropriado, de forma a detectar padrões esperados, dar a importância devida às limitações de cada um deles, e este último implica tempo. Esses métodos são escolhidos em concordância com os objetivos da pesquisa, seu uso permite a geração de hipóteses, e não tecer con�rmações (embora, às vezes, possa ser utilizada para con�rmação dos eventos). Existem vários métodos diferentes para se realizar análises multivariadas, e decidir qual método é o melhor depende do tipo de dados e do problema que você está tentando resolver. A seleção do método ou da técnica multivariada apropriada pode ser norteada considerando as respostas às seguintes perguntas. a) As variáveis são divididas em classi�cação independente e dependente? Se sim, quantas variáveis são tratadas como dependentes em uma única análise? b) Como são medidas as variáveis, tanto dependentes quanto independentes? A técnica de análise multivariada pode ser classi�cada em duas grandes categorias — a saber, essa classi�cação depende da pergunta: as variáveis envolvidas são dependentes umas das outras ou não? Se a resposta for sim, temos métodos de dependência. Se a resposta for não, temos métodos de interdependência. Técnicas de dependência: são tipos de técnicas de análise multivariada, que são usadas quando uma ou mais das variáveis podem ser identi�cadas como variáveis dependentes, e Fonte: bluebay / 123RF. as demais variáveis podem ser identi�cadas como independentes. Quanto a encontrar e veri�car como as amostras se relacionam, em outras palavras, o quanto estas são semelhantes, considerando as variáveis trabalhadas, destacam-se dois métodos, que podem ser utilizados: a análise de conglomerados hierárquicos e a análise fatorial com PCA. Em qualquer modelagem da realidade, seja matemática ou estatística, chega-se a utilizar um número inferior de variáveis, se comparado com as que existem na realidade (assumindo que você identi�que todas elas, e que o equipamento computacional seja capaz de trabalhar). A escolha das variáveis mais signi�cativas para nossa hipótese é complicada e leva tempo para se dominar, consequentemente, perdas de informação farão parte do processo. Lembre-se de que, no caso univariado, no qual se reduz para uma variável, e que todos os dados são representados por uma média, a perda de informação será maior. O pesquisador tem que ter a sensibilidade de obter a informação, saber se algum erro foi gerado como consequência de não ter sido considerada uma variável importante. Aplicar os métodos por meio de rotinas computacionais é a parte mais fácil, o difícil é interpretar o novo conjunto de variáveis, em menor número, e ser capaz de traduzir as informações que aparecem como resultado do processo, que, até então, não eram reveladas, por estarem em um espaço de dimensões maiores que o nosso conhecido espaço tridimensional. Por exemplo, suponha que um projeto tenha sido atribuído a você para prever as vendas da empresa. Você não pode, simplesmente, dizer que "X'' é o fator que afetará as vendas. Sabemos que existem vários aspectos ou variáveis que irão impactar as vendas. Analisar as variáveis que mais impactaram essas vendas só será possível usando a análise multivariada. E, na maioria dos casos, não será apenas uma variável. As vendas vão depender da categoria do produto, da capacidade de produção, da localização geográ�ca, do esforço de marketing, da presença da marca no mercado, da análise da concorrência, do custo do produto e das várias outras variáveis. Vendas são apenas um exemplo. Vantagens da análise multivariada A principal vantagem da análise multivariada é que, por considerar mais de um fator de variáveis independentes que in�uenciam a variabilidade das variáveis dependentes, a conclusão obtida é mais precisa. Em outras palavras, a profundidade de percepção que ela fornece, ao explorar múltiplas variáveis, �gurativamente, signi�ca que você está pintando uma imagem muito mais detalhada do que está ocorrendo — e, como resultado, os insights que você descobre são muito mais aplicáveis ao mundo real. As conclusões são mais realistas e mais próximas da situação da vida real. Desvantagens da análise multivariada A principal desvantagem da análise multivariada inclui que ele requer cálculos bastante complexos para se chegar a uma conclusão satisfatória. Muitas observações para um grande número de variáveis precisam ser coletadas e tabuladas; é um processo bastante demorado. O objetivo principal do elemento interativo a seguir é deixar clara a importância dos conglomerados. Chegamos ao �m do nosso tópico sobre conjuntos multivariados de dados, e você teve a oportunidade de aprendermais sobre esse assunto. O que acha de realizar uma atividade para testar seus conhecimentos? Vamos lá! Conhecimento Teste seus Conhecimentos (Atividade não pontuada) No estudo da análise multivariada, existe uma técnica para análise de dados, que divide os dados em grupos que são signi�cativos, úteis ou ambos. Se o objetivo é dividir em grupos signi�cativos, então, os grupos devem capturar a estrutura natural dos dados. Em alguns casos, no entanto, essa técnica é apenas um ponto de partida útil para outros propósitos, como a sumarização de dados. Seja para compreensão, seja para outra utilidade, essa técnica tem desempenhado um papel importante em uma ampla variedade de campos, como psicologia e outras ciências sociais, biologia, estatística, reconhecimento de padrões, recuperação de informações, aprendizagem de máquina (machine learning) e mineração de dados (data mining). Assinale a alternativa que apresenta, corretamente, a qual técnica este parágrafo se refere. a) Redução de dados. A importância dos conglomerados: o objetivo da análise de conglomerados é descobrir o agrupamento natural de um conjunto de padrões, pontos ou objetos. b) Geração de hipóteses. c) Divisão das observações em grupos. d) Análise fatorial. e) Análise de conglomerados. A seguir, serão apresentadas as técnicas de análise multivariada de dados mais relevantes no estado da arte. Análise de Conglomerados A AC, ou análise de clusters, ou, simplesmente, clusterização, corresponde a uma variedade de técnicas e algoritmos, sendo que o objetivo principal é encontrar e separar objetos em grupos similares. Informalmente falando, clustering signi�ca “encontrar grupos nos dados”. A classi�cação de Aristóteles dos seres vivos (animais e plantas) foi um dos primeiros agrupamentos ou conglomerados conhecidos, um agrupamento de caráter hierárquico. O conhecimento da biologia cresceu, mas a organização esquemática de todas as espécies conhecidas permanece na forma de um agrupamento (hierárquico). Médicos de�nindo categorias de tumores por suas propriedades, astrônomos agrupando galáxias por suas formas, empresas observando que os usuários de seus produtos se agrupam de acordo com o comportamento, arqueólogos de�nindo períodos culturais a partir de características de artefatos encontrados, programas que rotulam os pixels de uma imagem pelo objeto ao qual eles pertencem (ver Figura 1.1), outros programas, que segmentam um �uxo de vídeo em cenas, sistemas de recomendação, que agrupam produtos em categorias e manifestações públicas de protestos, todos estão realizando agrupamento. Conforme Everitt (1974 apud BUSSAB, 1990) a AC pretende resolver o seguinte problema: “dada uma amostra de “n” objetos (ou indivíduos), cada um deles medindo Diferentes Técnicas Disponíveis segundo “p” variáveis, procurar um esquema de classi�cação que agrupe os objetos em “g” grupos. Deve ser determinado, também, o número de variáveis desses grupos”. Portanto, a �nalidade dessa técnica é reunir os objetos (indivíduos, elementos) veri�cados nos grupos em que exista homogeneidade dentro do grupo e heterogeneidade entre os grupos, objetivando propor classi�cações. Os objetos em um grupo são relativamente semelhantes, em termos dessas variáveis, e diferentes de objetos de outros grupos (VICINI, 2005, p. 14). Há também tarefas bastante gerais, para as quais a AC é aplicada em muitas áreas. 1. Análise exploratória de dados, procurando “padrões interessantes”, sem prescrever qualquer interpretação especí�ca, potencialmente, criando novas perguntas e hipóteses de pesquisa. 2. Redução de informações e estruturação de conjuntos de entidades de qualquer área temática para simpli�cação, comunicação mais e�caz ou acesso/ação mais e�caz, como complexidade de redução para análise de dados adicionais. 3. Investigação de correspondência de um agrupamento em dados especí�cos com outros agrupamentos ou características, hipotéticos ou derivados de outros dados. A análise de cluster é uma área de pesquisa muito ativa. A pesquisa de análise de cluster é feita em várias áreas temáticas, mais notavelmente, em estatística, machine learning e matemática discreta. Pesquisadores em ciências sociais, psicologia, biologia e gestão são inspirados por áreas de aplicação especí�cas. A formulação do problema é a parte mais importante da AC, a escolha das variáveis será fundamental no processo de aglomeração. A escolha errada de uma ou mais variáveis, menos signi�cativas, poderá vir a distorcer o resultado da análise. O conjunto de variáveis escolhidas, cuidadosamente, deve ser representativo das semelhanças entre objetos que pertencem ao grupo. Por exemplo, em um grupo de diabéticos, as variáveis nível de glicose, vida sedentária e tipo de alimentação, serão as variáveis principais, mas não todas as variáveis a se considerar, outras variáveis serão importantes para o problema. Essa fase é vital para a AC, pois é onde se �xa o critério de homogeneidade. Critérios distintos nos levam a grupos homogêneos com características distintas. No exemplo mencionado anteriormente, o grupo de diabéticos nos levaria a grupos de diabetes tipos 1 e 2, e o tipo de homogeneidade depende dos objetivos almejados. O AC tem sido aplicado na ciência atuarial. Por exemplo, Campbell (1986) aplicou a análise de cluster para identi�car grupos de modelos de carros com atributos técnicos semelhantes, com o objetivo de estimar o prêmio de risco para modelos de carros individuais. Yao (2016) explorou o agrupamento de territórios para a formação de taxas no seguro automóvel. Gan, Lan e Sima (2016) e Gan e Lin (2017) usaram o agrupamento de dados para selecionar políticas representativas para construir modelos preditivos, para avaliar grandes carteiras de contratos de anuidade variável. Ao analisar os dados, em primeiro lugar, deve-se veri�car se estes devem ser tratados e se é necessária uma padronização. Por exemplo, conferir se as variáveis estão nas mesmas unidades de medidas. A solução por conglomerado será in�uenciada pelas unidades de medida. Figura 1.2 – Análise multivariada da evolução espaço-temporal da covid-19 no Brasil, em 2019 Fonte: Nascimento (2020, p. 6). #PraCegoVer: a �gura apresenta, na parte superior, um tubo de teste vermelho, para identi�car a positividade ou a negatividade de covid-19. Abaixo, há o mapa do Brasil, dividido em estados. As cores sinalizam como o coronavírus se espalhou pelo Brasil inteiro, no ano de 2019. As cores usadas são: roxo, para os estados do grupo 5 (Bahia, Minas Gerais, São Paulo, Paraná, Santa Catarina e Rio Grande do Sul); laranja, para os estados do grupo 4 (Amazonas, Pará, Ceará, Pernambuco e Rio de Janeiro); amarela, para os estados do grupo 3 (Distrito Federal); verde, para os estados do grupo 2 (Roraima, Amapá, Mato Grosso e Espírito Santo); e azul, para os estados do grupo 1 (Acre, Rondônia, Mato Grosso do Sul, Goiás, Tocantins, Maranhão, Piauí, Sergipe, Alagoas, Paraíba e Rio Grande do Norte). Na parte inferior direita da �gura, há um grá�co de dispersão que não tem relação com a AC. Por �m, na parte superior direita, há uma esfera cinza, com uma coroa de espinhos vermelhos, representando o coronavírus. Análise Fatorial, Análise de Componentes Principais e Análise de Escalonamento Multidimensional A análise fatorial é uma forma de se condensar os dados de muitas variáveis em apenas algumas. Por esta razão, às vezes, também é chamado de “redução de dimensão”. Faz o agrupamento de variáveis com alta correlação. A análise fatorial inclui técnicas como PCA e análise fatorial comum. Esse tipo de técnica é usado como etapa de pré-processamento, para transformar os dados antes de usar outros modelos. Quando os dados têm muitas variáveis, o desempenho das técnicas multivariadas não está no nível ótimo, pois os padrões são mais difíceis de serem encontrados. Ao usar a análise fatorial, os padrões tornam-se menos diluídos e mais fáceis de se analisar. Vejamos um exemplo: vamos imaginar que você tenha um conjunto de dados contendo informaçõesreferentes à renda, ao nível de escolaridade e à ocupação de uma pessoa. Você pode encontrar um alto grau de correlação entre cada uma dessas variáveis, e, assim, reduzi-las ao único fator “status socioeconômico”. Você também pode ter dados sobre o quanto eles �caram satisfeitos com o atendimento ao cliente, o quanto gostaram de um determinado produto e a probabilidade de recomendar o produto a um amigo. Cada uma dessas variáveis pode ser agrupada no único fator “satisfação do cliente” (desde que se encontrem fortemente correlacionadas umas com as outras). Mesmo que você tenha reduzido vários pontos de dados a apenas um fator, você não está, de fato, perdendo nenhuma informação — esses fatores capturam e representam de maneira adequada as variáveis individuais em questão. Com seu conjunto de dados “simpli�cado”, agora, você está pronto para realizar outras análises. Análise de componentes principais A PCA é um procedimento estatístico preocupado em elucidar a estrutura de covariância (permite- nos saber como uma variável se comporta com base nas mudanças da outra variável) de um conjunto de variáveis. Em particular, permite-nos identi�car as principais direções em que os dados variam. Por exemplo, como a qualidade da água difere, dependendo do local do rio que é analisado? Na nascente, a água é a mesma que encontramos no riacho de uma área urbana sem esgoto? O reconhecimento facial é outro exemplo, em que a PCA tem sido amplamente utilizada, sobretudo, para reduzir o número de variáveis. Consideremos o caso 2D, em que temos uma imagem de entrada e desejamos compará-la com um conjunto de imagens de banco de dados, para encontrar a melhor correspondência. Assumimos que as imagens têm todas a mesma resolução e são todas enquadradas de forma equivalente (ou seja, os rostos aparecem no mesmo local e na mesma escala nas imagens). Cada pixel pode ser considerado uma variável, portanto temos um problema de dimensão muito alta, que pode ser simpli�cado por PCA. A maioria dos pixels da imagem será altamente correlacionada. Por exemplo, se os pixels de fundo são todos iguais, os pixels de fundo adjacentes são exatamente correlacionados. Assim, precisamos considerar como conseguir uma redução no número de variáveis. Análise de escalonamento multidimensional A Análise de Escalonamento Multidimensional (MDS, do inglês Multidimensional Scaling) é uma técnica matemática que nos permite mapear as distâncias entre pontos em um espaço de alta dimensão, em um espaço de dimensão inferior. É mais útil quando podemos mapear distâncias de um espaço de alta dimensão em um espaço bidimensional. Nesse caso, os pontos de dados podem ser plotados em um espaço bidimensional, e podemos examinar o grá�co para ver quais pontos tendem a �car próximos um do outro. Consequentemente, o dimensionamento multidimensional pode ser usado como outra técnica a ser utilizada, quando queremos agrupar observações em grupos. A MDS é considerada uma das várias técnicas multivariadas que visam revelar a estrutura de um conjunto de dados plotando pontos em uma ou duas dimensões. Um bom exemplo disso seria traçar dois pontos representando duas cidades diferentes e a distância entre elas. Você faria isso por meio de um processo de tentativa e erro, até você ter os pontos para representar a distância exata. O exemplo, no entanto, difere do problema típico de dimensionamento multidimensional. O problema é que sabemos que as cidades podem estar localizadas em um mapa bidimensional, mas, quando se trata de MDS, não sabemos quantas dimensões podem ser necessárias para se reproduzir a distância dada entre objetos. Uma vez que os dados estejam em mãos, o dimensionamento multidimensional pode ajudar a determinar: quais dimensões os entrevistados usam ao avaliar objetos; quantas dimensões eles podem usar em uma situação especí�ca; a importância relativa de cada dimensão; como os objetos estão relacionados, perceptivamente. O objetivo da MDS é transformar os julgamentos dos consumidores sobre similaridade ou preferência (por exemplo, preferência por lojas ou marcas) em distâncias representadas no espaço multidimensional. O resultado: mapas perceptuais mostram o posicionamento relativo de todos os objetos. A escala multidimensional é baseada na comparação de objetos, qualquer objeto (produto, serviço, imagem etc.) tendo dimensões percebidas e objetivas. Por exemplo, uma empresa pode ver seu novo modelo de cortador de grama como tendo duas opções de cores (vermelho e verde), e uma lâmina de 54 cm. Essas são as dimensões objetivas. Os clientes podem ou não ver esses atributos. Os clientes também podem perceber o cortador de grama como de aparência cara ou frágil, e estas são as dimensões. Para aplicar MDS a um conjunto de pontos de dados (possivelmente, um conjunto de médias de grupo), devemos, primeiro, calcular as distâncias entre todos os pares de pontos. Uma das medidas de distância mais razoáveis para se usar é a padronização dos dados, e, em seguida, usar a fórmula de distância da régua padronizada. Algumas medidas comuns de distância são: regra da distância; regra padronizada da distância da régua padronizada; distância mahalanobis. A seguir, enfatiza-se a importância das técnicas multivariadas e sua aplicação em diferentes áreas, além de mencionar a possibilidade do uso de mais de uma técnica para resolução de problemas. A seguir, vamos realizar uma atividade, de forma a consolidar nosso aprendizado. Conhecimento Teste seus Conhecimentos (Atividade não pontuada) Tanto em análise multivariada quanto em machine learning, a PCA é uma técnica fundamental. Dada a sua relevância, assinale a alternativa que apresenta, corretamente, qual a importância de usar a PCA antes da AC. a) Encontrar bons recursos para melhorar a AC. b) Descobrir qual dimensão de dados maximiza a variação de recursos. c) Usar com dados de poucas dimensões. d) Visualização de dados de alta dimensão. S A I B A M A I S De acordo com Vicini (2005, p. 32), é importante lembrar que, embora as técnicas multivariadas que constam na literatura tenham sido criadas com o objetivo de resolver problemas especí�cos, como na área de biologia e psicologia, essas podem ser utilizadas para resolver muitos outros problemas práticos nas diversas áreas do conhecimento. Na maioria das vezes, os objetivos desses problemas práticos só são resolvidos mediante aplicação de mais de uma técnica multivariada, aplicadas em uma sequência. Para saber mais, acesse o link a seguir: http://w3.ufsm.br/adriano/livro/Caderno%20dedatico%20multivariada%20- %20LIVRO%20FINAL%201.pdf. Fonte: Vicini (2005, p. 32). http://w3.ufsm.br/adriano/livro/Caderno%20dedatico%20multivariada%20-%20LIVRO%20FINAL%201.pdf http://w3.ufsm.br/adriano/livro/Caderno%20dedatico%20multivariada%20-%20LIVRO%20FINAL%201.pdf e) Os novos componentes são funções lineares. Vamos estudar sobre análise de discriminante e análise de regressão logística? A análise de discriminante linear e a regressão logística são métodos estatísticos multivariados, que podem ser usados para a avaliação das associações entre muitas variáveis contínuas, que, em geral, não são controladas durante a coleta de dados. Ambas as metodologias têm sido aplicadas de maneira ampla na pesquisa (CORRAR, 2009). A regressão logística e a análise de discriminante são apropriadas quando a variável dependente não é métrica, porém a análise de discriminante tem a desvantagem de possuir pressupostos mais rígidos e distribuição normal para as variáveis independentes, tornando a regressão logística preferida para os estudos econométricos. Análise de Discriminante A análise de discriminante é um método de classi�cação usado para determinar qual conjunto de variáveis discriminar entre dois ou mais grupos de ocorrência natural e para classi�car uma observação nesses grupos conhecidos. A Análise de Discriminante Linear (LDA) já existe há algum tempo. Apesar de sua simplicidade, a LDA, geralmente, produz resultados de classi�cação robustos, decentes e interpretáveis.Ao lidar com problemas de classi�cação do mundo real, a LDA, em geral, é o método de benchmarking aplicado antes de outros mais complicados e �exíveis. Vantagens da LDA Análise de Discriminante e Análise de Regressão Logística Classi�cadora de protótipo simples: a distância até a média da classe usada é simples de se interpretar. O limite de decisão é linear: é simples de se implementar, e a classi�cação é robusta. Redução de dimensão: fornece uma visão informativa de baixa dimensão dos dados, que é útil para visualização e engenharia de recursos. Desvantagens da LDA Os limites de decisão linear podem não separar, adequadamente, as classes. O suporte para limites mais gerais é desejado. Em uma con�guração de alta dimensão, a LDA usa muitos parâmetros. Uma versão regularizada da LDA é desejada. O suporte para uma classi�cação de protótipos mais complexa é desejado. Regressão Logística A regressão logística é uma forma de regressão usada quando a variável dependente é dicotômica, discreta ou categórica, e as variáveis explicativas são de qualquer tipo. Por exemplo, nas ciências médicas, o resultado, geralmente, é a presença ou ausência de uma situação declarada ou de uma doença. Usando a transformação logit, a regressão logística prediz sempre a probabilidade de pertencimento ao grupo em relação a diversas variáveis independentes de sua distribuição. Segundo Fávero e Bel�ori (2015), a regressão logística é um modelo que possibilita à variável dependente mais de uma categoria de classi�cação, seja ela nominal ou ordinal. Classificadora de protótipo simples O limite de decisão é linear Redução de dimensão a distância até a média da classe usada é simples de se interpretar. 1 2 3 Os limites de decisão linear podem não separar, adequadamente, as classes. O suporte para limites mais gerais é desejado. A análise de regressão logística é baseada no cálculo das chances do resultado como a razão da probabilidade de ter o resultado dividido pela probabilidade de não ter. Por exemplo, vamos imaginar que você trabalha como analista no setor de seguros, e precisa prever a probabilidade de cada cliente em potencial fazer uma reclamação. Você pode inserir uma série de variáveis independentes em seu modelo, como idade, se eles têm ou não um problema de saúde grave, sua ocupação, e assim por diante. Usando essas variáveis, uma análise de regressão logística calcula a probabilidade de o evento (fazer uma reclamação) ocorrer. Outro exemplo muito citado são os �ltros usados para classi�car e-mails como “spam” ou “não spam”. Vantagens da regressão logística É muito fácil de entender. Funciona bem para conjuntos de dados simples, bem como quando o conjunto de dados é linearmente separável. Não faz suposições sobre as distribuições de classes no espaço de recursos. Um modelo de regressão logística é menos provável de ser superajustado, mas pode ser superajustado em conjuntos de dados de alta dimensão. Para evitar o ajuste excessivo desses cenários, pode-se considerar a regularização. São mais fáceis de se implementar e interpretar. Desvantagens da regressão logística Às vezes, é necessária muita engenharia de recursos. Se as características independentes estiverem correlacionadas entre si, isso pode afetar o desempenho do classi�cador. É bastante sensível a ruídos e over�tting. A regressão logística não deve ser utilizada se o número de observações for menor que o número de feições, caso contrário, pode levar a over�tting. Usando a regressão logística, problemas não lineares não podem ser resolvidos porque têm uma superfície de decisão linear. Mas, em cenários do mundo real, os dados linearmente separáveis são raros de serem encontrados. Ao usar a regressão logística, é difícil obter relacionamentos complexos. Alguns algoritmos, como redes neurais, que são mais poderosos e compactos, podem, facilmente, superar os algoritmos de regressão logística. Na regressão linear, existe uma relação linear entre as variáveis independentes e dependentes, mas, na regressão logística, as variáveis independentes estão relacionadas de maneira linear com o log das probabilidades (log(p/(1-p)). Assim, pode-se propor que tanto a análise de discriminante quanto a regressão logística podem ser usadas para prever a probabilidade de um determinado resultado usando todas, ou um subconjunto de variáveis disponíveis. praticar Vamos Praticar A AC abrange uma variedade de técnicas, cujo objetivo principal é agrupar observações ou variáveis em clusters. A seguir, será apresentado um exemplo numérico simples, para, baseado(a) nesse exemplo, você praticar com problemas similares. Exemplo: Os gastos diários com alimentação (X1) e vestuário (X2) de cinco pessoas (dados �ctícios) são mostrados no quadro a seguir. Os dados do quadro acima, gra�camente, correspondem à seguinte �gura. Quadro: Dados ilustrativos de gastos de cinco pessoas �ctícias Fonte: Elaborado pelo autor. #PraCegoVer: o quadro apresenta três colunas e seis linhas. Na primeira linha, temos “pessoa”, na primeira coluna, “alimentação (x1) em R$”, na segunda coluna, e “vestuário (x2) em R$”, na terceira coluna. Na segunda linha, temos “Pedro”, na primeira coluna, “2”, na segunda coluna, e “4”, na terceira coluna. Na terceira linha, temos “Camila”, na primeira coluna, “8”, na segunda coluna, e “2”, na terceira coluna. Na quarta linha, temos “Maria”, na primeira coluna, “9”, na segunda coluna, e “5”, na terceira coluna. Na quinta linha, temos "Luis", na primeira coluna, “1”, na segunda coluna, e “3”, na terceira coluna. Na sexta linha, temos “Thereza”, na primeira coluna, “8,5”, na segunda coluna, e “1”, na terceira coluna. Pessoa Alimentação (X1) em R$ Vestuário (X2) em R$ Pedro 2 4 Camila 8 2 Maria 9 5 Luis 1 3 Thereza 8,5 1 Figura: Grá�co de vestuário (x2) versus alimentação (x1) Fonte: Elaborada pelo autor. #PraCegoVer: a �gura apresenta o grá�co de vestuário (x2) versus alimentação (x1). No eixo x, temos os dados sobre “Alimentação (X1) em reais”, e os valores nesse eixo são 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 e 10. No eixo y, temos os dados sobre “Vestuário (X2) em reais”, e os valores nesse eixo são 0, 1, 2, 3, 4, 5 e 6. Da esquerda para a direita, temos um ponto vermelho na intersecção de 1, no eixo x, e 3, no eixo y. Um ponto vermelho, na intersecção de 2, no eixo x, e 4, no eixo y. Um ponto vermelho, na intersecção de 8, no eixo x, e 2, no eixo y. Um ponto vermelho, na intersecção de 8,5 no eixo x, e 1, no eixo y. Por �m, um ponto vermelho na intersecção de 9, no eixo x, e 5, no eixo y. A �gura acima sugere que as cinco observações formam dois cluster (conglomerados). O primeiro, constituído por Luis e Pedro, e o segundo por Camila, Maria e Thereza. Pode-se notar que as observações em cada cluster são semelhantes entre si, no que diz respeito aos gastos com alimentação e vestuário, e que os dois cluster são bastante distintos um do outro. Colete dados de cinco amigos, cinco familiares e cinco desconhecidos na rua e construa as respectivas tabelas, grá�cos e, visualmente, analise e interprete os resultados, como no exemplo. Você está praticando a teoria de análise de agrupamentos. Material Complementar W E B Introduction to Multivariate Data Analysis — YouTube Ano: 2013 Comentário: Brad Swarbrick é vice-presidente de desenvolvimento de negócios de uma empresa de software. Apresenta uma introdução rápida à análise de dados multivariados, apresenta e comenta algumas de suas aplicações e disserta acerca de como essas ferramentas estatísticas estão sendo usadas para melhorar produtos e processos de fabricação em uma ampla gama de indústrias. Para conhecer mais sobre o vídeo, acesse o link a seguir: ACESSAR https://www.youtube.com/watch?v=KhA_PCMPZZo L I V R O Análise de dados multivariados Autor: James Lattin, J. Douglas Carroll e Paul E. Green Editora: Cengage Learning Capítulo: Três primeiros capítulos Ano: 2011 ISBN: 9788522109012 Comentário: O livro foi escrito para usuários que não são estatísticos pro�ssionaismas para pro�ssionais de outras áreas, como psicólogos, sociólogos, pesquisadores de mercado, ciências atuariais etc. O segundo e terceiro autores do livro (Carroll e Green) são autores com décadas de experiência dando aulas de análise multivariada. A pedido do primeiro autor (Lattin), que estava dando aulas de análise multivariada pela primeira vez, foi criado um livro, em uma linguagem acessível, o qual indicamos como leitura obrigatória. Disponível em: Minha Biblioteca. Conclusão Caro(a) estudante, espera-se que, neste material, você, como estudante, tenha se familiarizado com os conceitos de variáveis e objetos. Que toda a informação contida neste primeiro capítulo permita a você analisar os fatores que produzem diferentes objetos ao longo do tempo e do espaço. E que você tenha clara a diferença entre os tipos de variáveis, vale dizer, diferenciar entre variáveis qualitativas, quantitativas, discretas, contínuas, nominais e ordinais, além de ter uma visão geral das principais técnicas de AC, suas características, ilustradas com exemplos simples que permitem uma base teórica sólida. Por �m, neste capítulo, que você tenha um primeiro contato com os principais tipos de análise: fatorial, PCA e MDS. Referências CAMPBELL, M. An integrated system for estimating the risk premium of individual car models in motor insurance. ASTIN Bulletin, [s. l.], v. 16, n. 2, 1986. Disponível em: https://bit.ly/3jRytjw. Acesso em: 12 abr. 2022. CORRAR, L. J.; PAULO, E.; DIAS FILHO, J. M. Análise Multivariada: Para Cursos de Administração, Ciências Contábeis e Economia. São Paulo: Atlas S.A., 2009. FÁVERO, L. P.; BELFIORI, P. Análise de Dados: Técnicas Multivariadas Exploratórias com SPSS e STATA. Rio de Janeiro: Editora Elsevier, 2015. GAN, G.; LAN, Q.; SIMA, S. Scalable clustering by truncated fuzzy c-means. Big Data and Information Analytics, [s. l.], v. 1, n. 2, p. 247–259, 2016. Disponível em: https://www.aimspress.com/article/id/2001. Acesso em: 11 abr. 2022. GAN, G.; LIN, X. S. E�cient Greek calculation of variable annuity portfolios for dynamic hedging: A two- level metamodeling approach. North American Actuarial Journal, [s. l.], v. 21, n. 2, p. 161–177, 2017. Disponível em: https://www.tandfonline.com/doi/abs/10.1080/10920277.2016.1245623. Acesso em: 11 abr. 2022. INTRODUCTION to Multivariate Data Analysis. [S. l.: s. n.], 2013. 1 vídeo (11 min.). Publicado pelo canal Camo Analytics. Disponível em: https://www.youtube.com/watch?v=KhA_PCMPZZo. Acesso em: 12 abr. 2022. https://bit.ly/3jRytjw https://www.aimspress.com/article/id/2001 https://www.tandfonline.com/doi/abs/10.1080/10920277.2016.1245623 https://www.youtube.com/watch?v=KhA_PCMPZZo HAIR, J. F. J. et al. Análise multivariada de dados. 5. ed. Porto Alegre: Bookman, 2005. LATTIN, J.; CARROLL, J. D.; GREEN, P. E. Análise de dados multivariados. Boston: Cengage Learning, 2011. (Disponível em Minha Biblioteca). LIMA, F. S.; ZAGO, N. Evasão na Educação Superior: tendências e resultados de pesquisa. Movimento- Revista de Educação, Niterói, v. 5, n. 9, p. 131–164, jul./dez. 2018. Disponível em: https://periodicos.uff.br/revistamovimento/article/download/32679/18827, acesso em: 20 mar. 2022. NASCIMENTO, M. L. F. A multivariate analysis on spatiotemporal evolution of Covid-19 in Brazil. Infectious Disease Modelling, [s. l.], v. 5, p. 670–680, 2020. Disponível em: https://www.sciencedirect.com/science/article/pii/S2468042720300427. Acesso em: 30 mar. 2022. VICINI, L. Análise multivariada: da teoria à prática. Monogra�a. Faculdade de Engenharia, Universidade Federal de Santa Maria. Santa Maria, 215 f. 2005. Disponível em: http://w3.ufsm.br/adriano/livro/Caderno%20dedatico%20multivariada%20- %20LIVRO%20FINAL%201.pdf. Acesso em: 06 abr. 2022. YAO, J. Clustering in General Insurance Pricing. In: FREES, E.; MEYERS, G.; DERRIG, R. (ed.). Predictive Modeling Applications in Actuarial Science (International Series on Actuarial Science, p. 159–179). Cambridge: Cambridge University Press, 2016. https://periodicos.uff.br/revistamovimento/article/download/32679/18827 https://www.sciencedirect.com/science/article/pii/S2468042720300427 http://w3.ufsm.br/adriano/livro/Caderno%20dedatico%20multivariada%20-%20LIVRO%20FINAL%201.pdf http://w3.ufsm.br/adriano/livro/Caderno%20dedatico%20multivariada%20-%20LIVRO%20FINAL%201.pdf
Compartilhar