312000000_atv3

•

UAM

0

Efraim Lima

10/06/2021

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística I

57.260 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Algoritmos nos auxiliaram nas descobertas mais diversas nos últimos anos. Sabemos que podemos calcular distâncias que antes eram incalculáveis, conseguimos analisar volumes de compras na internet em uma questão de segundos assim como podemos cruzar dados para calcular a quantidade de estoque de um determinado produto que deve ser vendido na próxima temporada.
Agora, quando precisamos tomar decisões e analisar dados provenientes de textos e/ou conjuntos de textos, precisamos de técnicas que auxiliem na acurácia dos resultados dessa análise e que facilite nosso trabalho neste conjunto de palavras. Para encontrar coerência, semelhanças e combinações entre volumes grandes de texto podemos nos valer de técnicas mais elaboradas, que passam este material por diversos filtros onde podem cruzar, comparar, associar e catalogar uma infinidade de termos e palavras cujo seria impossível fazermos no mesmo intervalo de tempo.
Para entendermos como esse processo pode ser feito vamos começar pela parte mais simples: os algoritmos de processamento de linguagem natural, cujo sabemos que empresas como o Google utilizam ferramentas semelhantes em suas plataformas. Como exemplos deste algoritmos podemos citar os algoritmos LSI e LDA.
A técnica LSI (Latent Semantic Indexing) consiste em procurar semelhanças e significados entre duas palavras ou grupo de palavras, mas de maneira que garanta a preservação das características mais importantes do texto que é tomado como base. Agora, o LDA (Latent Dirichlet Allocation), funciona de maneira parecida, mas procura a semelhança entre contextos, ou seja, avalia a probabilidade de um determinado assunto estar sendo abordado naquele contexto com base nas palavras abordadas naquele texto, aproveitando-se da inferência Bayesiana no processo. Se formos tentar traduzir o que cada um faz podemos dizer que a LSI procura encontrar semelhanças entre textos, enquanto a LDI procura trazer referências entre palavras dentro de um conjunto de palavras e catalogar esses conjuntos em algum tipo de tópico, muito útil.
Agora, retornando ao início do texto, precisamos ter em mente que trataremos de um processo mais complexo, que pode ter diversos processos menores em sua composição, e uma destas etapas a serem aplicadas seria a técnica de árvores de decisão. As árvores de decisão são métodos de aprendizado de máquina que se baseiam em um formato semelhante a um fluxograma, elas classificam processos e também podem ser feitas baseadas em linguagem natural, o que nos ajuda no entendimento de cada etapa. Mas o que mais diferencia a árvore de decisão é que ela parte de um item único inicial (aqui chamado de nó raiz) e se ramifica em outros nós que são inferências ao nó principal, por assim se dizer. Isso permite que de uma única situação possamos gerar cenários diversos e, também, gerar processos de classificação e/ou regressão a partir do nó raiz.
Agora, enfim, chegamos à parte onde unimos todas as situações em uma sequência de processos e, deste, observamos dados importantes para uma tomada de decisão. Só precisamos compreender mais um termo: florestas aleatórias.
Ao combinarmos várias árvores de decisão criadas com o método bagging, chegamos à floresta aleatória. O método bagging é uma técnica de treinamento de coleções instáveis, em outras palavras é uma maneira de compensar os erros no treinamento do algoritmo com base na aleatoriedade de seus resultados.
Perfeito, agora devidamente introduzidos a todas as ferramentas podemos nos perguntar: Mas qual o objetivo desse tipo de análise?
Perfeito, vamos supor que sejamos analistas de alguma empresa e precisemos ler uma infinidade de documentos, catalogar por temas, encontrar certas semelhanças em textos para, no final de tudo, saber se uma pessoa pode ou não receber um determinado benefício. Passaríamos meses apenas lendo todo o material, e ao chegar no fim disso já poderíamos nem recordar do primeiro documento lido.
Neste processo poderíamos aplicar uma floresta aleatória contando com três árvores de decisão: uma baseada em LSI, que seria responsável por encontrar semelhanças nos documentos e classificá-los em subconjuntos; a segunda árvore de decisão se utilizaria da LDA para catalogar estes mesmos documentos entre tópicos e uma terceira que seria responsável por cruzar as informações coletadas a partir de um critério avaliativo e, por fim, gerar uma predição para cada uma das etapas anteriores (desempenhadas pelas técnicas LSI e LDA). Assim teríamos uma predição final mais acurada e poderíamos ter uma tomada de decisão mais consciente. Esse tipo de análise pode ser feita nos mais diferentes ambientes e para diversas necessidades, podemos encontrar exemplos em: processos de Marketing e SEO (Search Engine Optimization), detecção de fraudes em bancos, processos jurídicos e também nas buscas online, cada área com sua peculiaridade, mas necessidades semelhantes.
Referências:
SANTANA, Felipe. Arvores de Decisão (Projeto passo a passo). Minerando Dados, 2020. Disponível em <https://minerandodados.com.br/arvores-de-decisao-conceitos-e-aplicacoes/#:~:text=A%20%C3%A1rvore%20de%20Decis%C3%A3o%20%C3%A9,cen%C3%A1rio%20de%20classifica%C3%A7%C3%A3o%20ou%20regress%C3%A3o.>. Acesso em: 28/05/2021.
SCARPA, Alice Duarte. Técnicas de Processamento de Linguagem Natural Aplicadas às Ciências Sociais. Dissertação (Programa de Pós-Graduação em Matemática Aplicada) - Escola de Matemática Aplicada, Programa de Pós-Graduação em Matemática Aplicada, Fundação Getúlio Vargas. Rio de Janeiro, p. 86. 2017.
STEMLER, Igor Tadeu Silva Viana. Identificação de Precedentes Judiciais por Agrupamento Utilizando Processamento de Linguagem Natural. Dissertação (Mestrado Profissional em Computação Aplicada) - Instituto de Ciências Exatas, Departamento de Ciência da Computação, Universidade de Brasília. Brasília, p. 62. 2019.