Prévia do material em texto
UNP - UNIVERSIDADE POTIGUAR BACHARELADO EM ESTATÍSTICA DISCIPLINA: MINERAÇÃO DE DADOS UNIDADE 3 – ALGORITMOS DE CLASSIFICAÇÃO AUTOR: ESP. WESLEY SOARES DE SOUZA REVISOR: BRUNO ROBERTO NEPOMUCENO MATHEUS Atividade 3 N3, apresentada ao curso bacharelado em Estatística, ofertado pela Universidade Potiguar, como requisito avaliativo complementar da terceira avaliação da disciplina Mineração de Dados – Unidade 3 – Algoritmos de Classificação. Autor: Esp. Wesley Soares de Souza Revisor: Bruno Roberto Nepomuceno Matheus ALUNO: EBERSON COSTA – MATRÍCULA 2020201380 BENEVIDES – PARÁ 2021 MINERAÇÃO DE DADOS ALGORITMOS DE CLASSIFICAÇÃO UNIDADE 3 A3 N3 Nesta unidade, foi abordado como utilizar os métodos de classificação para tornar o resultado obtido com a mineração de dados mais eficiente. Para que os resultados sejam mais precisos, devemos utilizar cada algoritmo para cada tipo de problema. Por exemplo, para trabalhar com dados numéricos podemos utilizar a regressão logística, que trabalha com resultados binominais. Para classificação de documentos e grandes quantidades de conteúdos textuais, utilizam-se algoritmos com as técnicas LSI e LDA. E na estruturação para o aprendizado de máquina podemos utilizar as árvores de decisão, que tem como vantagem a sua estrutura ser facilmente entendida, no entanto, sua utilização precisa ser estudada, pois pode ter um custo computacional exponencial, dependendo do nível do problema. E por fim, em problemas complexos com uma grande quantidade de dados envolvidos, podem- se utilizar árvores aleatórias, que são um conjunto de árvores estruturadas e interligadas na resolução de problemas. Com base nos conhecimentos adquiridos, cite um tipo de problema em que poderíamos utilizar uma floresta aleatória que contenha árvores estruturadas ou com LSI ou LDA, ou utilizando regressão logística. Quais foram as principais vantagens e desvantagens observadas e as dificuldades encontradas no processo? Resposta: Quando se apresenta um exemplo de um problema que retrate uma floresta aleatória contendo árvores estruturadas utilizando regressão logística, faz-se necessário, também, definir-se tais estruturas. Veja-se: Floresta Aleatória (Random Forest): É um algoritmo de aprendizagem de máquina flexível de fácil utilização que produz excelentes resultados a maioria das vezes, mesmo sem ajuste de hiperparâmetros. É também um dos algoritmos mais utilizados, devido à sua simplicidade e o fato de que pode ser utilizado para tarefas de classificação e também de regressão; também é um algoritmo de aprendizagem supervisionada e cria uma floresta de um mo do aleatório. A “floresta” que ele cria é uma combinação (ensemble) de árvores de decisão, na maior ia dos casos treinados com o método de bagging. A ideia principal do método de bagging é que a combinação do s modelo s de aprendizado aumenta o resultado geral. Regressão Logística: É uma técnica recomendada para situações em que a variável dependente é de natureza dicotômica ou binária. Quanto às independentes, tanto podem ser categóricas ou não. A regressão logística é um recurso que nos permite estimar a probabilidade associada à ocorrência de determinado evento em face de um conjunto de variáveis explanatórias. Na regressão logística, a probabilidade de ocorrência de um evento pode ser estimada diretamente. No caso da variável dependente Y assumir apenas dois possíveis estados (1 ou 0) e haver um conjunto de p variáveis independentes X1 , X2 , ... , Xp , o modelo de regressão logística pode ser escrito da seguinte forma: Os coeficientes B0 , B 1 , ... , Bp são estimados a partir do conjunto dados, pelo método da máxima verossimilhança, em que encontra uma combinação de co eficientes que maximiza a probabilidade da amostra ter sido observada. Considerando uma certa combinação de coeficientes B0 , B1 , ... , Bp e variando os valores de X. Observa-se que a curva logística tem um comportamento probabilístico no formato da letra S, o que é uma característica da regressão logística. Utilizamos o seguinte exemplo: Digamos que uma amostra de 30 alunos tem três variáveis: Sexo (menino ou menina), Classe (IX ou X) e Altura (160 cm a 180 cm). Digamos também que 15 destes 30 jogam tênis no recreio. A partir disso, como podemos criar um modelo para prever quem vai jogar tênis durante o recreio? Neste problema, precisamos segregar os alunos que jogam tênis no recreio com base nas três variáveis à nossa disposição. Nesse ponto entra a árvore de decisão. Ela segregará os alunos com base nos valores das três variáveis e identificará a variável que cria os melhores conjuntos homogêneos de alunos (que são heterogêneos entre si). No quadro abaixo, você pode ver que a variável Sexo é capaz de identificar os melhores conjuntos homogêneos em comparação com as variáveis Altura e Classe. Como mencionado acima, a árvore de decisão identifica a variável mais representativa e os valores que retornam os conjuntos de população mais homogêneos. Agora, a questão é: como identificar essa variável e a sua divisão? Para fazer isso, a árvore de decisão usa vários algoritmos, que discutiremos na próxima seção. São dois os tipos de árvore de decisão que se baseiam no tipo de variável de destino que temos. Vejamos: Árvore de decisão de variável categórica: árvore de decisão que tem a variável de destino categórica, chamada assim de árvore de decisão de variável categórica. Exemplo: – No cenário acima do problema dos alunos, onde a variável alvo era “O aluno joga tênis ou não”, os valores são SIM ou NÃO. Árvore de decisão de variável contínua: cuja variável alvo é contínuo. Exemplo: – Digamos que o problema seja prever se um cliente vai renovar o prêmio de seguro que paga a uma companhia de seguros (Sim ou Não). Nesse problema, sabemos que a renda do cliente é uma variável significativa, mas a companhia de seguros não conhece a renda de todos seus clientes. Agora, como sabemos que esta é uma variável importante, então podemos construir uma árvore de decisão para prever a renda do cliente com base na sua ocupação, no produto segurado e várias outras variáveis. Neste caso, estamos prevendo valores para uma variável contínua. Pode-se notar as seguintes ocorrências para a flor esta aleatória: algoritmo de floresta aleatória adiciona aleatoriedade extra ao modelo, quando está criando as árvores. Ao invés de procurar pela melhor característica ao fazer a partição de nós, ele busca a melhor característica em um subconjunto aleatório das características. Este processo acaba criando uma grande diversidade, o que geralmente gera otimização de modelos. ra se medir a importância relativa de cada característica (feature) para a predição. árvores acabam ficando mais aleatórias utilizando limiares (thresholds) aleatórios par a cada característica, ao invés de procurar pelo melhor limiar (como uma árvore de decisão geralmente faz). Pode- se notar as seguintes ocorrências para a regressão logística: de risco se vai gostar ou não do lugar em que vai viajar. -se que o impacto de cada coeficiente sobre a própria razão de chances e não mais sobre a quantidade de logit . Identifica-se que o impacto do coeficiente da variável independente sobre a razão de chances. Determina-se o efeito que os coeficientes exercem sobre a chance de um evento ocorrer. a-se que um coeficiente: – positivo aumenta a probabilidade; – negativo diminui a probabilidade. Vantagens na floresta aleatória: anto para regressão quanto para classificação e é fácil visualizar a importância relativa que ele atribui para cada característica na suasentradas. um algoritmo muito fácil e acessível, pois seus hiperparâmetros com valores default geralmente produzem um bom resultado de predição. O número de hiperparâmetros não é tão grande e são muito fáceis de compreender . Desvantagens na floresta aleatória: grandes problemas em aprendizagem de máquina é subreajuste (overfitting), mas a maior parte do tempo isto não ocorrerá tão facilmente com um classificador de Floresta Aleatória qualquer. Isto porquê,se há árvores suficiente na floresta, o classificador não irá sobreajustar o mo delo . limitação da Floresta Aleatória é que uma quantidade grande de árvores pode tornar o algo ritmo lento e ineficiente para predições em tempo real ferramenta de modelagem preditiva e não descritiva. Isto significa que, se você está procurando uma descrição dos relacionamentos nos seus dados, você deve escolher outras abordagens. Vantagens na regressão logística: acilidade para lidar com variáveis independentes categóricas. s de probabilidade. e classificação de indivíduos em categorias. o de suposições. Alto grau de confiabilidade. Desvantagens na regressão logística: aleatória não pode ser contínua, somente discreta e categórica, limitando assim seu uso. regressão logística também tem um pressuposto implícito de linearidade em termos da função logit com relação às variáveis independentes, fato que as vezes nem sempre é verdadeiro. Nota: O algoritmo de Floresta Aleatória é utilizado em muitas áreas diferentes, tal como setor bancário, mercado financeiro, medicina, comércio eletrônico. No setor bancário ele é utilizado, por exemplo, para detectar clientes que irão utilizar os ser viços bancário s mais frequentemente que outros e pagar suas dívidas pontualmente. Neste domínio ele também é utilizado par a detectar fraudes de clientes que querem lesar o banco. No setor financeiro, ele é utilizado para determinar o desempenho futuro de uma ação. Na área de saúde ele é utilizado para identificar a correta combinação de componentes em medicina, e também é utilizado para analisar o histórico médico de um paciente para identificar doenças. Por último, em comércio eletrônico a Floresta Aleatória é utilizada para determinar se um cliente irá gostar do produto ou não. Referência https://www.analyticsvidhya.com/blog/2016/04/treeobasedoalgorithmsocompleteotuto rial-scratch-in-python/Acesso em 09/06/2021. https://www.passeidireto.com/arquivo/76073151/atividade-3-unidade-3-mineracao- de-dados-fmu. Acesso em 09/06/2021. https://www.passeidireto.com/arquivo/76073151/atividade-3-unidade-3-mineracao-de-dados-fmu.%20Acesso%20em%2009/06/ https://www.passeidireto.com/arquivo/76073151/atividade-3-unidade-3-mineracao-de-dados-fmu.%20Acesso%20em%2009/06/