Buscar

UNIDADE 3- A3 N3 - MINERAÇÃO DE DADOS

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

UNP - UNIVERSIDADE POTIGUAR 
BACHARELADO EM ESTATÍSTICA 
DISCIPLINA: MINERAÇÃO DE DADOS 
UNIDADE 3 – ALGORITMOS DE CLASSIFICAÇÃO 
AUTOR: ESP. WESLEY SOARES DE SOUZA 
REVISOR: BRUNO ROBERTO NEPOMUCENO MATHEUS 
 
 
 
 
 
Atividade 3 N3, apresentada ao curso bacharelado 
em Estatística, ofertado pela Universidade Potiguar, 
como requisito avaliativo complementar da terceira 
avaliação da disciplina Mineração de Dados – 
Unidade 3 – Algoritmos de Classificação. 
Autor: Esp. Wesley Soares de Souza 
Revisor: Bruno Roberto Nepomuceno Matheus 
 
 
 
 
 
 
 
ALUNO: EBERSON COSTA – MATRÍCULA 2020201380 
BENEVIDES – PARÁ 
2021 
MINERAÇÃO DE DADOS 
ALGORITMOS DE CLASSIFICAÇÃO 
UNIDADE 3 
A3 N3 
 
Nesta unidade, foi abordado como utilizar os métodos de classificação para tornar o 
resultado obtido com a mineração de dados mais eficiente. Para que os resultados 
sejam mais precisos, devemos utilizar cada algoritmo para cada tipo de problema. 
Por exemplo, para trabalhar com dados numéricos podemos utilizar a regressão 
logística, que trabalha com resultados binominais. Para classificação de documentos 
e grandes quantidades de conteúdos textuais, utilizam-se algoritmos com as 
técnicas LSI e LDA. E na estruturação para o aprendizado de máquina podemos 
utilizar as árvores de decisão, que tem como vantagem a sua estrutura ser 
facilmente entendida, no entanto, sua utilização precisa ser estudada, pois pode ter 
um custo computacional exponencial, dependendo do nível do problema. E por fim, 
em problemas complexos com uma grande quantidade de dados envolvidos, podem-
se utilizar árvores aleatórias, que são um conjunto de árvores estruturadas e 
interligadas na resolução de problemas. 
Com base nos conhecimentos adquiridos, cite um tipo de problema em que 
poderíamos utilizar uma floresta aleatória que contenha árvores estruturadas ou com 
LSI ou LDA, ou utilizando regressão logística. 
Quais foram as principais vantagens e desvantagens observadas e as dificuldades 
encontradas no processo? 
 
Resposta: 
Quando se apresenta um exemplo de um problema que retrate uma floresta 
aleatória contendo árvores estruturadas utilizando regressão logística, faz-se 
necessário, também, definir-se tais estruturas. Veja-se: 
 Floresta Aleatória (Random Forest): É um algoritmo de aprendizagem de máquina 
flexível de fácil utilização que produz excelentes resultados a maioria das vezes, 
mesmo sem ajuste de hiperparâmetros. É também um dos algoritmos mais 
utilizados, devido à sua simplicidade e o fato de que pode ser utilizado para 
tarefas de classificação e também de regressão; também é um algoritmo de 
aprendizagem supervisionada e cria uma floresta de um mo do aleatório. 
A “floresta” que ele cria é uma combinação (ensemble) de árvores de decisão, na 
maior ia dos casos treinados com o método de bagging. A ideia principal do método 
de bagging é que a combinação do s modelo s de aprendizado aumenta o 
resultado geral. 
 Regressão Logística: É uma técnica recomendada para situações em que a 
variável dependente é de natureza dicotômica ou binária. Quanto às independentes, 
tanto podem ser categóricas ou não. A regressão logística é um recurso que nos 
permite estimar a probabilidade associada à ocorrência de determinado evento em 
face de um conjunto de variáveis explanatórias. 
Na regressão logística, a probabilidade de ocorrência de um evento pode ser 
estimada diretamente. No caso da variável dependente Y assumir apenas dois 
possíveis estados (1 ou 0) e haver um conjunto de p variáveis independentes 
X1 , X2 , ... , Xp , o modelo de regressão logística pode ser escrito da seguinte 
forma: 
 
Os coeficientes B0 , B 1 , ... , Bp são estimados a partir do conjunto dados, 
pelo método da máxima verossimilhança, em que encontra uma combinação 
de co eficientes que maximiza a probabilidade da amostra ter sido observada. 
Considerando uma certa combinação de coeficientes B0 , B1 , ... , Bp e variando 
os valores de X. Observa-se que a curva logística tem um comportamento 
probabilístico no formato da letra S, o que é uma característica da regressão 
logística. 
 
Utilizamos o seguinte exemplo: 
Digamos que uma amostra de 30 alunos tem três variáveis: Sexo (menino ou 
menina), Classe (IX ou X) e Altura (160 cm a 180 cm). 
Digamos também que 15 destes 30 jogam tênis no recreio. A partir disso, como 
podemos criar um modelo para prever quem vai jogar tênis durante o recreio? Neste 
problema, precisamos segregar os alunos que jogam tênis no recreio com base nas 
três variáveis à nossa disposição. 
 
 
 
 
 
 
 
 
 
 
Nesse ponto entra a árvore de decisão. Ela segregará os alunos com base nos 
valores das três variáveis e identificará a variável que cria os melhores conjuntos 
homogêneos de alunos (que são heterogêneos entre si). No quadro abaixo, você 
pode ver que a variável Sexo é capaz de identificar os melhores conjuntos 
homogêneos em comparação com as variáveis Altura e Classe. 
 
 
Como mencionado acima, a árvore de decisão identifica a variável mais 
representativa e os valores que retornam os conjuntos de população mais 
homogêneos. 
Agora, a questão é: como identificar essa variável e a sua divisão? 
Para fazer isso, a árvore de decisão usa vários algoritmos, que discutiremos na 
próxima seção. 
São dois os tipos de árvore de decisão que se baseiam no tipo de variável de 
destino que temos. Vejamos: 
Árvore de decisão de variável categórica: árvore de decisão que tem a variável de 
destino categórica, chamada assim de árvore de decisão de variável categórica. 
Exemplo: – No cenário acima do problema dos alunos, onde a variável alvo era “O 
aluno joga tênis ou não”, os valores são SIM ou NÃO. 
Árvore de decisão de variável contínua: cuja variável alvo é contínuo. 
Exemplo: – Digamos que o problema seja prever se um cliente vai renovar o prêmio 
de seguro que paga a uma companhia de seguros (Sim ou Não). Nesse problema, 
sabemos que a renda do cliente é uma variável significativa, mas a companhia de 
seguros não conhece a renda de todos seus clientes. Agora, como sabemos que 
esta é uma variável importante, então podemos construir uma árvore de decisão 
para prever a renda do cliente com base na sua ocupação, no produto segurado e 
várias outras variáveis. Neste caso, estamos prevendo valores para uma variável 
contínua. 
 
Pode-se notar as seguintes ocorrências para a flor esta aleatória: 
 algoritmo de floresta aleatória adiciona aleatoriedade extra ao modelo, quando 
está criando as árvores. Ao invés de procurar pela melhor característica ao fazer a 
partição de nós, ele busca a melhor característica em um subconjunto aleatório das 
características. Este processo acaba criando uma grande diversidade, o que 
geralmente gera otimização de modelos. 
ra se medir a importância relativa de cada característica (feature) 
para a predição. 
árvores acabam ficando mais aleatórias utilizando limiares (thresholds) 
aleatórios par a cada característica, ao invés de procurar pelo melhor limiar (como 
uma árvore de decisão geralmente faz). 
 
Pode- se notar as seguintes ocorrências para a regressão logística: 
de risco se vai gostar ou não do lugar em que vai viajar. 
-se que o impacto de cada coeficiente sobre a própria razão de chances e 
não mais sobre a quantidade de logit . 
Identifica-se que o impacto do coeficiente da variável independente sobre a razão 
de chances. 
Determina-se o efeito que os coeficientes exercem sobre a chance de um evento 
ocorrer. 
a-se que um coeficiente: 
– positivo aumenta a probabilidade; 
 – negativo diminui a probabilidade. 
 
Vantagens na floresta aleatória: 
anto para regressão quanto para classificação e é fácil 
visualizar a importância relativa que ele atribui para cada característica na suasentradas. 
um algoritmo muito fácil e acessível, pois seus hiperparâmetros com valores 
default geralmente produzem um bom resultado de predição. O número de 
hiperparâmetros não é tão grande e são muito fáceis de compreender . 
 
Desvantagens na floresta aleatória: 
 grandes problemas em aprendizagem de máquina é subreajuste 
(overfitting), mas a maior parte do tempo isto não ocorrerá tão facilmente com um 
classificador de Floresta Aleatória qualquer. Isto porquê,se há árvores suficiente na 
floresta, o classificador não irá sobreajustar o mo delo . 
 limitação da Floresta Aleatória é que uma quantidade grande de 
árvores pode tornar o algo ritmo lento e ineficiente para predições em tempo real 
 ferramenta de modelagem preditiva e não descritiva. Isto significa que, se 
você está procurando uma descrição dos relacionamentos nos seus dados, você 
deve escolher outras abordagens. 
 
Vantagens na regressão logística: 
acilidade para lidar com variáveis independentes categóricas. 
s de probabilidade. 
e classificação de indivíduos em categorias. 
o de suposições. 
Alto grau de confiabilidade. 
 
Desvantagens na regressão logística: 
aleatória não pode ser contínua, somente discreta e categórica, limitando 
assim seu uso. 
 regressão logística também tem um pressuposto implícito de linearidade em 
termos da função logit com relação às variáveis independentes, fato que as vezes 
nem sempre é verdadeiro. 
 
Nota: O algoritmo de Floresta Aleatória é utilizado em muitas áreas diferentes, tal 
como setor bancário, mercado financeiro, medicina, comércio eletrônico. No setor 
bancário ele é utilizado, por exemplo, para detectar clientes que irão utilizar os ser 
viços bancário s mais frequentemente que outros e pagar suas dívidas 
pontualmente. Neste domínio ele também é utilizado par a detectar fraudes de 
clientes que querem lesar o banco. No setor financeiro, ele é utilizado para 
determinar o desempenho futuro de uma ação. Na área de saúde ele é utilizado para 
identificar a correta combinação de componentes em medicina, e também é utilizado 
para analisar o histórico médico de um paciente para identificar doenças. Por último, 
em comércio eletrônico a Floresta Aleatória é utilizada para determinar se um cliente 
irá gostar do produto ou não. 
 
Referência 
https://www.analyticsvidhya.com/blog/2016/04/treeobasedoalgorithmsocompleteotuto
rial-scratch-in-python/Acesso em 09/06/2021. 
https://www.passeidireto.com/arquivo/76073151/atividade-3-unidade-3-mineracao-
de-dados-fmu. Acesso em 09/06/2021. 
 
https://www.passeidireto.com/arquivo/76073151/atividade-3-unidade-3-mineracao-de-dados-fmu.%20Acesso%20em%2009/06/
https://www.passeidireto.com/arquivo/76073151/atividade-3-unidade-3-mineracao-de-dados-fmu.%20Acesso%20em%2009/06/

Mais conteúdos dessa disciplina