Buscar

Atividade 3 - Mineração de Dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Antes de se apresentar um exemplo de um problema que retrate uma floresta aleatória que contenha arvores estruturadas utilizando regressão logística, é necessário definir-se tais estruturas. Floresta Aleatória (Random Forest): E um algoritmo de aprendizagem de máquina flexível e fácil de usar que produz excelentes resultados a maioria das vezes, mesmo sem ajuste de hiperparâmetros. É também um dos algoritmos mais utilizados, devido à sua simplicidade e o fato de que pode ser utilizado para tarefas de classificação e também de regressão; também é um algoritmo de aprendizagem supervisionada e cria uma floresta de um modo aleatório.
A "floresta" que ele cria é uma combinação (ensemble) de árvores de decisão, na maioria dos casos treinados com o método de bagging. A ideia principal do método de bagging é que a combinação dos modelos de aprendizado aumenta o resultado geral.
Regressão Logística: É uma técnica recomendada para situações em que a variável dependente é de natureza dicotômica ou binária. Quanto às independentes, tanto podem ser categóricas ou não. A regressão logistica é um recurso que nos permite estimar a probabilidade associada à ocorrência de determinado evento em face de um conjunto de variáveis explanatórias
Exemplo de aplicação: Imagine que Luiz deseja decidir para onde deve viajar em uma viagem de férias de um ano. Ele pede informações para vários conhecidos aleatoriamente. Primeiro, ele encontra com um amigo que pergunta-lhe para onde ele já viajou e se ele gostou ou não. Baseado nestas resposta, ele da algumas sugestões para Luiz. Esta è uma abordagem tipica de árvores de decisão. O amigo de Luiz criou regras para guiar sua decisão sobre o que recomendar, a partir das respostas de Luiz. Depois disto, Luiz começa a pedir sugestões para mais amigos e eles fazem varias perguntas diferentes antes de darem alguma sugestão, de modo que a resposta de Luiz seja sempre Sim ou Não para elas. Então, ele escolhe os lugares que receberam mais recomendações, o que è uma abordagem tipica de florestas aleatorias. O uso da Regressão Logistica aqui tambem pode- se dar em função das respostas de Luiz ser binária e categórica (Sim ou Não) para seu colegas.
Pode-se notar as seguintes ocorrência para a floresta aleatoria:
O algoritmo de floresta aleatoria adiciona aleatoriedade extra ao modelo, quando esta criando as arvores. Ao invés de procurar pela melhor característica ao fazer a partição de nos, ele busca a melhor caracteristica em um subconunto aleatório das caracteristica3. Este processo acaba criando uma grande diversidade, o que
geralmente gera otimização de modelos Facilidade para se medir a importancia relativa de cada caracteristica (réature) para
a predicão As arvores acabam ficando mais alestórias utilizando limiares (pirar/o/cit) aleatorios para cada carboteristica, ao invés de procurar pelo melhor limiar (como uma arvore de decisão geralmente faz)
Pode-se notar as seguintes ocorrências para a regressão logistica:
Previsão de risco se vai gostar ou não do lugar em que vai viajar.
Observa-se que o impacto de cada coeficiente sobre a própria razão de chances e não mais sobre a quantidade de logit.
Identifica-se que o impacto do coeficiente da variável independente sobre a razão de chances.
Determina-se o efeito que os coeficientes exercem sobre a chance de um evento ocorrer.
Ressalta-se que um coeficiente:
- positivo aumenta a probabilidade;
- negativo diminui a probabilidade.
Vantagens na floresta aleatoria:
Pode ser utilizado tanto para regressão quanto para classificação e é fácil visualizar a importância relativa que ele atribui para cada caracteristica na suas entradas. É um algoritmo muito fácil e acessivel pois seus hiperparametros com valores default geralmente produzem um bom resultado de predição. O número de hiperparàmetros não é tão grande e são muito fáceis de compreender.
Desvantagens na floresta aleatoria: 
Um dos grande problemas em aprendizagem de máquina Subreaiuste (overfittine), mas a maior parte do tempo isto não ocorrerá tão facilmente com um classificador de Floresta Aleatória qualquer. Isto porquê se há arvores suficiente na floresta, o classificador não irá sobreajustar o modelo
A maior limitação do Floresta Aleatoria é que uma quantidade grande de arvores pode tornar o algorítmo lento e ineficiente para predições em tempo real e uma ferramenta de modelagem preditiva e não descritiva Isto significa que, se você está procurando uma descrição dos relacionamentos nos seus dados você deve escolher outras abordagens.
Vantagens na regressão logistica:
Facilidade para lidar com variáveis independentes categoricas. Fomece resuitados em termos de probabilidade facilidade de classificação de individuos em categorias requer pegueno número de suposições. Alto grau de confiabilidade.
Desvantagens na regressão logistica:
Variável aleatória não pode ser continua, somente discreta e categórica, limitando assim seu uso.
A regressão logística também tem um pressuposto implicito de linearidade em termos da função logit com relação às variáveis independentes, fato que as vezes nem sempre é verdadeiro.
Nota: O algoritmo de Floresta Aleatória é utilizado em muitas áreas diferentes, tal como setor bancário, mercado financeiro, medicina, comércio eletrônico. No setor bancário ele é utilizado, por exemplo, para detectar clientes que irão utilizar os serviços bancários mais frequentemente que outros e pagar suas dividas pontualmente. Neste dominio ele também é utilizado para detectar fraudes de clientes que querem lesar o banco. No setor financeiro. ele é utilizado para determinar o desempenho futuro de uma ação. Na área de saúde ele é utilizado para identificar a correta combinação de componentes em medicina, e também é utilizado para analisar o histórico médico de um paciente para identificar doenças. Por último, em comércio eletrônico o Floresta Aleatória é utilizado para determinar se um cliente irá gostar do produto ou não.

Continue navegando