UNIDADE 3- A3 N3 - MINERAÇÃO DE DADOS

•

UNP

Éberson Costa

17/06/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

UNP - UNIVERSIDADE POTIGUAR
BACHARELADO EM ESTATÍSTICA
DISCIPLINA: MINERAÇÃO DE DADOS
UNIDADE 3 – ALGORITMOS DE CLASSIFICAÇÃO
AUTOR: ESP. WESLEY SOARES DE SOUZA
REVISOR: BRUNO ROBERTO NEPOMUCENO MATHEUS

Atividade 3 N3, apresentada ao curso bacharelado
em Estatística, ofertado pela Universidade Potiguar,
como requisito avaliativo complementar da terceira
avaliação da disciplina Mineração de Dados –
Unidade 3 – Algoritmos de Classificação.
Autor: Esp. Wesley Soares de Souza
Revisor: Bruno Roberto Nepomuceno Matheus

ALUNO: EBERSON COSTA – MATRÍCULA 2020201380
BENEVIDES – PARÁ
2021
MINERAÇÃO DE DADOS
ALGORITMOS DE CLASSIFICAÇÃO
UNIDADE 3
A3 N3

Nesta unidade, foi abordado como utilizar os métodos de classificação para tornar o
resultado obtido com a mineração de dados mais eficiente. Para que os resultados
sejam mais precisos, devemos utilizar cada algoritmo para cada tipo de problema.
Por exemplo, para trabalhar com dados numéricos podemos utilizar a regressão
logística, que trabalha com resultados binominais. Para classificação de documentos
e grandes quantidades de conteúdos textuais, utilizam-se algoritmos com as
técnicas LSI e LDA. E na estruturação para o aprendizado de máquina podemos
utilizar as árvores de decisão, que tem como vantagem a sua estrutura ser
facilmente entendida, no entanto, sua utilização precisa ser estudada, pois pode ter
um custo computacional exponencial, dependendo do nível do problema. E por fim,
em problemas complexos com uma grande quantidade de dados envolvidos, podem-
se utilizar árvores aleatórias, que são um conjunto de árvores estruturadas e
interligadas na resolução de problemas.
Com base nos conhecimentos adquiridos, cite um tipo de problema em que
poderíamos utilizar uma floresta aleatória que contenha árvores estruturadas ou com
LSI ou LDA, ou utilizando regressão logística.
Quais foram as principais vantagens e desvantagens observadas e as dificuldades
encontradas no processo?

Resposta:
Quando se apresenta um exemplo de um problema que retrate uma floresta
aleatória contendo árvores estruturadas utilizando regressão logística, faz-se
necessário, também, definir-se tais estruturas. Veja-se:
 Floresta Aleatória (Random Forest): É um algoritmo de aprendizagem de máquina
flexível de fácil utilização que produz excelentes resultados a maioria das vezes,
mesmo sem ajuste de hiperparâmetros. É também um dos algoritmos mais
utilizados, devido à sua simplicidade e o fato de que pode ser utilizado para
tarefas de classificação e também de regressão; também é um algoritmo de
aprendizagem supervisionada e cria uma floresta de um mo do aleatório.
A “floresta” que ele cria é uma combinação (ensemble) de árvores de decisão, na
maior ia dos casos treinados com o método de bagging. A ideia principal do método
de bagging é que a combinação do s modelo s de aprendizado aumenta o
resultado geral.
 Regressão Logística: É uma técnica recomendada para situações em que a
variável dependente é de natureza dicotômica ou binária. Quanto às independentes,
tanto podem ser categóricas ou não. A regressão logística é um recurso que nos
permite estimar a probabilidade associada à ocorrência de determinado evento em
face de um conjunto de variáveis explanatórias.
Na regressão logística, a probabilidade de ocorrência de um evento pode ser
estimada diretamente. No caso da variável dependente Y assumir apenas dois
possíveis estados (1 ou 0) e haver um conjunto de p variáveis independentes
X1 , X2 , ... , Xp , o modelo de regressão logística pode ser escrito da seguinte
forma:

Os coeficientes B0 , B 1 , ... , Bp são estimados a partir do conjunto dados,
pelo método da máxima verossimilhança, em que encontra uma combinação
de co eficientes que maximiza a probabilidade da amostra ter sido observada.
Considerando uma certa combinação de coeficientes B0 , B1 , ... , Bp e variando
os valores de X. Observa-se que a curva logística tem um comportamento
probabilístico no formato da letra S, o que é uma característica da regressão
logística.

Utilizamos o seguinte exemplo:
Digamos que uma amostra de 30 alunos tem três variáveis: Sexo (menino ou
menina), Classe (IX ou X) e Altura (160 cm a 180 cm).
Digamos também que 15 destes 30 jogam tênis no recreio. A partir disso, como
podemos criar um modelo para prever quem vai jogar tênis durante o recreio? Neste
problema, precisamos segregar os alunos que jogam tênis no recreio com base nas
três variáveis à nossa disposição.

Nesse ponto entra a árvore de decisão. Ela segregará os alunos com base nos
valores das três variáveis e identificará a variável que cria os melhores conjuntos
homogêneos de alunos (que são heterogêneos entre si). No quadro abaixo, você
pode ver que a variável Sexo é capaz de identificar os melhores conjuntos
homogêneos em comparação com as variáveis Altura e Classe.

Como mencionado acima, a árvore de decisão identifica a variável mais
representativa e os valores que retornam os conjuntos de população mais
homogêneos.
Agora, a questão é: como identificar essa variável e a sua divisão?
Para fazer isso, a árvore de decisão usa vários algoritmos, que discutiremos na
próxima seção.
São dois os tipos de árvore de decisão que se baseiam no tipo de variável de
destino que temos. Vejamos:
Árvore de decisão de variável categórica: árvore de decisão que tem a variável de
destino categórica, chamada assim de árvore de decisão de variável categórica.
Exemplo: – No cenário acima do problema dos alunos, onde a variável alvo era “O
aluno joga tênis ou não”, os valores são SIM ou NÃO.
Árvore de decisão de variável contínua: cuja variável alvo é contínuo.
Exemplo: – Digamos que o problema seja prever se um cliente vai renovar o prêmio
de seguro que paga a uma companhia de seguros (Sim ou Não). Nesse problema,
sabemos que a renda do cliente é uma variável significativa, mas a companhia de
seguros não conhece a renda de todos seus clientes. Agora, como sabemos que
esta é uma variável importante, então podemos construir uma árvore de decisão
para prever a renda do cliente com base na sua ocupação, no produto segurado e
várias outras variáveis. Neste caso, estamos prevendo valores para uma variável
contínua.

Pode-se notar as seguintes ocorrências para a flor esta aleatória:
algoritmo de floresta aleatória adiciona aleatoriedade extra ao modelo, quando
está criando as árvores. Ao invés de procurar pela melhor característica ao fazer a
partição de nós, ele busca a melhor característica em um subconjunto aleatório das
características. Este processo acaba criando uma grande diversidade, o que
geralmente gera otimização de modelos.
ra se medir a importância relativa de cada característica (feature)
para a predição.
árvores acabam ficando mais aleatórias utilizando limiares (thresholds)
aleatórios par a cada característica, ao invés de procurar pelo melhor limiar (como
uma árvore de decisão geralmente faz).

Pode- se notar as seguintes ocorrências para a regressão logística:
de risco se vai gostar ou não do lugar em que vai viajar.
-se que o impacto de cada coeficiente sobre a própria razão de chances e
não mais sobre a quantidade de logit .
Identifica-se que o impacto do coeficiente da variável independente sobre a razão
de chances.
Determina-se o efeito que os coeficientes exercem sobre a chance de um evento
ocorrer.
a-se que um coeficiente:
– positivo aumenta a probabilidade;
– negativo diminui a probabilidade.

Vantagens na floresta aleatória:
anto para regressão quanto para classificação e é fácil
visualizar a importância relativa que ele atribui para cada característica na suasentradas.
um algoritmo muito fácil e acessível, pois seus hiperparâmetros com valores
default geralmente produzem um bom resultado de predição. O número de
hiperparâmetros não é tão grande e são muito fáceis de compreender .

Desvantagens na floresta aleatória:
grandes problemas em aprendizagem de máquina é subreajuste
(overfitting), mas a maior parte do tempo isto não ocorrerá tão facilmente com um
classificador de Floresta Aleatória qualquer. Isto porquê,se há árvores suficiente na
floresta, o classificador não irá sobreajustar o mo delo .
limitação da Floresta Aleatória é que uma quantidade grande de
árvores pode tornar o algo ritmo lento e ineficiente para predições em tempo real
ferramenta de modelagem preditiva e não descritiva. Isto significa que, se
você está procurando uma descrição dos relacionamentos nos seus dados, você
deve escolher outras abordagens.

Vantagens na regressão logística:
acilidade para lidar com variáveis independentes categóricas.
s de probabilidade.
e classificação de indivíduos em categorias.
o de suposições.
Alto grau de confiabilidade.

Desvantagens na regressão logística:
aleatória não pode ser contínua, somente discreta e categórica, limitando
assim seu uso.
regressão logística também tem um pressuposto implícito de linearidade em
termos da função logit com relação às variáveis independentes, fato que as vezes
nem sempre é verdadeiro.

Nota: O algoritmo de Floresta Aleatória é utilizado em muitas áreas diferentes, tal
como setor bancário, mercado financeiro, medicina, comércio eletrônico. No setor
bancário ele é utilizado, por exemplo, para detectar clientes que irão utilizar os ser
viços bancário s mais frequentemente que outros e pagar suas dívidas
pontualmente. Neste domínio ele também é utilizado par a detectar fraudes de
clientes que querem lesar o banco. No setor financeiro, ele é utilizado para
determinar o desempenho futuro de uma ação. Na área de saúde ele é utilizado para
identificar a correta combinação de componentes em medicina, e também é utilizado
para analisar o histórico médico de um paciente para identificar doenças. Por último,
em comércio eletrônico a Floresta Aleatória é utilizada para determinar se um cliente
irá gostar do produto ou não.

Referência
https://www.analyticsvidhya.com/blog/2016/04/treeobasedoalgorithmsocompleteotuto
rial-scratch-in-python/Acesso em 09/06/2021.
https://www.passeidireto.com/arquivo/76073151/atividade-3-unidade-3-mineracao-
de-dados-fmu. Acesso em 09/06/2021.

https://www.passeidireto.com/arquivo/76073151/atividade-3-unidade-3-mineracao-de-dados-fmu.%20Acesso%20em%2009/06/
https://www.passeidireto.com/arquivo/76073151/atividade-3-unidade-3-mineracao-de-dados-fmu.%20Acesso%20em%2009/06/

Conteúdos escolhidos para você

18 pág.

Perguntas dessa disciplina

Quais são os três tipos existentes de estratégia para uma organização? N1: Estratégia Corporativa; N2: Unidade de Negócio; N3: Unidade Funcional ...

ESTÁCIO

xistem 3 passos indispensáveis para empresas que pretendem transformar dados em informações realmente valiosas no mundo dos negócios. O processo em...

UNIRITTER

UNIDADE 3- A3 N3 - MINERAÇÃO DE DADOS

UNP

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Mais conteúdos dessa disciplina

Conteúdos escolhidos para você

teorico_IV

Mineração de Dados unidade 3 atividade 3

GRA1433 MINERAÇÃO DE DADOS GR2164211 - 202110 ead-11507 03

Ebook---Aprendizagem-de-Maquina-na-Pratica

Unidade 2 - Predições com Regressão Logística

Perguntas dessa disciplina

Quais são os três tipos existentes de estratégia para uma organização? N1: Estratégia Corporativa; N2: Unidade de Negócio; N3: Unidade Funcional ...

xistem 3 passos indispensáveis para empresas que pretendem transformar dados em informações realmente valiosas no mundo dos negócios. O processo em...

Considere os vetores ��=(25,−13)��=(37,21). Assinale a alternativa que informa a ordem correta entre as quantidades A. N3 = N2

UNIDADE 3- A3 N3 - MINERAÇÃO DE DADOS

UNP

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Mais conteúdos dessa disciplina

Conteúdos escolhidos para você

teorico_IV

Mineração de Dados unidade 3 atividade 3

GRA1433 MINERAÇÃO DE DADOS GR2164211 - 202110 ead-11507 03

Ebook---Aprendizagem-de-Maquina-na-Pratica

Unidade 2 - Predições com Regressão Logística

Perguntas dessa disciplina

Quais são os três tipos existentes de estratégia para uma organização? N1: Estratégia Corporativa; N2: Unidade de Negócio; N3: Unidade Funcional ...

xistem 3 passos indispensáveis para empresas que pretendem transformar dados em informações realmente valiosas no mundo dos negócios. O processo em...

Considere os vetores �����=(25,−13)������=(37,21). Assinale a alternativa que informa a ordem correta entre as quantidades A. N3 = N2

Considere os vetores ��=(25,−13)��=(37,21). Assinale a alternativa que informa a ordem correta entre as quantidades A. N3 = N2