Buscar

Efficient Machine Learning for Big Data

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

Efficient Machine Learning for Big Data: A Review
Com o surgimento de novas tecnologias, uma massa de dados é produzida e coletada a todo instante. Uma das perguntas que surgem é como armazenar e manter essa enorme quantidade de dados para permitir a sua manipulação? É necessário assim, expandir a capacidade de armazenamento para manter esses dados consistentes e atualizados, o problema é que isso exige um alto custo computacional e por consequência maior consumo de energia. A resposta para essa pergunta provém de alternativas computacionais sustentáveis a partir de sistemas inteligentes que são adaptados para este tipo de problema, de forma a atingir um equilíbrio entre esses dois pontos. 
Existem áreas que geram grandes volumes de dados, como por exemplo a Bioinformática que aplica técnicas de diversos campos da ciência como matemática, física, química e computação para resolver problemas da biologia. Especificamente na Biologia Molecular, onde são estudadas as estruturas mais básicas das formas de vida que são células e moléculas, são criados extensas base de dados, neste sentido, técnicas computacionais que visam extrair automaticamente conhecimento dessas bases podem ser aplicadas. 
A aprendizagem de máquina é uma técnica que constrói funções ou modelos através da busca de melhores parâmetros que descrevem de forma geral algum problema. Os modelos não paramétricos são construídos a partir de exemplos específicos (conjunto de treinamento) mapeando as instâncias de entrada para as classes que serão a saída, os modelos paramétricos tentam estimar a forma do modelo baseados nas instâncias de entrada. Um ensemble ou combinação de modelos é uma técnica que aumenta o poder de predição do modelo, de forma a melhorar sua generalização. A grande vantagem nesse caso é que pode-se contar com mais de um modelo, ao varrer os múltiplos espaços de hipóteses para buscar uma melhor resposta usando o mesmo conjunto de treino, mas o grande problema é a alta complexidade computacional consumindo recursos de tempo e memória.
Existem duas alternativas para contornar essas limitações, a primeira é dividir o conjunto de treinamento em clusters de modo que para cada cluster são construídos modelos locais, que construir modelos semiparametrizados, uma maneira híbrida de construir o modelo, a segunda alternativa é utilizar técnicas de aprendizagem profunda que representam os modelos por meio de grafos profundo em várias camadas. Como em redes neurais que são modelos semi-paramétricos e de forma geral, constroem funções a partir de camadas que são interligadas formando uma rede, cada conexão tem associado pesos, então o processo de treinamento envolve a inicialização desses pesos, onde um algoritmo de aprendizagem é aplicado a rede para o ajuste dos pesos.

Outros materiais