Baixe o app para aproveitar ainda mais
Prévia do material em texto
Aprendizagem Profunda Com enormes quantidades de poder computacional, as máquinas agora podem reconhecer objetos e traduzir a fala em tempo real. Inteligência Artificial está finalmente ficando inteligente. Por Robert D. Hof Quando Ray Kurzweil reuniu com o CEO do Google, Larry Page, em julho passado, ele não estava à procura de um emprego. Um respeitado inventor que se tornou um futurista máquina-inteligência, Kurzweil queria discutir seu próximo livro How to Create a Mind . Ele disse a Page, que havia lido um rascunho inicial, que queria iniciar uma empresa para desenvolver suas idéias sobre como construir um computador verdadeiramente inteligente: uma que pudesse entender a linguagem e, em seguida, fazer inferências e decisões por conta própria. Tornou-se rapidamente óbvio que tal esforço exigiria nada menos do que Google-escala dados e poder de computação. "Eu poderia tentar dar-lhe algum acesso a ele", disse Page ao Kurzweil. "Mas vai ser muito difícil fazer isso para uma empresa independente." Page sugeriu que Kurzweil, que nunca tinha ocupado um emprego em qualquer lugar, exceto suas próprias empresas, juntou-se ao Google. Não demorou Kurzweil a tomar uma decisão: em janeiro ele começou a trabalhar para o Google como diretor de engenharia. "Este é o culminar de literalmente 50 anos de meu foco na inteligência artificial," diz. Kurzweil foi atraído não apenas pelos recursos de computação do Google, mas também pelo progresso surpreendente que a empresa fez em um ramo da AI chamado de aprendizagem profunda. Deep-learning software tenta imitar a atividade em camadas de neurônios no neocórtex, o wrinkly 80 por cento do cérebro onde o pensamento ocorre. O software aprende, em um sentido muito real, a reconhecer padrões em representações digitais de sons, imagens e outros dados. A idéia básica - de que o software pode simular a grande variedade de neurônios do neocórtex em uma "rede neuronal" artificial - tem décadas de idade, e tem levado a tantos desapontamentos quanto avanço. Mas por causa das melhorias nas fórmulas matemáticas e nos computadores cada vez mais poderosos, os cientistas de computador podem agora modelar muitas mais camadas de neurônios virtuais do que sempre antes. Com essa maior profundidade, eles estão produzindo avanços notáveis no reconhecimento de fala e imagem. Em junho passado, um sistema de aprendizagem em profundidade do Google que mostrava 10 milhões de imagens de vídeos do YouTube provou ser quase o dobro de qualquer esforço anterior de reconhecimento de imagens para identificar objetos como gatos. O Google também usou a tecnologia para reduzir a taxa de erro no reconhecimento de fala em seu mais recente software móvel Android. Em outubro, o chefe de pesquisa da Microsoft, Rick Rashid, impressionou os participantes de uma palestra na China com uma demonstração de software de fala que transcreveu suas palavras faladas em inglês com uma taxa de erro de 7%, traduziu-as para o texto em chinês e simulou sua Própria voz pronunciando-os em mandarim. No mesmo mês, Uma equipe de três estudantes de pós-graduação e dois professores ganhou um concurso realizado pela Merck para identificar moléculas que poderiam levar a novas drogas. O grupo usou aprendizado profundo para zerar as moléculas mais propensas a se ligar aos seus alvos. Google, em particular, tornou-se um ímã para a aprendizagem profunda e talento relacionado AI. Em março, a empresa comprou uma startup co-fundada por Geoffrey Hinton, professor de ciência da computação da Universidade de Toronto, que fazia parte da equipe que ganhou o concurso da Merck. Hinton, que dividirá seu tempo entre a universidade e o Google, diz que planeja "tirar idéias deste campo e aplicá-las a problemas reais", como reconhecimento de imagens, pesquisa e compreensão da linguagem natural, diz ele. Tudo isso tem normalmente cautelosos pesquisadores AI esperançoso que as máquinas inteligentes podem finalmente escapar das páginas da ficção científica. De fato, a inteligência da máquina está começando a transformar tudo, desde comunicações e computação até medicina, fabricação e transporte. As possibilidades são evidentes no Jeopardy da IBM ! Watson, que usa algumas técnicas de aprendizado profundo e está sendo treinado para ajudar os médicos a tomar melhores decisões. A Microsoft implantou um aprendizado profundo em seu Windows Phone e Bing pesquisa de voz. Estender a aprendizagem profunda em aplicações além do reconhecimento de fala e imagem exigirá mais descobertas conceituais e de software, para não mencionar muitos mais avanços no poder de processamento. E nós provavelmente não veremos máquinas que todos concordamos que podem pensar por si mesmos por anos, talvez décadas - se alguma vez. Mas, por enquanto, diz Peter Lee, diretor da Microsoft Research USA, "o aprendizado profundo reativou alguns dos grandes desafios da inteligência artificial". Construindo um cérebro Houve muitas abordagens concorrentes para esses desafios. Um deles foi alimentar computadores com informações e regras sobre o mundo, o que exigia que os programadores escrevessem laboriosamente um software familiarizado com os atributos de, digamos, uma borda ou um som. Isso levou muito tempo e ainda deixou os sistemas incapazes de lidar com dados ambíguos; Eles eram limitados a aplicativos estreitos e controlados, como sistemas de menu do telefone que pediam que você fizesse consultas dizendo palavras específicas. As redes neurais, desenvolvidas na década de 1950, pouco depois do início da pesquisa da AI, pareciam promissoras porque tentavam simular a maneira como o cérebro funcionava, embora de forma bastante simplificada. Um programa mapeia um conjunto de neurônios virtuais e então atribui valores numéricos aleatórios, ou "pesos", às conexões entre eles. Esses pesos determinam como cada neurônio simulado responde - com uma saída matemática entre 0 e 1 - a uma característica digitalizada, como uma borda ou uma tonalidade de azul em uma imagem, ou um nível de energia particular em uma freqüência em um fonema, a unidade individual Do som em sílabas faladas. Algumas das redes neurais artificiais de hoje podem se treinar para reconhecer padrões complexos. Os programadores treinariam uma rede neural para detectar um objeto ou um fonema blitzing a rede com as versões digitalizadas das imagens que contêm aqueles objetos ou ondas sadias que contêm aqueles phonemes. Se a rede não reconhecer com precisão um determinado padrão, um algoritmo seria ajustar os pesos. O objetivo final deste treinamento era fazer com que a rede reconhecesse consistentemente os padrões na fala ou conjuntos de imagens que nós, humanos, conhecemos como, digamos, o fonema "d" ou a imagem de um cão. Isto é muito da mesma maneira que uma criança aprende o que um cão está observando os detalhes da forma da cabeça, do comportamento, e do gosto nos animais peludos, latidos que outras pessoas chamam cães. Mas as redes neurais precoce poderiam simular apenas um número muito limitado de neurônios ao mesmo tempo, então eles não poderiam reconhecer padrões de grande complexidade. Eles definharam durante a década de 1970. Em meados da década de 1980, Hinton e outros ajudaram a desencadear um revival de interesse em redes neurais com os chamados modelos "profundos" que fizeram melhor uso de muitas camadas de neurônios de software. Mas a técnica ainda exigia envolvimento humano pesado: os programadores tinham de rotular os dados antes de alimentá-los para a rede. E o reconhecimento complexo de fala ou imagem exigia mais poder do computador do que estava disponível. Finalmente, no entanto, na última década, Hinton e outros pesquisadores fizeram alguns avanços conceituais fundamentais. Em 2006, Hinton desenvolveu uma maneira mais eficiente de ensinar camadas individuais de neurônios. A primeira camada aprende características primitivas,como uma borda em uma imagem ou a mais ínfima unidade de som de fala. Ele faz isso encontrando combinações de pixels digitalizados ou ondas sonoras que ocorrem com mais freqüência do que deveriam por acaso. Uma vez que a camada reconhece exatamente esses recursos, eles são alimentados para a próxima camada, que se treina para reconhecer recursos mais complexos, como um canto ou uma combinação de sons de fala. O processo é repetido em camadas sucessivas até que o sistema possa reconhecer fielmente fonemas ou objetos. Como gatos. Em junho passado, o Google demonstrou uma das maiores redes neurais ainda, com mais de um bilhão de conexões. Uma equipe liderada por Andrew Ng, professor de ciência da computação de Stanford, e Jeff Dean, do Google, mostraram as imagens do sistema de 10 milhões de vídeos selecionados aleatoriamente no YouTube. Um neurônio simulado no modelo de software fixado em imagens de gatos. Outros se concentravam em rostos humanos, flores amarelas e outros objetos. E graças ao poder do aprendizado profundo, o sistema identificou esses objetos discretos mesmo que nenhum ser humano os tenha definido ou rotulado. O que surpreendeu alguns especialistas em IA, porém, foi a magnitude da melhoria no reconhecimento de imagens. O sistema categorizou corretamente objetos e temas nas imagens do YouTube 16% do tempo. Isso pode não parecer impressionante, mas foi 70% melhor do que os métodos anteriores. E, Dean observa, havia 22.000 categorias para escolher; Colocando corretamente objetos em alguns deles necessários, por exemplo, distinguindo entre duas variedades semelhantes de peixe de patim. Isso teria sido um desafio mesmo para a maioria dos seres humanos. Quando o sistema foi solicitado a classificar as imagens em mais 1.000 categorias gerais, a taxa de precisão saltou acima de 50 por cento. Dados grandes O treinamento de muitas camadas de neurônios virtuais no experimento levou 16.000 processadores de computador - o tipo de infra-estrutura de computação que o Google desenvolveu para seu mecanismo de busca e outros serviços. Pelo menos 80 por cento dos avanços recentes na IA podem ser atribuídos à disponibilidade de mais poder de computador, estima Dileep George, co-fundador da máquina-aprendizagem de arranque Vicarious. No entanto, há mais do que o tamanho dos centros de dados do Google. O aprendizado profundo também se beneficiou do método da empresa de dividir tarefas de computação entre muitas máquinas para que elas possam ser feitas muito mais rapidamente. Essa é uma tecnologia que o Dean ajudou a desenvolver mais cedo na sua carreira de 14 anos no Google. Ele também acelera o treinamento de redes neurais de aprendizagem profunda, permitindo que o Google execute redes maiores e alimente muito mais dados para eles. Já, a aprendizagem profunda melhorou a pesquisa de voz em smartphones. Até o ano passado, o software Android do Google usou um método que mal entendia muitas palavras. Mas em preparação para uma nova versão do Android em julho passado, Dean e sua equipe ajudaram a substituir parte do sistema de fala com um baseado em aprendizagem profunda. Como as várias camadas de neurônios permitem um treinamento mais preciso nas muitas variantes de um som, o sistema pode reconhecer fragmentos de som de forma mais confiável, especialmente em ambientes ruidosos, como plataformas de metrô. Desde que é mais provável para entender o que foi realmente proferido, o resultado que ele retorna é mais provável de ser preciso também. Quase da noite para o dia, o número de erros caiu em até 25 por cento - resultados tão bons que muitos críticos consideram a pesquisa de voz do Android mais esperta do que o mais famoso assistente de voz da Siri da Apple. Para todos os avanços, nem todos pensam que o aprendizado profundo pode mover a inteligência artificial para algo que rivaliza com a inteligência humana. Alguns críticos dizem que o aprendizado profundo ea AI em geral ignoram muito da biologia do cérebro em favor da computação de força bruta. Um desses críticos é Jeff Hawkins, fundador da Palm Computing, cujo mais recente empreendimento, Numenta, está desenvolvendo um sistema de aprendizado mecânico que é biologicamente inspirado, mas não usa um aprendizado profundo. O sistema da Numenta pode ajudar a prever os padrões de consumo de energia e a probabilidade de que uma máquina, como um moinho de vento, esteja prestes a falhar. Hawkins, autor de On Intelligence , um livro de 2004 sobre como o cérebro funciona e como ele pode fornecer um guia para construir máquinas inteligentes, diz que a aprendizagem profunda não dá conta do conceito de tempo. Os cérebros processam fluxos de dados sensoriais, diz ele, eo aprendizado humano depende de nossa capacidade de recordar seqüências de padrões: quando você assiste a um vídeo de um gato fazendo algo engraçado, é o movimento que importa, e não uma série de imagens fixas como aquelas do Google Usado em sua experiência. "Atitude do Google é: Mas se não compensar tudo, os recursos de computação que uma empresa como o Google lança sobre esses problemas não podem ser descartados. Eles são cruciais, dizem os defensores da aprendizagem profunda, porque o próprio cérebro é ainda muito mais complexo do que qualquer uma das redes neurais atuais. "Você precisa de muitos recursos computacionais para fazer as idéias funcionarem", diz Hinton. Qual é o próximo Embora o Google seja menos do que próximo sobre aplicações futuras, as perspectivas são intrigantes. Claramente, a busca melhor da imagem ajudaria YouTube, por exemplo. E Dean diz que os modelos de aprendizagem profunda podem usar dados de fonemas do inglês para mais rapidamente treinar sistemas para reconhecer os sons falados em outras línguas. Também é provável que um reconhecimento de imagem mais sofisticado possa tornar os carros auto-dirigidos do Google muito melhores. Depois, há a pesquisa e os anúncios que a subscrevem. Ambos poderiam ver grandes melhorias de qualquer tecnologia que é melhor e mais rápido ao reconhecer o que as pessoas estão realmente procurando - talvez até antes de perceberem. Sergey Brin disse que quer construir uma versão benigna do HAL em 2001: Uma Odisséia no Espaço. Isto é o que intriga Kurzweil, 65, que há muito tem uma visão de máquinas inteligentes. Na escola secundária, ele escreveu um software que habilitou um computador para criar música original em vários estilos clássicos, que ele demonstrou em uma aparição de 1965 no programa de TV I've Got a Secret . Desde então, suas invenções incluíram várias primeiras-uma máquina de leitura de impressão para fala, software que poderia digitalizar e imprimir texto impresso em qualquer fonte, sintetizadores de música que poderia recriar o som de instrumentos orquestrais e um sistema de reconhecimento de fala com Um grande vocabulário. Hoje, ele prevê um "amigo cibernético" que ouve em suas conversas telefônicas, lê seu e-mail e rastreia todos os seus movimentos - se você deixá-lo, é claro - para que ele possa dizer-lhe coisas que você quer saber antes mesmo de você Pergunte Este não é o seu objetivo imediato no Google, mas ele coincide com o do co-fundador do Google Sergey Brin, que disse nos primeiros dias da empresa que ele queria construir o equivalente do computador HAL sensível em 2001: Uma Odisséia no Espaço - exceto um que wouldn 'T matar as pessoas. Por enquanto, Kurzweil visa ajudar os computadores a entender e até mesmo a falar em linguagem natural. "Meu mandato é dar aos computadores suficiente compreensão da linguagem natural para fazer coisas úteis - fazer um trabalho melhor de busca, fazer um melhor trabalho de responder a perguntas", diz ele. Essencialmente, ele espera criar uma versão mais flexível do Watson da IBM, que ele admira pela sua capacidade de entender Jeopardy! Perguntas quirky como "um discurso longo, cansativo entregadopor um espumante topping da torta." (A resposta correta de Watson: "O que é uma harangue do meringue?") Kurzweil não está focado unicamente na aprendizagem profunda, embora ele diga que sua abordagem para o reconhecimento de fala é baseada em teorias semelhantes sobre como o cérebro funciona. Ele quer modelar o significado real de palavras, frases e sentenças, incluindo ambigüidades que normalmente desagregam computadores. "Tenho uma idéia em mente de uma forma gráfica para representar o significado semântico da linguagem", diz ele. Isso, por sua vez, exigirá uma maneira mais abrangente de graficar a sintaxe das sentenças. O Google já está usando esse tipo de análise para melhorar a gramática nas traduções. A compreensão da linguagem natural exigirá também que os computadores entendam o que os humanos pensam como significado de senso comum. Para isso, Kurzweil vai aproveitar o Knowledge Graph, o catálogo do Google de cerca de 700 milhões de tópicos, locais, pessoas e muito mais, além de bilhões de relacionamentos entre eles. Foi introduzido no ano passado como uma forma de fornecer aos pesquisadores respostas para suas consultas, não apenas links. Finalmente, Kurzweil planeja aplicar algoritmos de aprendizado profundo para ajudar os computadores a lidar com os "limites suaves e ambigüidades na linguagem". Se tudo isso soa assustador, é. "A compreensão da linguagem natural não é um objetivo que é terminado em algum ponto, mais do que busca", diz ele. "Esse não é um projeto que eu acho que vou terminar." Embora a visão de Kurzweil seja ainda anos da realidade, a aprendizagem profunda é provável estimular outras aplicações além do reconhecimento da fala e da imagem no termo mais próximo. Por um lado, há a descoberta de drogas. A vitória surpresa do grupo de Hinton no concurso da Merck mostrou claramente a utilidade do aprendizado profundo em um campo onde poucos esperavam que ele fizesse um impacto. Isso não é tudo. Peter Lee, da Microsoft, diz que há uma pesquisa inicial promissora sobre os potenciais usos da aprendizagem profunda em tecnologias de visão de máquinas que usam imagens para aplicações como inspeção industrial e orientação de robôs. Ele também prevê sensores pessoais que redes neurais profundas podem usar para prever problemas médicos. E sensores em toda a cidade podem alimentar sistemas de aprendizagem profunda que poderiam, por exemplo, prever onde podem ocorrer atolamentos de tráfego. Num campo que tenta algo tão profundo como modelar o cérebro humano, é inevitável que uma técnica não resolva todos os desafios. Mas, por enquanto, este está liderando o caminho da inteligência artificial. "O aprendizado profundo", diz Dean, "é uma metáfora realmente poderosa para aprender sobre o mundo". Aprendizagem Profunda
Compartilhar