Aprendendo a Lembrar: Uma Estrutura Sináptica da Plasticidade para Aprendizado Contínuo

Oleksiy Ostapenko, Tassilo Klein, Moin Nabi (Pesquisa ML)

Os seres humanos têm uma capacidade extraordinária de aprender continuamente ao longo da vida. A capacidade de aplicar o conhecimento aprendido anteriormente a novas situações, ambientes e tarefas constitui o principal recurso da inteligência humana. No nível biológico, isso geralmente é atribuído à capacidade de armazenar e governar seletivamente memórias por um período suficientemente longo em conexões neurais chamadas sinapses. Ao contrário do cérebro biológico, as Redes Neurais Artificiais (RNAs) convencionais não possuem a capacidade de controlar a força das conexões sinápticas entre os neurônios. Isso leva a uma vida útil extremamente curta da memória nas RNAs - o efeito conhecido como esquecimento catastrófico.

Na década passada, a maioria das pesquisas no campo da Inteligência Artificial (IA) foi direcionada para exceder o desempenho em nível humano em tarefas isoladas e claramente definidas, como jogar jogos de computador, separar e-mails de spam, classificar gatos de cães e reconhecer a fala, apenas para nomear alguns. Como resultado, a maior parte da IA ​​que nos rodeia em nossa vida cotidiana pode ser chamada de Inteligência Artificial Estreita ou IA fraca. A IA forte, em contraste, refere-se à IA humana, que pode executar qualquer tarefa inteligente, ao mesmo tempo em que é capaz de aprender continuamente, esquecer seletivamente, enquanto se adapta rapidamente a novas tarefas e faz uso de experiências anteriores. Essas propriedades só recentemente começaram a receber atenção de pesquisadores de IA.

Por que aprendizado contínuo? A chave para cenários em constante mudança

O esquecimento e a falta de transferência de conhecimento constituem um dos principais desafios no caminho da IA ​​fraca para a IA forte. Ao contrário dos humanos, que esquecem seletivamente, as máquinas esquecem catastroficamente. Assim, enquanto um “bebê aprende a engatinhar, andar e depois correr” (~ Dave Waters), a IA se esquecia completamente de engatinhar assim que aprendia a andar, e esquecia de andar quando aprendia a correr. Antes de revisar possíveis soluções para o desafio do aprendizado contínuo ao longo da vida, vamos considerar um exemplo simples de uma pesquisa de catálogo de roupas baseada em IA.

Um modelo de aprendizado de máquina treinado em um conjunto de dados contendo itens de vestuário da temporada (A) teria um desempenho extremamente bom ao pesquisar entre os produtos desta temporada (A). No entanto, uma vez que a estação muda, as tendências da moda também podem mudar. Depois que as tendências da moda mudam, novas categorias de produtos, modelos e estilos podem ser adicionados ao catálogo (por exemplo, sapatos de salto alto em vez de tênis, jaquetas longas em vez de jaquetas curtas etc.). O modelo treinado nos dados da primeira temporada (A) não teria bom desempenho ao pesquisar itens que foram adicionados na nova temporada. De fato, simplesmente treinar nosso modelo nos dados da nova temporada levaria ao esquecimento catastrófico da capacidade de pesquisar entre os itens da temporada anterior.

Maneira comum de resolver o esquecimento?

Uma das primeiras técnicas para mitigar o esquecimento catastrófico nas RNAs é conhecida como repetição de experiência ou "ensaio". Continuando com nosso exemplo de pesquisa de catálogo, para manter as informações aprendidas na primeira temporada, o modelo de aprendizado de máquina é simplesmente treinado do zero com a mistura de dados de ambas as estações, ou seja, o conhecimento aprendido anteriormente é reproduzido no modelo treinado em os dados da nova temporada. Geralmente, o novo treinamento do modelo toda vez que as distribuições de dados “mudam” resultaria na explosão dos custos de armazenamento de dados e do esforço necessário para manter sistemas inteligentes, sem mencionar a redução drástica da escalabilidade do sistema. Por fim, o armazenamento de dados brutos de tarefas anteriores pode violar amplamente os requisitos de privacidade de dados do aplicativo no mundo real.

Nesse contexto, muitos pesquisadores se concentraram em simular plasticidade neural nas RNAs e, assim, mitigar a necessidade de armazenar dados brutos (1,2,3,4,5,6). Isso geralmente é feito na configuração denominada “tarefa incremental”, onde cada bloco de dados recém-adicionado é considerado uma tarefa separada e as informações sobre o rótulo da tarefa são consideradas disponíveis no momento do teste. Voltando ao exemplo de pesquisa de catálogo, isso exigiria que as informações sobre o rótulo da temporada (rótulo da tarefa) fossem incluídas em cada consulta; portanto, a classificação de um determinado item de vestuário exigiria informações a priori sobre a estação a que ele pertence (rótulo da tarefa). Ter esse "rótulo de tarefa" reduziria automaticamente a saída do modelo para as classes que pertencem à tarefa assumida. Assim, em nosso exemplo acima, isso restringiria apenas o modelo à estação específica. Essas suposições raramente podem ser cumpridas em aplicativos do mundo real.

Uma linha de trabalho separada aborda um cenário mais semelhante ao mundo real. Nesse cenário "incremental de classe", a saída de classificação do modelo é estendida continuamente à medida que novas classes são aprendidas. Nesse contexto, uma estratégia comum é a introdução do chamado componente de memória generativa (por exemplo, 7,8,9). Aqui, em vez de armazenar dados brutos, um modelo generativo como GAN ou VAE (consulte o post anterior do blog) é treinado para gerar experiência a ser reproduzida. Portanto, no exemplo do catálogo, os itens (com a classe correspondente) da primeira temporada seriam gerados e reproduzidos no modelo.

As abordagens de memória generativa existentes se baseiam principalmente na idéia de repetição gerativa profunda, em que o modelo generativo é repetidamente treinado na mistura de dados reais atualmente disponíveis (nova temporada) e nos episódios de repetição sintetizados pelo gerador anterior (temporada passada). No entanto, além de serem altamente ineficientes no treinamento, essas abordagens são severamente propensas a um efeito conhecido como "desvio semântico". “Deslocação semântica” refere-se à qualidade das imagens geradas em cada repetição de memória, dependendo das imagens geradas anteriormente, causando suscetibilidade à propagação de erros e, portanto, resultando em perda de qualidade e esquecimento.

Solução proposta - Aprendizado de plasticidade em uma rede de memória generativa

Até agora, aprendemos que a repetição da experiência é uma estratégia simples e útil para superar o esquecimento nas RNAs em geral, e particularmente na desafiadora situação “incremental de classe”. No entanto, essa estratégia é aplicável apenas quando os episódios de reprodução não são mantidos como dados brutos, mas na forma de padrões de memória armazenados relevantes e eficientemente.

Para resolver isso, em nosso trabalho recente, propusemos um método chamado Dynamic Generative Memory (DGM) - uma estrutura de aprendizado contínuo treinável de ponta a ponta que simula a plasticidade sináptica com máscaras de atenção intensas aprendidas aplicadas aos parâmetros de uma rede generativa (GAN) . A máscara de atenção intensiva identifica os segmentos de rede que são essenciais para memorizar as informações aprendidas no momento e impede suas atualizações durante o aprendizado futuro. A rede é ainda incentivada a reutilizar o conhecimento aprendido anteriormente, que foi armazenado nesses segmentos de rede "reservados", gerando uma transferência positiva positiva de conhecimento. Portanto, em nosso exemplo de catálogo de produtos, o conhecimento sobre os itens do catálogo da temporada anterior pode ser efetivamente reutilizado ao aprender sobre os itens da nova temporada. Em suma, o DGM pode aprender sobre novas tarefas sem a necessidade de repetir conhecimentos antigos, melhorando assim a eficiência do treinamento e se tornando mais robusto diante do esquecimento catastrófico.

Conseqüentemente, o DGM pode gerar amostras informativas e diversas de categorias aprendidas anteriormente em qualquer etapa do aprendizado contínuo, conforme exibido na figura abaixo. A reprodução dessas amostras no modelo de resolução de tarefas (D) produz um modelo que pode manter um alto desempenho de classificação em todas as classes vistas durante o processo de aprendizado contínuo.

Sobre escalabilidade

Dado o tamanho limitado da rede, é inevitável que, com um número crescente de tarefas a serem aprendidas, a capacidade do modelo se esgote em algum momento. Esse problema é agravado ao simular a plasticidade neural com mascaramento da atenção intensiva em nível de parâmetro. Para garantir capacidade suficiente e poder expressivo constante da rede subjacente, o DGM mantém constante o número de parâmetros "livres" (ou seja, uma vez que possam ser efetivamente atualizados) expandindo a rede com exatamente o número de parâmetros que foram reservados para o anterior tarefa. A idéia principal aqui é que, com uma determinada transferência positiva positiva de conhecimento (ou seja, reutilização de parâmetros), o número de reservas de parâmetros para novas tarefas diminua com o tempo e o crescimento da rede se sature em um determinado ponto.

Para detalhes técnicos sobre o método DGM, consulte o artigo completo no arXiv.

Embora ainda esteja longe de resolver completamente a questão do esquecimento catastrófico e, apesar de várias limitações, o DGM demonstra crescimento eficiente da rede e robustez contra o esquecimento catastrófico em uma desafiadora configuração "incremental de classe". Acreditamos que a pesquisa apresentada pode nos ajudar a melhorar nossa compreensão do aprendizado contínuo - uma habilidade essencial no caminho para alcançar uma IA forte, capaz de aprender (e esquecer) de forma adaptativa e progressiva ao longo do tempo.

Nosso trabalho sobre aprendizagem ao longo da vida é apresentado no CVPR 2019.

Sobre o autor: Oleksiy Ostapenko, engenheiro de pesquisa associado da equipe de pesquisa de aprendizado de máquina da SAP, está trabalhando nos desafios do aprendizado contínuo ao longo da vida discutidos neste post em seu artigo, que será apresentado no CVPR deste ano.