Mecanismo de pico de neurônios biológicos pode impulsionar redes neurais artificiais

14 de janeiro de 2025

97

Faculdade de Matemática, Universidade de Viena, Viena, Áustria

13 de janeiro de 2025&bala; Física 18, 5

Ao incorporar pulsos elétricos com formatos semelhantes aos dos picos dos neurônios biológicos, os pesquisadores melhoraram a capacidade de treinar tipos de redes neurais com eficiência energética.

Figura 1: (Esquerda) Um neurônio biológico é composto por um corpo celular (estrutura triangular) e dendritos (pequenos ramos). Os sinais de saída são enviados para outros neurônios através do axônio (linha roxa rotulada como “saída”). Os picos de entrada de outro neurônio são integrados em uma sinapse – o ponto onde o axônio transmissor e os dendritos se conectam. A sinapse é representada por um peso (C). (Direita) No modelo LIF, diminuindo C atrasa o tempo de pico de saída do neurônio até que a entrada seja muito pequena para atingir o limite (pulso laranja) – levando ao desaparecimento do pico de saída. Em contraste, o modelo QIF não possui tal limite. Os picos são representados por divergências do potencial de membrana, que levam a uma dependência contínua do tempo de pico de saída tanto no peso quanto no tempo de pico de entrada.

As redes neurais artificiais (RNAs) trouxeram muitas ferramentas impressionantes na última década, incluindo o modelo AlphaFold, vencedor do Prêmio Nobel, para previsão da estrutura de proteínas (1). No entanto, este sucesso acarreta um custo económico e ambiental cada vez maior: o processamento de grandes quantidades de dados para treinar tais modelos em tarefas de aprendizagem automática requer quantidades surpreendentes de energia (2). Como o próprio nome sugere, RNAs são algoritmos computacionais inspirados em suas contrapartes biológicas. Apesar de alguma semelhança entre redes neurais reais e artificiais, as biológicas operam com um orçamento energético muitas ordens de grandeza inferior ao das RNAs. O segredo deles? As informações são transmitidas entre os neurônios por meio de pulsos elétricos curtos, os chamados picos. O fato de o processamento de informações ocorrer por meio de padrões esparsos de pulsos elétricos leva a uma notável eficiência energética. Mas, surpreendentemente, recursos semelhantes ainda não foram incorporados às RNAs convencionais. Embora os pesquisadores tenham estudado picos de redes neurais (SNNs) por décadas, a natureza descontínua dos picos implica desafios que complicam a adoção de algoritmos padrão usados para treinar redes neurais. Num novo estudo, Christian Klos e Raoul-Martin Memmesheimer, da Universidade de Bonn, na Alemanha, propõem uma solução extremamente simples para este problema, derivada de uma análise mais profunda do mecanismo de geração de picos dos neurónios biológicos.3). O método proposto poderia expandir drasticamente o poder dos SNNs, o que poderia permitir inúmeras aplicações em física, neurociência e aprendizado de máquina.

Um modelo amplamente adotado para descrever neurônios biológicos é o modelo “leaky integra-and-fire” (LIF). O modelo LIF captura algumas propriedades-chave dos neurônios biológicos, é rápido de simular e pode ser facilmente estendido para incluir características biológicas mais complexas. Variações do modelo LIF tornaram-se o padrão para estudar o desempenho dos SNNs em tarefas de aprendizado de máquina (4). Além disso, o modelo é encontrado na maioria dos sistemas de {hardware} neuromórficos (5) – chips de computador cujas arquiteturas se inspiram no cérebro para operar com baixo consumo de energia.

Uma das variáveis mais relevantes utilizadas na biologia para descrever a atividade dos neurônios é a diferença de potencial elétrico através da membrana celular, conhecida como potencial de membrana. No modelo LIF, isso é representado por um capacitor carregado através de um resistor. O resistor representa canais iônicos dentro da membrana celular que permitem que partículas carregadas fluam para dentro e para fora do neurônio. Picos de entrada de outros neurônios acionam correntes que carregam (ou descarregam) o capacitor, resultando em um aumento (ou queda) do potencial, seguido por um decaimento de volta ao valor de repouso do capacitor. A força dessa interação é determinada por uma quantidade escalar chamada peso, que é diferente para cada conexão neurônio-neurônio. O próprio neurônio produz um pico de saída quando seu potencial excede um valor limite. Após esse pico de saída, o potencial é redefinido para um valor sublimiar. Neste tipo de modelo, os picos são modelados apenas pelo momento de sua ocorrência, sem levar em conta a forma actual do pulso elétrico de um neurônio com picos.

Treinar um SNN se resume a encontrar, para um determinado conjunto de sinais de entrada, pesos que resultem coletivamente em respostas de rede desejadas – isto é, padrões temporais de pulsos elétricos. Este processo pode ser ilustrado para um caso simples: um neurônio que recebe um único pico de outro neurônio como entrada, conectado através de um peso ajustável (Fig. 1esquerda). Começando com um peso grande e positivo, o pico de entrada resulta em um aumento acentuado do potencial do neurônio, atingindo o limite quase imediatamente e desencadeando um pico de saída (Fig. 1certo). Ao diminuir o peso, esse pico de produção é deslocado para períodos posteriores. Mas há um problema: se o peso se tornar muito pequeno, o potencial nunca ultrapassa o limite, levando a um desaparecimento abrupto do pico de saída. Da mesma forma, ao aumentar novamente o peso, o pico de produção reaparece abruptamente em um tempo finito. Este desaparecimento e reaparecimento descontínuo de picos de saída é fundamentalmente incompatível com alguns dos métodos de treinamento mais amplamente utilizados para redes neurais: algoritmos de treinamento baseados em gradiente, como retropropagação de erro (6). Esses algoritmos assumem que mudanças contínuas nos pesos de um neurônio produzem mudanças contínuas em sua saída. A violação dessa suposição leva a instabilidades que dificultam o treinamento ao utilizar esses métodos em SNNs. Esta situação constituiu um grande obstáculo para os SNNs.

Em seu novo trabalho, Klos e Memmesheimer descobrem que apenas um pequeno ajuste no modelo LIF é necessário para satisfazer a propriedade de continuidade mencionada acima nos SNNs: incluindo a forma característica de subida e descida dos picos no próprio potencial de membrana. Nos neurônios biológicos, um pico é um aumento e queda breve e drástico do potencial de membrana do neurônio. Mas o modelo LIF reduz esta descrição ao tempo de pico. Klos e Memmesheimer superam essa simplificação investigando um modelo de neurônio que inclui tal aumento: o neurônio quadrático de integração e disparo (QIF). Este modelo é quase idêntico ao modelo LIF, com uma diferença basic. Ele contém um termo não linear projetado para autoamplificar aumentos no potencial de membrana, o que por sua vez leva a uma divergência do estado estacionário em um tempo finito (o pico). Eles mostram que com este modelo o tempo de pico de saída depende continuamente dos pesos e dos tempos de pico de entrada (Fig. 1certo). Mais importante ainda, em vez de desaparecer abruptamente quando a entrada é muito fraca, o tempo de pico aumenta suavemente até o infinito.

Para garantir que os neurônios aumentem com frequência suficiente para resolver uma determinada tarefa computacional, os pesquisadores dividiram uma simulação em dois períodos: um período de teste, no qual as entradas são apresentadas ao SNN e as saídas são lidas a partir dele, e um período subsequente no qual a dinâmica neuronal continua. , mas o pico é facilitado por uma corrente de entrada adicional e crescente. Os “pseudospikes” resultantes podem ser continuamente movidos para dentro e para fora do período de teste durante o treinamento, fornecendo um mecanismo suave para ajustar a atividade de pico dos SNNs.

Ampliando pesquisas anteriores sobre treinamento de SNNs usando a chamada retropropagação exata de erro (7–9), o presente resultado demonstra que o treinamento estável com métodos baseados em gradiente é possível, diminuindo ainda mais a lacuna entre SNNs e RNAs, ao mesmo tempo que mantém a promessa dos SNNs de consumo de energia extremamente baixo. Estes resultados, em explicit, promovem a busca por novas arquiteturas SNN com tempos de pico de saída que dependam continuamente das entradas e dos parâmetros da rede, uma característica que também foi identificada como um passo decisivo em um estudo teórico recente.10). Mas a investigação não irá parar nos picos. Estou ansioso para testemunhar o que a incorporação de características biológicas mais complexas – como heterogeneidade de rede, potenciais de platô, picos de pico e estruturas neuronais estendidas – terá reservado para o futuro da IA.

Referências

J. Saltador e outros.“Previsão de estrutura de proteína altamente precisa com AlphaFold,” Natureza 596583 (2021).
S. Luccioni e outros.“As lâmpadas têm classificações energéticas – então por que os chatbots de IA não podem?” Natureza 632736 (2024).
C. Klos e R.-M. Memmesheimer, “Aprendizado de descida de gradiente exato e suave em redes neurais de aumento”, Física. Rev. 134027301 (2025).
JK Eshraghian e outros.“Treinamento de redes neurais usando lições de aprendizado profundo,” Processo. IEEE 1111016 (2023).
C.Frenkel e outros.“Abordagens de baixo para cima e de cima para baixo para o projeto de sistemas de processamento neuromórfico: compensações e sinergias entre inteligência pure e synthetic,” Processo. IEEE 111623 (2023).
Y. LeCun e outros.“Aprendizagem profunda,” Natureza 521436 (2015).
J. Goltz e outros.“Aprendizado profundo neuromórfico rápido e com baixo consumo de energia com tempos de primeiro pico,” Nat. Mach. Intel. 3823 (2021).
IM Comsa e outros.“Codificação temporal no aumento de redes neurais com função sináptica alfa,” ICASSP 2020-2020 IEEE Int’l Conf. Acústica, Processamento de Fala e Sinais (ICASSP) 8529 (2020).
H. Mostafa, “Aprendizado supervisionado baseado em codificação temporal em redes neurais de aumento”, IEEE Trans. Rede Neural. Sistema de aprendizagem. 293227 (2017).
MA Neuman e outros.“Aprendizado estável usando redes neurais de pico equipadas com codificadores e decodificadores afins,” arXiv:2404.04549.

Sobre o autor

Dominik Dold é pós-doutorado Marie-Skłodowska Curie na Faculdade de Matemática da Universidade de Viena. Ele investiga como a funcionalidade surge em sistemas complexos – incluindo redes neurais biológicas e artificiais, estruturas de rede, estruturas gráficas (relacionais), sistemas multirobôs e enxames de satélites. O foco principal de seu trabalho reside no aumento de redes neurais e métodos de auto-organização. Após um doutoramento em Heidelberg e Berna, obteve uma posição de investigador residente na Siemens e uma bolsa de investigação na Equipa de Conceitos Avançados da Agência Espacial Europeia.