Este novo dispositivo usa luz para realizar as principais operações de uma rede neural profunda em um chip, abrindo a porta para processadores de alta velocidade que podem aprender em tempo actual.
Os modelos de redes neurais profundas que alimentam os aplicativos de aprendizado de máquina mais exigentes da atualidade tornaram-se tão grandes e complexos que estão ultrapassando os limites do {hardware} de computação eletrônica tradicional.
O {hardware} fotônico, que pode realizar cálculos de aprendizado de máquina com luz, oferece uma alternativa mais rápida e com maior eficiência energética. No entanto, existem alguns tipos de cálculos de redes neurais que um dispositivo fotônico não pode realizar, exigindo o uso de componentes eletrônicos fora do chip ou outras técnicas que prejudicam a velocidade e a eficiência.
Com base em uma década de pesquisa, cientistas do MIT e de outros lugares desenvolveram um novo chip fotônico que supera esses obstáculos. Eles demonstraram um processador fotônico totalmente integrado que pode realizar todos os cálculos principais de uma rede neural profunda opticamente no chip.
O dispositivo óptico foi capaz de concluir os principais cálculos para uma tarefa de classificação de aprendizado de máquina em menos de meio nanossegundo, ao mesmo tempo em que alcançou mais de 92% de precisão – desempenho equivalente ao do {hardware} tradicional.
O chip, composto por módulos interligados que formam uma rede neural óptica, é fabricado por meio de processos de fundição comercial, o que poderá possibilitar o escalonamento da tecnologia e sua integração à eletrônica.
No longo prazo, o processador fotônico poderá levar a um aprendizado profundo mais rápido e com maior eficiência energética para aplicações computacionalmente exigentes, como lidar, pesquisa científica em astronomia e física de partículas ou telecomunicações de alta velocidade.
“Há muitos casos em que o bom desempenho do modelo não é a única coisa que importa, mas também a rapidez com que você pode obter uma resposta. Agora que temos um sistema ponta a ponta que pode executar uma rede neural em óptica, em uma escala de tempo de nanossegundos, podemos começar a pensar em um nível mais alto sobre aplicações e algoritmos”, diz Saumil Bandyopadhyay ’17, MEng ’18, PhD ’23, cientista visitante no Grupo de Fotônica Quântica e IA no Laboratório de Pesquisa de Eletrônica (RLE) e pós-doutorado na NTT Analysis, Inc., que é o principal autor de um artigo sobre o novo chip.
Bandyopadhyay é acompanhado no artigo por Alexander Sludds ’18, MEng ’19, PhD ’23; Nicholas Harris PhD ’17; Darius Bunandar PhD ’19; Stefan Krastanov, ex-cientista pesquisador da RLE que agora é professor assistente na Universidade de Massachusetts em Amherst; Ryan Hamerly, cientista visitante da RLE e cientista sênior da NTT Analysis; Matthew Streshinsky, ex-líder de fotônica de silício da Nokia e agora cofundador e CEO da Enosemi; Michael Hochberg, presidente da Periplous, LLC; e Dirk Englund, professor do Departamento de Engenharia Elétrica e Ciência da Computação, investigador principal do Grupo de Fotônica Quântica e Inteligência Synthetic e do RLE, e autor sênior do artigo. A pesquisa aparece hoje na Nature Photonics.
Aprendizado de máquina com luz
As redes neurais profundas são compostas por muitas camadas interconectadas de nós, ou neurônios, que operam com base em dados de entrada para produzir uma saída. Uma operação chave em uma rede neural profunda envolve o uso de álgebra linear para realizar a multiplicação de matrizes, que transforma os dados à medida que são passados de camada para camada.
Mas, além dessas operações lineares, as redes neurais profundas realizam operações não lineares que ajudam o modelo a aprender padrões mais complexos. As operações não lineares, como as funções de ativação, dão às redes neurais profundas o poder de resolver problemas complexos.
Em 2017, o grupo de Englund, juntamente com pesquisadores do laboratório de Marin Soljačić Em 96, o professor de física Cecil e Ida Inexperienced demonstrou uma rede neural óptica em um único chip fotônico que poderia realizar a multiplicação de matrizes com luz.
Mas na época, o dispositivo não conseguia realizar operações não lineares no chip. Os dados ópticos tiveram que ser convertidos em sinais elétricos e enviados a um processador digital para realizar operações não lineares.
“A não-linearidade em óptica é bastante desafiadora porque os fótons não interagem entre si com muita facilidade. Isso consome muito energia para acionar não linearidades ópticas, por isso torna-se um desafio construir um sistema que possa fazer isso de forma escalonável”, explica Bandyopadhyay.
Eles superaram esse desafio projetando dispositivos chamados unidades de função óptica não linear (NOFUs), que combinam eletrônica e óptica para implementar operações não lineares no chip.
Os pesquisadores construíram uma rede neural óptica profunda em um chip fotônico usando três camadas de dispositivos que realizam operações lineares e não lineares.
Uma rede totalmente integrada
No início, o sistema deles codifica os parâmetros de uma rede neural profunda em luz. Em seguida, um conjunto de divisores de feixe programáveis, demonstrado no artigo de 2017, realiza a multiplicação de matrizes nessas entradas.
Os dados então passam para NOFUs programáveis, que implementam funções não lineares desviando uma pequena quantidade de luz para fotodiodos que convertem sinais ópticos em corrente elétrica. Esse processo, que dispensa a necessidade de amplificador externo, consome muito pouca energia.
“Ficamos no domínio óptico o tempo todo, até o last, quando queremos ler a resposta. Isso nos permite alcançar latência ultrabaixa”, diz Bandyopadhyay.
Alcançar uma latência tão baixa permitiu-lhes treinar com eficiência uma rede neural profunda no chip, um processo conhecido como treinamento in situ que normalmente consome uma enorme quantidade de energia em {hardware} digital.
“Isso é especialmente útil para sistemas onde você está fazendo processamento de sinais ópticos no domínio, como navegação ou telecomunicações, mas também em sistemas que você deseja aprender em tempo actual”, diz ele.
O sistema fotônico alcançou mais de 96% de precisão durante os testes de treinamento e mais de 92% de precisão durante a inferência, o que é comparável ao {hardware} tradicional. Além disso, o chip realiza cálculos importantes em menos de meio nanossegundo.
“Este trabalho demonstra que a computação – em sua essência, o mapeamento de entradas para saídas – pode ser compilada em novas arquiteturas de física linear e não linear que permitem uma lei de escala de computação fundamentalmente diferente versus esforço necessário”, diz Englund.
Todo o circuito foi fabricado usando a mesma infraestrutura e processos de fundição que produzem chips de computador CMOS. Isso poderia permitir que o chip fosse fabricado em escala, usando técnicas testadas e comprovadas que introduzem muito poucos erros no processo de fabricação.
Ampliar seu dispositivo e integrá-lo com eletrônicos do mundo actual, como câmeras ou sistemas de telecomunicações, será o foco principal do trabalho futuro, diz Bandyopadhyay. Além disso, os pesquisadores querem explorar algoritmos que possam aproveitar as vantagens da óptica para treinar sistemas de forma mais rápida e com melhor eficiência energética.
Esta pesquisa foi financiada, em parte, pela Fundação Nacional de Ciência dos EUA, pelo Escritório de Pesquisa Científica da Força Aérea dos EUA e pela NTT Analysis.