近日,來自瑞士蘇黎世IBM研究中心的Bert Jan Offrein等人在Nanophotonics期刊上發(fā)表綜述:評述了集成光學(xué)解決方案在加速推理和人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練方面的前景。
計算突觸功能,在計算上是非常昂貴的,并且不能很好的在先進(jìn)的計算平臺上規(guī)模化。利用集成光學(xué)器件的線性和非線性來進(jìn)行模擬信號處理,可以大幅度提高這些人工智能工作負(fù)載的性能和功率效率。集成光子學(xué)的高速運(yùn)行能力為時間實(shí)時應(yīng)用提供了機(jī)會,而芯片級集成為制造和封裝成本效益的鋪平了道路。
集成光學(xué)器件為神經(jīng)形態(tài)計算提供了一些性能優(yōu)勢,如:形狀因素、可制造性、成本、機(jī)械穩(wěn)定性和可高速調(diào)制。
集成光子神經(jīng)網(wǎng)絡(luò)有哪些新機(jī)遇?
一、集成光子學(xué)RC系統(tǒng)
儲備池計算(reservoir computing,RC)是其中一種非常適合順序數(shù)據(jù)處理的計算概念(圖2)。輸入數(shù)據(jù)流被耦合到一個庫,它由遞歸鏈接的神經(jīng)元組成。輸入信號和存儲信號之間以及存儲信號內(nèi)部的突觸連接是隨機(jī)分配并保持固定的。因此RC系統(tǒng)構(gòu)成了一種特殊類型的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)。
圖2. 儲備池計算方法
圖源:Nanophotonics / 圖譯:Fortuner(撰稿人)
為了避免信號在庫中的指數(shù)增長,對庫中的權(quán)值進(jìn)行了縮放,使系統(tǒng)滿足回波狀態(tài)特性。在訓(xùn)練過程中,只學(xué)習(xí)輸出層的權(quán)值。
RC系統(tǒng)因其相比于一般的RNNs大大簡化了訓(xùn)練而引起人們的興趣。雖然簡單的訓(xùn)練方法仍然是有益的,但在過去的幾年里,深度學(xué)習(xí)方法取得了巨大的進(jìn)步,使得RNNs在RC系統(tǒng)難以解決的復(fù)雜任務(wù)上得到了非常有效的應(yīng)用。然而,RC對于神經(jīng)形態(tài)系統(tǒng)仍然是一個有趣的概念,因?yàn)楣潭?quán)重很好的映射到各種馮諾依曼器件的實(shí)現(xiàn)。
從電子到光學(xué),機(jī)械以及生物,作者對塊體,光纖以及集成光子RC系統(tǒng)進(jìn)行了詳細(xì)的研究。在本文,作者對集成系統(tǒng)進(jìn)行概述。
集成光子存儲系統(tǒng),它的一些早期概念是圍繞半導(dǎo)體光放大器(SOAs)所開展的。每個SOAs由于其功率飽和行為展現(xiàn)了一個光學(xué)非線性的性質(zhì),并具有豐富的內(nèi)部動態(tài)行為。改進(jìn)的體系結(jié)構(gòu)在各種任務(wù)的數(shù)值模擬中展現(xiàn)出比傳統(tǒng)軟件更佳的性能。然而,由于SOA的功耗較大,因此這些網(wǎng)絡(luò)的功率效率有限。
多年來,研究人員對架構(gòu)進(jìn)行了各種改進(jìn),通過向多個節(jié)點(diǎn)注入輸入信號,優(yōu)化輸入方案,實(shí)現(xiàn)了更好的網(wǎng)絡(luò)功率分配(圖3)。然而,儲層內(nèi)的非線性,在電子域內(nèi)檢測和加權(quán)輸出信號所帶來的帶寬限制和延遲,以及并行操作所需的大量光電探測器,將極大的限制這些系統(tǒng)的實(shí)際適用性。
圖3. 兩種集成的光子儲層計算架構(gòu)
圖源:Nanophotonics / 圖譯:Fortuner(撰稿人 )
二、用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的集成光子設(shè)備
集成光學(xué)技術(shù)的第二個令人興奮的機(jī)會與人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練有關(guān),建立一個增強(qiáng)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練技術(shù)平臺是非常重要的。最近的出版物顯示了當(dāng)今技術(shù)在神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的巨大環(huán)境進(jìn)展。
優(yōu)化光子神經(jīng)網(wǎng)絡(luò)的訓(xùn)練有兩種基本方法:1. 訓(xùn)練方法適應(yīng)匹配系統(tǒng)兼容性。2. 在一般的訓(xùn)練方法中,如隨機(jī)梯度和反向傳播的運(yùn)算是通過光硬件來加速的。
將兩個神經(jīng)層間突觸連接的推理計算擴(kuò)展到一個技術(shù)平臺,其中反向傳播和權(quán)值更新步驟也通過光信號處理以完全并行的方式進(jìn)行。
在基于馬赫-曾德爾干涉計的向量矩陣乘法概念中,矩陣元素值由外部子系統(tǒng)設(shè)置。因此,在優(yōu)化過程中改變這些值將需要信號從神經(jīng)網(wǎng)絡(luò)輸出流到控制系統(tǒng)。針對這種結(jié)構(gòu)人們提出了一種支持反向傳播算法的訓(xùn)練算法。
它基于在該器件中進(jìn)行強(qiáng)度測量并存儲所獲得的值以供后續(xù)步驟處理。該通信路徑仍然會帶來信息流瓶頸,從而限制了訓(xùn)練算法的性能和功耗。需要一種局部權(quán)值更新機(jī)制,直接在網(wǎng)絡(luò)中獲取信號。
為了訓(xùn)練前饋的DNN,可以使用隨機(jī)梯度下降和反向傳播,作者對反向傳播算法的訓(xùn)練方法步驟進(jìn)行了總結(jié),以幫助讀者理解隨后提出的光信號處理器的優(yōu)點(diǎn):步驟1:用目標(biāo)響應(yīng)tk正向傳播訓(xùn)練輸入樣本xk,并存儲相應(yīng)輸出y。步驟 2:對于每個訓(xùn)練樣本,使用一個損耗函數(shù)計算目標(biāo)輸出和獲得的輸出之間的損失。通常,平方誤差用作損耗函數(shù)。步驟3:對于每一個訓(xùn)練樣本,找到錯誤信號,錯誤信號代表在一個神經(jīng)元上的輸入對總損耗的影響有多大。這種誤差信號可以通過權(quán)值矩陣轉(zhuǎn)置后通過網(wǎng)絡(luò)向后傳播,并使用激活函數(shù)的導(dǎo)數(shù)來獲得。步驟4:利用(步驟3)中得到的誤差信號,更新權(quán)重使損耗最小化。
最后,反復(fù)重復(fù)(1-4)的步驟,直到損耗達(dá)到最小值。
圖4. 利用具有兩層隱含層的前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行前向和后向傳播,用于網(wǎng)絡(luò)權(quán)重訓(xùn)練。
圖源:Nanophotonics/圖譯:Fortuner(撰稿人 )
早在20世紀(jì)90年代,一個光子系統(tǒng)就已經(jīng)被證明,在這個系統(tǒng)中,加權(quán)元素被存儲在一個光折變材料的體材料中。MAC操作是通過兩束光折變晶體中形成的折射率光柵的衍射效率來實(shí)現(xiàn)的。圖5描述了單個權(quán)重和兩個突出權(quán)重的形成和工作原理。
圖5. 權(quán)重的形成和工作原理
圖源:Nanophotonics
硅光子學(xué)的可用性和像鈦酸鋇,Ⅲ-Ⅴ族薄層材料等材料的整合性為實(shí)現(xiàn)模擬芯片級光子突觸處理單元提供了機(jī)會。作者展示了一個基于光折變效應(yīng)實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)操作的器件布局(圖6)。
圖6. 用于推理和訓(xùn)練的集成光子突觸處理器的示意圖
圖源:Nanophotonics / 圖譯:Fortuner(撰稿人)
將一薄層光折邊材料鍵合在硅光芯片上。電光調(diào)制器將電輸入矢量轉(zhuǎn)換為光束所需的功率和相位。探測器陣列將矢量矩陣輸出信號轉(zhuǎn)換回電域。
從本質(zhì)上講,光折變效果可以很好地控制和調(diào)整權(quán)重值。這對于有效的訓(xùn)練很重要,為定期更新矩陣元素的模擬矢量矩陣乘法提供了機(jī)會。
總結(jié)
神經(jīng)形態(tài)計算技術(shù)催生的光子發(fā)展在帶寬、處理速度和可控性方面展現(xiàn)了出色特性。集成光子學(xué)在神經(jīng)網(wǎng)絡(luò)推理和訓(xùn)練中的潛力巨大。訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)的新概念等仍舊需要進(jìn)一步的技術(shù)發(fā)展。將光子神經(jīng)形態(tài)計算的結(jié)果與其他平臺技術(shù)進(jìn)行比較,這對于將研究工作導(dǎo)向最有前景的應(yīng)用是很重要的。
文章信息
Pascal Stark, Folkert Horst, Roger Dangel, Jonas Weiss,Bert Jan Offrein,Opportunities for integrated photonic neural networks,Nanophotonics 2020; 9(13): 4221–4232
文章地址
https://doi.org/10.1515/nanoph-2020-0297
來源|中國光學(xué)(ChineseOptics)
撰稿|Fortuner(西湖大學(xué) 博士生)