ARM中國(guó)：周易NPU加速算力升級(jí) 推動(dòng)端側(cè)AI應(yīng)用發(fā)展

訊石光通訊網(wǎng) 發(fā)布時(shí)間:2024/11/13 15:11:30 編者:iccsz

摘要：AIGC大模型帶來算力的提升，端側(cè)AI應(yīng)用也在算力加持下不斷發(fā)展壯大。ARM周易NPU產(chǎn)品面向AI生態(tài)進(jìn)行優(yōu)化升級(jí)，瞄準(zhǔn)使用場(chǎng)景的真實(shí)算力需求并實(shí)現(xiàn)功耗成本降低，推動(dòng)AI生態(tài)的健康發(fā)展。

ICC訊 近日，在第12屆中國(guó)硬科技產(chǎn)業(yè)鏈創(chuàng)新趨勢(shì)峰會(huì)上，ARM CHINA產(chǎn)品總監(jiān)鮑敏祺發(fā)表《端側(cè)AI應(yīng)用芯片機(jī)遇，NPU加速終端算力升級(jí)》主題報(bào)告，AI端則的生態(tài)發(fā)展并介紹“周易”NPU IP產(chǎn)品，對(duì)接并滿足多樣化端側(cè)硬件設(shè)備的不同AI計(jì)算需求。

端側(cè)AI新機(jī)遇指的是最新AIGC大模型帶來算力的提升，端側(cè)AI應(yīng)用也在算力加持下不斷發(fā)展壯大。在AI經(jīng)典應(yīng)用中，已經(jīng)可以通過手機(jī)拍攝可以識(shí)別物體類型，在短信提取關(guān)鍵信息和總結(jié)給用戶，又例如在圖片庫搜索中，通過AI大模型快速理解，迅速識(shí)別所需要的圖片?？傮w而言就是利用AI加速人們的辦事效率，并且AI獲得了公眾號(hào)的認(rèn)可。這一切依賴于AI硬件側(cè)的性能支撐。

過去，云計(jì)算應(yīng)用成為數(shù)據(jù)中心增長(zhǎng)的主要驅(qū)動(dòng)力，而現(xiàn)在AI大模型訓(xùn)練和推理正在驅(qū)動(dòng)智算中心規(guī)模的發(fā)展。AI端側(cè)的算力是否會(huì)像云端一樣不停地膨脹？鮑敏祺認(rèn)為低于100億參數(shù)的大預(yù)言模型將會(huì)成為主流模型，事實(shí)上因?yàn)閹捴萍s，10億至30億參數(shù)是普遍在端側(cè)和現(xiàn)有帶寬下能夠部署出來的大模型，并且容量?jī)?yōu)化有很大的增強(qiáng)空間。當(dāng)然，70億參數(shù)模型會(huì)面臨顯著的帶寬壓力，但在高帶寬場(chǎng)景下也能夠成功部署。

站在應(yīng)用端客戶來看，頭部終端廠商如谷歌、微軟、蘋果等引領(lǐng)了推動(dòng)端側(cè)AI的發(fā)展，中國(guó)廠商如華為、OPPO、小米等也在其消費(fèi)電子產(chǎn)品和具體業(yè)務(wù)場(chǎng)景上部署AI應(yīng)用。芯片廠商一致認(rèn)為AI NPU（神經(jīng)網(wǎng)絡(luò)處理單元）將是未來消費(fèi)類電子產(chǎn)品發(fā)展的重點(diǎn)。NPU通過專門優(yōu)化的硬件架構(gòu)，能夠大幅提升端側(cè)設(shè)備的AI計(jì)算能力，同時(shí)降低功耗。

30-700億并行參數(shù)大模型如何接入硬件設(shè)備，AI硬件側(cè)面臨的挑戰(zhàn)主要時(shí)哪些？鮑敏祺總結(jié)為成本、功耗和生態(tài)，其中成本主要來自于存儲(chǔ)、帶寬限制和算力，尤其是一個(gè)SOC的整體面效，因?yàn)楹芏喽藗?cè)設(shè)備對(duì)芯片面積的預(yù)算會(huì)高度吃緊，包括算力資源。功耗需要考慮功耗預(yù)算的設(shè)置， AI很多程度上是來源于數(shù)據(jù)的搬運(yùn)，特別用于外層的搬運(yùn)，因此功耗cost會(huì)越來越高，而生態(tài)包括了軟件成熟度，因?yàn)檎Z言模型需要不斷迭代優(yōu)化才能抓住最重要的目標(biāo)客戶，這又帶來另一個(gè)挑戰(zhàn)，就是軟件和工具需要更多優(yōu)化和支持。

NPU就是端則AI不斷迭代優(yōu)化的關(guān)鍵硬件，ARM自研的“周易”NPU針對(duì)于AI硬件側(cè)挑戰(zhàn)做了哪些事情？一是微架構(gòu)的升級(jí)，從計(jì)算能力上對(duì)它進(jìn)行優(yōu)化。當(dāng)前階段它保留了一部分CNN的能力，同時(shí)對(duì)Transformer進(jìn)行升級(jí)，而Transformer的engine需要更強(qiáng)的softmax算力。二是Efficiency數(shù)據(jù)本地化，非本地化會(huì)帶來額外的能耗。周易NPU從算法上、從工具鏈上能夠?qū)崿F(xiàn)低精度量化，同時(shí)從硬件上對(duì)于低精度計(jì)算做更多的硬件加速。其次是compression無損壓縮以增加有效的帶寬。

因?yàn)橹芤譔PU針對(duì)于大模型做一些總線帶寬的擴(kuò)展。特別是解碼架構(gòu)場(chǎng)景的算力要求并不高，但是對(duì)于帶寬要求卻很高。出于這種考量，In-NPU interconnection對(duì)于整個(gè)interconnect單核往外的帶寬能力有很大的提升。三是并行處理，包括數(shù)據(jù)并行和模型并行，在并行運(yùn)作時(shí)貢獻(xiàn)weight參數(shù)和減少我的數(shù)據(jù)搬運(yùn)，實(shí)現(xiàn)負(fù)載均衡。

鮑敏祺介紹了周易NPU架構(gòu)，包含task schedule manager（任務(wù)日程管理器）、Optional on Chip SRAM、DRAM和CPU，未來的端側(cè)AI是一種多任務(wù)場(chǎng)景，需要一個(gè)高效的scheduler并行股那里和具有可擴(kuò)展能力的核心。針對(duì)算法的特殊需求，可以在整個(gè)外部SOC上增加SRAM。更重要的是NPU異構(gòu)策略，即獨(dú)立端到端地去執(zhí)行AI任務(wù)，并且自由裁減8T或10T的場(chǎng)景，與同構(gòu)策略形成鮮明的不同。NPU異構(gòu)在端側(cè)場(chǎng)景上還可以實(shí)現(xiàn)power gating或低功耗，即專注于某一種計(jì)算時(shí)，將其他不必要的功耗降至最低，若是所有應(yīng)用采用這種處理方式，就可以將端側(cè)功耗降下來。ARM NPU已經(jīng)針對(duì)汽車、AI加速器、AIoT等場(chǎng)景進(jìn)行了相應(yīng)的實(shí)踐，實(shí)現(xiàn)了顯著的算力提升和功耗降低。

下一代周易NPU將面向AI生態(tài)進(jìn)行優(yōu)化升級(jí)，目前已經(jīng)針對(duì)Wenxin、Llama、GPT等模型做了相關(guān)部署。在邊緣計(jì)算上，面向PAD、PC、Mobile等各類場(chǎng)景推出相應(yīng)產(chǎn)品或適配。在汽車應(yīng)用上，無論是IVI或是ADAS都可以根據(jù)實(shí)際場(chǎng)景算力需求和模型需求，提供最高至320tops的算力能力。

內(nèi)容來自：訊石光通訊網(wǎng)
本文地址：http://m.3xchallenge.com//Site/CN/News/2024/11/13/20241113072219921175.htm 轉(zhuǎn)載請(qǐng)保留文章出處
關(guān)鍵字:
文章標(biāo)題:ARM中國(guó)：周易NPU加速算力升級(jí) 推動(dòng)端側(cè)AI應(yīng)用發(fā)展

1、凡本網(wǎng)注明“來源：訊石光通訊網(wǎng)”及標(biāo)有原創(chuàng)的所有作品，版權(quán)均屬于訊石光通訊網(wǎng)。未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像，違者必究。對(duì)于經(jīng)過授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位，也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性，并完整標(biāo)注作者信息和本站來源。
2、免責(zé)聲明，凡本網(wǎng)注明“來源：XXX（非訊石光通訊網(wǎng)）”的作品，均為轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。因可能存在第三方轉(zhuǎn)載無法確定原網(wǎng)地址，若作品內(nèi)容、版權(quán)爭(zhēng)議和其它問題，請(qǐng)聯(lián)系本網(wǎng)，將第一時(shí)間刪除。
聯(lián)系方式：訊石光通訊網(wǎng)新聞中心　電話：0755-82960080-168 Right

ARM中國(guó)：周易NPU加速算力升級(jí) 推動(dòng)端側(cè)AI應(yīng)用發(fā)展

相關(guān)新聞