6月20日,記者從中星微“數字多媒體芯片技術”國家重點實驗室獲悉,經過五年多的攻堅克難和不懈努力,中國首款嵌入式神經網絡處理器(NPU)芯片已于今年3月6日實現(xiàn)量產,這標志著我國在神經網絡處理器領域的研究和開發(fā)上取得了重大突破,在基于“數據驅動并行計算”架構的人工智能深度學習領域達到國際先進水平。
顛覆馮諾依曼架構NPU為人工智能而生
“目前已成功在視頻監(jiān)控領域實現(xiàn)產業(yè)化,下一步將廣泛應用于智能駕駛輔助、無人機、機器人等嵌入式機器視覺領域?!敝行俏ⅰ皵底侄嗝襟w芯片技術”國家重點實驗室執(zhí)行主任、中星微電子集團首席技術官張韻東向《中國電子報》記者透露,“現(xiàn)在的出貨量已經超過了10萬顆?!?/br>
從時間上看,幾個月前的3月9日,人工智能AlphaGo與李世石的第一場圍棋大戰(zhàn)才剛剛拉開帷幕。
而就在3天前的3月6日,具有人工智能深度學習功能的中國首款嵌入式神經網絡處理器(NPU)芯片“星光智能一號”已成功量產。AlphaGo要運行在一個龐大的服務器集群上,下一盤棋僅花費的電費就高達3000美元。而指甲蓋大小的“星光智能一號”卻實現(xiàn)了人工智能深度學習系統(tǒng)的低功率和小型化,并能夠應用于嵌入式系統(tǒng)之中。
在不久前的人機大戰(zhàn)中,AlphaGo依靠模仿人腦生物機理的深度學習算法而擊敗李世石。深度學習,是源于對生物人腦機理的仿生學研究而形成的一種人工智能算法。作為深度學習神經網絡的一種,卷積神經網絡CNN(ConvolutionalNeuralNetwork)算法,已成為當前人工智能機器視覺領域的研究熱點。
CNN算法模型的特性可以概括為海量的輸入數據、大規(guī)模的MAC運算、稀疏的權值矩陣、靈活的數據位寬和多樣的網絡拓撲等特性。對于傳統(tǒng)馮諾依曼結構的CPU而言,其串行執(zhí)行方式實在無法高效處理大量并行性運算,所以執(zhí)行CNN算法的效率非常低下。
相當于CPU,GPU的高度并行化運算單元,相對更適合神經網絡的大量并行運算方式。但是,GPU的設計初衷是為了進行3D圖形處理,不僅功耗大、價格高,而且并不適合嵌入式環(huán)境。同理,DSP、FPGA等主流處理器也并不適合CNN。
為此,國內外主流企業(yè)和機構也都在針對CNN算法的處理器上下很了大工夫,研制自家的CNN處理器。如IBM公司的TrueNorth,高通公司的Zeroth,Google公司的TPU,KnuEdge公司的KnuPath和中國科學院的寒武紀等。
而中星微的NPU是針對CNN的算法模型特性專門設計的一款神經網絡處理器。據張韻東介紹,NPU采用了“數據驅動并行計算”的架構,徹底顛覆了傳統(tǒng)的馮諾依曼架構。這種數據流(Dataflow)類型的處理器,極大地提升了計算能力與功耗的比例,特別擅長處理視頻、圖像類的海量多媒體數據,使得人工智能在嵌入式機器視覺應用中可以大顯身手。
據了解,每個NPU處理器具有4個內核(NPUCore),每個內核有兩個數據流處理器(DataflowProcessor),每個數據流處理器具有8個長位寬或16個短位寬的SIMD(單指令多數據)運算單元。在一個時鐘周期內可同時完成64個長位寬MAC運算或者128個短位寬MAC運算。每個NPU核具有38GOps的長位寬處理能力或者76GOps的短位寬處理能力。NPU的處理性能可以組成多核陣列來提升,也可以通過多芯片級聯(lián)的方式進一步擴展,以滿足更復雜的CNN網絡運算的性能需求。
“每個NPU核還具有256kBLevel-2Cache,以及整塊數據搬移(BlockDataAccess),片內數據共享(Data-sharingBetweenProcessorUnits),提升數據流的吞吐效率?!睆堩崠|表示,“在軟件方面,利用了稀疏數據優(yōu)化(OptimizationforSparseData)等特性提高計算效率。NPU可以支持Caffe、TensorFlow等多種神經網絡框架,支持AlexNet、GoogleNet等各類神經網絡?!?/br>
國家重點實驗學術委員會主任楊曉東表示,星光智能一號芯片集成了NPU處理器內核以及國家標準的音視頻編解碼器(SVACCodec),是全球首顆具備人工智能深度學習能力的嵌入式視頻采集壓縮編碼系統(tǒng)級芯片。
記者了解到,目前,中星微NPU芯片的代工生產在臺積電,下一步有望轉由大陸企業(yè)生產。
NPU只是“智能摩爾之路”的第一步
隨著星光智能一號在視頻監(jiān)控領域的應用,監(jiān)控系統(tǒng)可以通過高清視頻的采集和編碼,對人員、車輛進行基于深度學習的智能化目標識別,實現(xiàn)視頻的結構化描述,關聯(lián)視頻和標簽,并接入公安平臺保存錄像和索引信息。在接到報案信息后,刑偵人員可以通過搜索結構化描述標簽,直接定位視頻,獲取現(xiàn)場圖像,從而確認嫌疑人。
說得通俗些,以后我們可以直接用藍白條紋T恤、黑褲子、男性這樣的關鍵詞對視頻中的內容進行搜索。同理,如果在商品展示櫥窗中設置NPU視頻智能監(jiān)控系統(tǒng),我們將很容易得知被展示的產品吸引了多少人的目光,以及這些人的性別、外貌等具體特征,配合大數據分析,又將有多少傳統(tǒng)行業(yè)會被顛覆?
人工智能的好戲才剛剛揭開序幕。除了視頻監(jiān)控領域,NPU很快會在智能駕駛輔助、無人機、機器人等領域帶給我們更多驚喜。
未來,對信息處理性能的需求還將不斷提升,如何才能找到一條后摩爾定律時代的創(chuàng)新之路?對此,業(yè)界有兩種觀點:一是繼續(xù)推進摩爾定律(MoreMoore),即繼續(xù)在新型材料、工藝制程和器件結構上努力,將摩爾定律再推進一步。二是超越摩爾定律(MorethanMoore),即通過SoC將數字電路、模擬存儲器甚至射頻電路集成在一顆芯片里以實現(xiàn)更多功能,或者通過SIP采用多芯片堆疊的方式,將多顆裸芯片封裝在一起。
“正如業(yè)界所言,隨著逐步逼近香農定理、摩爾定律的極限,面對大流量、低延時的理論還未創(chuàng)造出來,大家感到前途茫茫,找不到方向?!睆堩崠|說,“而NPU正是一塊引玉之磚?!?/br>
面對摩爾定律的盡頭,中星微給出了全新的技術路線——智能摩爾之路(IntelligentMoore)。其內涵是,雖然物理層面和信號層面都受到物理規(guī)律的制約,但在信息層面的技術創(chuàng)新還遠沒有達到極限。如何進一步借鑒人腦智慧機制,研究新型人工智能計算方法,進一步提升信息處理的性能功耗價格比,可能是下一次信息革命的關鍵。
張韻東表示,中星微國家重點實驗室在未來的五年中,會持續(xù)開展新型“數據驅動”并行計算架構的研究工作,采用更加接近生物人腦的工作機理的方式,推出更低功耗更高運算性能的下一代神經網絡處理器,在摩爾定律的盡頭探索一條繼續(xù)提升信息處理效率的前行之路。(本報記者趙晨)
版權及免責聲明:凡本網所屬版權作品,轉載時須獲得授權并注明來源“中國產業(yè)經濟信息網”,違者本網將保留追究其相關法律責任的權力。凡轉載文章,不代表本網觀點和立場。版權事宜請聯(lián)系:010-65363056。
延伸閱讀
版權所有:中國產業(yè)經濟信息網京ICP備11041399號-2京公網安備11010502003583