近日,美國權(quán)威雜志《麻省理工評論》將語音接口列為2016年十大突破技術(shù),百度硅谷人工智能實驗室(SVAIL)最新的研究成果——新一代深度語音識別系統(tǒng)DeepSpeech2位列其中。
這也是本次評選入選的唯一一家來自中國科技公司的科技成果。同時入選的還有免疫工程、精確編輯植物基因、DNA商店、太陽能電池工廠、特斯拉自動駕駛、可回收火箭,以及空中取電、知識分享機器人、slack通信軟件等產(chǎn)品和技術(shù),分別來自谷歌、微軟、SpaceX等多個領(lǐng)域的知名前沿科技公司和加州大學(xué)伯克利分校、華盛頓大學(xué)、首爾大學(xué)等科研機構(gòu)。
在去年9月召開的2015年百度世界大會上,百度首席科學(xué)家吳恩達曾現(xiàn)場演示神奇的語音識別技術(shù)。他表示,語音有很大的潛力改變?nèi)伺c設(shè)備的交互方式,“現(xiàn)在語音識別可能已達到95%的準(zhǔn)確度,但很多人沒意識到95%的準(zhǔn)確度到99%的準(zhǔn)確度帶來的不是量變是質(zhì)變,是從你偶爾使用語音變到常常使用做到更自然。做到99%準(zhǔn)確,將徹底改變?nèi)伺c設(shè)備的交互?!?/br>
《麻省理工評論》在文中評價說:“隨著百度在語音技術(shù)方面的不斷進步,語音接口變得更為實用和有效,人們可以更為便利地與身邊的設(shè)備進行互動。百度的深度語音識別系統(tǒng)(DeepSpeech2)包含了一個非常大的、‘深’的神經(jīng)網(wǎng)絡(luò),它引入了數(shù)以百萬計的轉(zhuǎn)錄語音。有時它在識別漢語語音片段方面,要比人為識別更加準(zhǔn)確?!?/br>
2014年年底,吳恩達及其團隊發(fā)布了第一代深度語音識別系統(tǒng)DeepSpeech,該系統(tǒng)使用了端對端的深度學(xué)習(xí)技術(shù),主要專注于提高嘈雜環(huán)境下的英語語音識別的準(zhǔn)確率,在噪音環(huán)境下,DeepSpeech系統(tǒng)出錯率要比谷歌、微軟以及蘋果的語音系統(tǒng)低10%以上。不僅如此,研究人員還加入了漢語語音查詢功能,識別準(zhǔn)確率高達94%。這也推動端到端的深度學(xué)習(xí)算法成為業(yè)內(nèi)改進語音識別最重要的手段。
MIT報道中指出,語音識別和自然語言理解相結(jié)合,將為互聯(lián)網(wǎng)市場創(chuàng)造切實可用的語音接口。由于漢字通過微型觸摸屏進行輸入的過程耗時且十分繁瑣,因此,中國是發(fā)展語音接口的理想市場。
漢語語音識別與英文相比,包含兩大難點。第一是字符數(shù)據(jù)量大。相比于英文的26個字母,系統(tǒng)要在每次轉(zhuǎn)錄中直接輸出8萬個中文字符中的其中一個。第二,在普通話的表述中,聲調(diào)的不同往往會改變一個詞的意思。百度通過收集人們常用詞,篩選出有用的字符,并省去大量預(yù)處理環(huán)節(jié),直接輸入音頻文件,再通過深度神經(jīng)網(wǎng)絡(luò)輸出字符,從而大大提高系統(tǒng)運算效率。
深度語音識別系統(tǒng)的成功,很大程度上要取決于百度規(guī)模龐大的基于GPU的深度學(xué)習(xí)基礎(chǔ)設(shè)施。通過使用批處理技術(shù)將DNNs部署在GPUs上,DeepSpeech的語音識別表現(xiàn)出了極高的訓(xùn)練效率。目前,該系統(tǒng)支持超過26萬億次浮點運算,可在幾天內(nèi)完成深度語言的集中訓(xùn)練。
隨著百度在語音技術(shù)方面的不斷進步,語音接口變得更為實用和有效,將深度語音模型在更小的系統(tǒng)上運行是重要的趨勢之一。百度正致力于將該語音模型縮小并植入手機等移動設(shè)備,未來,人們可以更為便利地與身邊的設(shè)備進行交流互動。
版權(quán)及免責(zé)聲明:凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章,不代表本網(wǎng)觀點和立場。版權(quán)事宜請聯(lián)系:010-65363056。
延伸閱讀
版權(quán)所有:中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)京ICP備11041399號-2京公網(wǎng)安備11010502003583