現(xiàn)階段,缺乏高質(zhì)量的數(shù)據(jù)集已經(jīng)成為制約人工智能領(lǐng)域發(fā)展的瓶頸之一,如何構(gòu)建人工智能數(shù)據(jù)集已成為各國政府和產(chǎn)業(yè)界關(guān)注的焦點。
美國提出支持構(gòu)建高質(zhì)量人工智能數(shù)據(jù)集,并將構(gòu)建行業(yè)資源數(shù)據(jù)集定位為產(chǎn)業(yè)界不可能解決需政府層面推動的難題。2016年10月,美國先后發(fā)布《美國國家人工智能研究和發(fā)展戰(zhàn)略計劃》和《為未來人工智能做好準備》,確定構(gòu)建人工智能數(shù)據(jù)集為聯(lián)邦政府人工智能戰(zhàn)略重大計劃之一。英國認為人工智能行業(yè)數(shù)據(jù)集的匱乏已嚴重阻礙人工智能的發(fā)展,將提高數(shù)據(jù)獲取性和行業(yè)數(shù)據(jù)訪問的便利性列為未來提升英國人工智能能力的首要任務(wù)。
我國將缺少有效的訓(xùn)練資源庫列為影響人工智能發(fā)展的痛點問題之一,提出支持建設(shè)包括公共數(shù)據(jù)資源庫、標準測試數(shù)據(jù)集、云服務(wù)平臺等在內(nèi)的人工智能基礎(chǔ)數(shù)據(jù)平臺。2017年12月,工信部發(fā)布《促進新一代人工智能產(chǎn)業(yè)發(fā)展三年行動計劃》,提出支持建設(shè)面向語音識別、視覺識別、自然語言處理等基礎(chǔ)領(lǐng)域,以及工業(yè)、醫(yī)療、金融、交通等行業(yè)領(lǐng)域的高質(zhì)量人工智能訓(xùn)練資源庫和標準測試數(shù)據(jù)集并推動共享。2018年11月工信部發(fā)布《新一代人工智能產(chǎn)業(yè)創(chuàng)新發(fā)展重點任務(wù)揭榜工作方案》,促進《行動計劃》進一步落實。
人工智能數(shù)據(jù)集采集策略
目前,人工智能領(lǐng)域相關(guān)科技企業(yè)在數(shù)據(jù)集的獲取方面已經(jīng)形成了多種策略,由于商業(yè)模式、公司的關(guān)注點以及融資情況的不同,人工智能領(lǐng)域大型企業(yè)和初創(chuàng)企業(yè)采用的采集策略也有所差異。大型的人工智能領(lǐng)域科技企業(yè)關(guān)注點主要在數(shù)據(jù)的質(zhì)量、價值和獲取難度上。目前大型企業(yè)的數(shù)據(jù)獲取策略主要有以下幾種:
一是數(shù)據(jù)并購。資金雄厚的企業(yè)可以通過并購獲取數(shù)據(jù)。例如IBM在2016年斥資26億美元收購了Truven健康公司。這筆交易為IBM在電子病歷、遺傳學(xué)和影像資料方面帶來了2億個項目數(shù)據(jù)。
二是產(chǎn)業(yè)數(shù)據(jù)協(xié)同。依靠企業(yè)的行業(yè)影響力,與產(chǎn)業(yè)鏈下游創(chuàng)業(yè)公司/行業(yè)公司或產(chǎn)業(yè)鏈上游的數(shù)據(jù)/平臺型公司建立合作,以此獲取所需數(shù)據(jù)資源。如IBM Watson先后與美國藥品連鎖商店CVS、安德森癌癥中心、紀念斯隆-凱特林癌癥研究中心、泰國康民國際醫(yī)院等機構(gòu)合作,進而獲得醫(yī)療領(lǐng)域人工智能訓(xùn)練數(shù)據(jù)資源。
三是自籌數(shù)據(jù)。通過投入大量人力進行數(shù)據(jù)采集。如當前很多聊天機器人公司聘請AI教練團隊對聊天應(yīng)用程序進行性能評估和指導(dǎo)培訓(xùn),所需人力隨用戶數(shù)量同步增加,直至引發(fā)數(shù)據(jù)網(wǎng)絡(luò)效應(yīng),形成“更多用戶-更多數(shù)據(jù)-更優(yōu)智能算法-更好產(chǎn)品-更多用戶”的正循環(huán)。此外,也可采取投入大量資金,向消費者提供特定領(lǐng)域免費應(yīng)用的策略快速積累數(shù)據(jù),如Madits、Clarifai等圖像識別公司均推出了免費的照片應(yīng)用程序,以便為圖像識別核心業(yè)務(wù)積累更多圖像數(shù)據(jù)。
四是創(chuàng)意產(chǎn)品撬動數(shù)據(jù)。通過創(chuàng)意產(chǎn)品吸引用戶,在娛樂之余提供數(shù)據(jù)是獲取人工智能數(shù)據(jù)集的一種創(chuàng)新手段。例如2016年11月,谷歌發(fā)布了名為“Quick, Draw!”(猜畫小歌)的在線涂鴉App,該App要求用戶根據(jù)文本提示繪制簡單對象,由AI猜測所畫內(nèi)容。所采集數(shù)據(jù)不僅促進了該App自身AI的演進,還用來訓(xùn)練了2017年4月發(fā)布的素描AI機器人RNN。
五是開源測試環(huán)境或平臺換取數(shù)據(jù)。此策略適用于科技巨頭或行業(yè)巨頭,科技巨頭或行業(yè)巨頭通過開源測試環(huán)境和訓(xùn)練、測試數(shù)據(jù)集,旨在提高AI開發(fā)者的用戶黏性,并以此獲取數(shù)據(jù)以及其他資源。
還有其他策略,如通過大賽機制完善數(shù)據(jù)集或利用虛擬環(huán)境產(chǎn)生數(shù)據(jù);一些人工智能領(lǐng)域競賽要求協(xié)辦方提供數(shù)據(jù)資源,促進數(shù)據(jù)共享。此外,利用虛擬環(huán)境也可產(chǎn)生數(shù)據(jù)資源。如斯坦福大學(xué)在訓(xùn)練遠程遙控深海作業(yè)機器人OceanOne時,使用了很多由模擬場景(虛擬環(huán)境)產(chǎn)生的大量訓(xùn)練數(shù)據(jù)。
對于初創(chuàng)企業(yè),影響數(shù)據(jù)獲取的關(guān)鍵因素是成本,目前初創(chuàng)企業(yè)獲取數(shù)據(jù)的主要策略有以下幾種:
一是使用政府主導(dǎo)的公共數(shù)據(jù)。政府主導(dǎo)的公共數(shù)據(jù)集成為人工智能行業(yè)資源訓(xùn)練庫的重要來源。美國聯(lián)邦政府Data.gov數(shù)據(jù)平臺已開放包括十余個領(lǐng)域的13萬個數(shù)據(jù)集;英國、加拿大、新西蘭等國自2009年前后開始建立政府數(shù)據(jù)公共平臺;我國上海、北京、武漢、無錫、佛山等城市自2012年開始陸續(xù)推出數(shù)據(jù)平臺。
二是購買商業(yè)數(shù)據(jù)集。數(shù)據(jù)資源的商業(yè)價值已得到普遍共識,商業(yè)數(shù)據(jù)集提供商使用最新的搜索算法收集、清洗和更新數(shù)據(jù)集,且開始出售其商業(yè)數(shù)據(jù)資源。商業(yè)數(shù)據(jù)集對于需要快速得到數(shù)據(jù)且沒有內(nèi)部資源來清洗和歸類數(shù)據(jù)的人工智能初創(chuàng)企業(yè)來說是非常有益的,如道瓊斯和Xignite已開始提供基于云平臺的數(shù)據(jù)訪問服務(wù)。
三是眾包市場。眾包模式已成為代替人工智能科技企業(yè)收集數(shù)據(jù)的主要手段。如通過國外的亞馬遜Mechanical Turk,國內(nèi)的百度數(shù)據(jù)開放平臺等數(shù)據(jù)眾包平臺可以找到承包商做數(shù)據(jù)收集工作,減少了企業(yè)雇傭數(shù)據(jù)專家的相關(guān)成本。
從發(fā)展趨勢來看,未來數(shù)據(jù)并購和眾包市場將逐漸成為主要的數(shù)據(jù)獲取策略。相較于其他數(shù)據(jù)獲取策略,這兩種方式能夠較為便捷地獲取數(shù)據(jù)并形成質(zhì)量較高的數(shù)據(jù)集。據(jù)CBInsights的數(shù)據(jù)顯示,人工智能領(lǐng)域中關(guān)于數(shù)據(jù)的并購現(xiàn)象將越來越明顯。而對于初創(chuàng)企業(yè),由于沒有足夠的資金,所以這類企業(yè)已將眾包市場作為主要的數(shù)據(jù)來源;同時,一些大型互聯(lián)網(wǎng)企業(yè)也將建設(shè)數(shù)據(jù)眾包平臺作為發(fā)展人工智能的戰(zhàn)略布局之一。
眾包模式成為人工智能數(shù)據(jù)標注的基本手段
采集獲取的元數(shù)據(jù)需要通過進一步的標注才能對目前大部分的人工智能算法進行訓(xùn)練,而對海量元數(shù)據(jù)的處理需要大量的時間成本和人力成本。
數(shù)據(jù)標注通常有人工標注和智能/人工結(jié)合標注兩種方式。人工標注是借助一定可視化工具對數(shù)據(jù)進行純?nèi)斯俗ⅲ捎谠獢?shù)據(jù)的數(shù)據(jù)量極大,通常采用人工方式進行數(shù)據(jù)標注的工作量非常大。在處理具有一定規(guī)律的數(shù)據(jù)時,可以采用智能/人工結(jié)合的方式,并通過智能/人工的多級迭代保證輸出數(shù)據(jù)的質(zhì)量。以百度高精地圖為例,其數(shù)據(jù)智能處理程度已達到90%,能自動識別交通標志、地面標志、車道線、信號燈等上百種目標。但是無論采用人工標注還是智能/人工結(jié)合標注,工作量仍然是非常大的,僅靠人工智能企業(yè)的自身力量難以完成,通常需要進行數(shù)據(jù)標注任務(wù)的再分配。
目前,數(shù)據(jù)標注再分配的主流方式為眾包模式。在沒有第三方眾包平臺之前,人工智能科技企業(yè)一般自行招募數(shù)據(jù)標注員進行數(shù)據(jù)處理,數(shù)據(jù)標注和質(zhì)量控制的成本極高且效率低下。人工智能數(shù)據(jù)標注的外包市場于2015年真正開始,2016年下半年出現(xiàn)收縮,2017年又有了新一輪的爆發(fā),目前已形成相對完整的眾包產(chǎn)業(yè)生態(tài)。比較著名的Google Open Image Datasets、Youtube-8M、ImageNet數(shù)據(jù)集等均通過眾包平臺完成。
眾包模式主要有“眾包”和“工廠”兩種類型。“眾包”是把任務(wù)通過平臺轉(zhuǎn)接分包給網(wǎng)民,如百度眾包、京東眾智、龍貓數(shù)據(jù)等平臺主要采用這種方式,適用于不敏感數(shù)據(jù)。“工廠”則是平臺自己經(jīng)營團隊,對整個流程進行控制,適用于企業(yè)敏感數(shù)據(jù),如貴陽夢動科技經(jīng)營了一個500人的“數(shù)據(jù)工廠”,在大型團隊之外,還活躍著眾多三五人到十幾人規(guī)模不等的數(shù)據(jù)標注“小作坊”。
眾包模式的選擇需平衡任務(wù)費用、質(zhì)量和時間三者的關(guān)系。任務(wù)費用、質(zhì)量和時間三者之間的平衡與具體的眾包任務(wù)性質(zhì)密切相關(guān)。美國微軟雷德蒙研究院在數(shù)據(jù)任務(wù)花費與質(zhì)量的平衡之間設(shè)計了基于馬爾科夫決策理論的數(shù)學(xué)模型(其內(nèi)部稱之為知識梯度的有效算法),以此確定哪類數(shù)據(jù)需要標注和雇傭誰進行數(shù)據(jù)標注,進而解決任務(wù)花費與質(zhì)量之間的關(guān)系。一般來說,質(zhì)量是最重要的指標,即如果沒有質(zhì)量,較低的費用與較少的時間都會失去意義。
構(gòu)建人工智能數(shù)據(jù)集存在的問題和策略建議
當前在人工智能數(shù)據(jù)集的獲取和標注方面仍存在四個方面的問題。一是在元數(shù)據(jù)獲取層面,企業(yè)出于自身利益考慮,難以實現(xiàn)真正的數(shù)據(jù)共享,而且某些特殊領(lǐng)域的數(shù)據(jù)獲取和使用是否合規(guī)合法存在很大的爭議。二是數(shù)據(jù)標注行業(yè)仍是被具體政策支撐忽視的死角,人工智能相關(guān)政策和社會關(guān)注點主要集中在算法、應(yīng)用、芯片方面,針對數(shù)據(jù)標注和眾包市場的政策支撐和社會關(guān)注較少。三是第三方眾包平臺市場仍處于發(fā)展初期的野蠻生長狀態(tài),缺乏相關(guān)行業(yè)管理規(guī)范和行業(yè)自律精神,有可能會發(fā)生一些損害客戶利益的情況,如對眾包數(shù)據(jù)進行二次轉(zhuǎn)售等。四是目前大型企業(yè)對自有數(shù)據(jù)的保護意識越來越強,但是目前眾包平臺主要由人工智能科技企業(yè)建設(shè),不存在與其他眾多人工智能科技企業(yè)完全沒有利害關(guān)系的第三方眾包平臺。
針對構(gòu)建人工智能數(shù)據(jù)集存在的問題,特提出策略建議。一是進一步加強頂層規(guī)劃設(shè)計和體系化布局,完善配套措施,加快相關(guān)政策落地,通過政策手段促進人工智能數(shù)據(jù)在企業(yè)間的共享和合理化使用。同時加強數(shù)據(jù)標注和眾包市場的政策支撐,提高社會關(guān)注度。二是推動人工智能數(shù)據(jù)領(lǐng)域相關(guān)管理規(guī)范的制定和落實,加強行業(yè)自律精神建設(shè),建立投訴機制,保障企業(yè)數(shù)據(jù)安全。三是建議在國家層面統(tǒng)籌人工智能行業(yè)資源數(shù)據(jù)集建設(shè),探索以政府數(shù)據(jù)開放為牽引、龍頭數(shù)據(jù)為基礎(chǔ)、行業(yè)數(shù)據(jù)合作驅(qū)動,由無利益關(guān)系的第三方維護數(shù)據(jù)集并建設(shè)數(shù)據(jù)眾包平臺。(王堯 王文躍 劉泰)
轉(zhuǎn)自:人民郵電報
版權(quán)及免責聲明:凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責任的權(quán)力。凡轉(zhuǎn)載文章,不代表本網(wǎng)觀點和立場。版權(quán)事宜請聯(lián)系:010-65363056。
延伸閱讀
版權(quán)所有:中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)京ICP備11041399號-2京公網(wǎng)安備11010502035964