人民數(shù)據(jù)打造全球最大中文語義語料庫助力Sora新場景


中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)   時間:2024-02-21





  2月16日,OpenAI宣布推出全新的生成式人工智能模型“Sora”。據(jù)了解,通過文本指令,Sora可以直接輸出長達(dá)60秒的視頻,并且包含高度細(xì)致的背景、復(fù)雜的多角度鏡頭,以及富有情感的多個角色。這意味著,繼文本、圖像之后,OpenAI將其先進(jìn)的AI技術(shù)拓展到了視頻領(lǐng)域。OpenAI亦表示,Sora是能夠理解和模擬現(xiàn)實世界的模型的基礎(chǔ),這一能力將是實現(xiàn)AGI(通用人工智能)的重要里程碑。


  與此同時,隨著AI生成內(nèi)容與現(xiàn)實之間的界限變得越來越模糊,如何確保內(nèi)容的真實性和透明性成為了一個重要問題。此外,版權(quán)、隱私和數(shù)據(jù)安全等問題也需要得到妥善解決。社會必須面對這些挑戰(zhàn),通過制定相關(guān)政策、法律和倫理準(zhǔn)則來確保技術(shù)的健康發(fā)展,同時保護(hù)個人和社會的利益不受侵害。


  當(dāng)前,大模型已成為AI領(lǐng)域的熱門賽道,眾多企業(yè)競相入局投入研發(fā)。隨著越來越多的AI大模型產(chǎn)品向公眾開放,其引發(fā)的數(shù)據(jù)隱私與版權(quán)爭議日益激烈。


  1 AI大模型頻繁侵權(quán)遭抵制


  AI大模型引發(fā)的數(shù)據(jù)安全問題引發(fā)全球高度關(guān)注。現(xiàn)實中,數(shù)據(jù)來源和版權(quán)歸屬復(fù)雜、用戶授權(quán)規(guī)則和知情權(quán)不明晰、技術(shù)判定和取證困難等多重挑戰(zhàn),使大模型在訓(xùn)練和應(yīng)用階段均可能出現(xiàn)數(shù)據(jù)濫用問題。


  2023年3月,意大利以O(shè)penAI公司推出的聊天機(jī)器人ChatGPT違反歐盟《通用數(shù)據(jù)保護(hù)條例》等數(shù)據(jù)隱私保護(hù)規(guī)定為由,宣布對其禁用;西班牙、法國等歐洲國家跟進(jìn)對其展開調(diào)查。不到半年時間,ChatGPT陷入與多家內(nèi)容平臺的版權(quán)糾紛之中。OpenAI、Meta、微軟等科技公司接連遭遇訴訟,被控從互聯(lián)網(wǎng)上“竊取”大量個人數(shù)據(jù)信息及未授權(quán)作品來訓(xùn)練AI工具。在國內(nèi),小紅書、LOFTER等平臺去年推出的AI繪畫功能也因濫用戶數(shù)據(jù)訓(xùn)練AI、侵犯畫師作品版權(quán)而遭用戶抵制而下線。


  有專家指出,用于大模型訓(xùn)練的語料來自互聯(lián)網(wǎng)的各個角落,包括但不限于書籍、文章、新聞、論壇、博客等等,凡是互聯(lián)網(wǎng)上可以找到的信息幾乎都在其學(xué)習(xí)之列。即便科研人員會對語料進(jìn)行數(shù)據(jù)清洗,但其中仍有可能包含個人隱私信息;隨著數(shù)據(jù)來源的擴(kuò)大,即便是號稱“開源”的各類數(shù)據(jù)庫,也并非意味著完全不存在版權(quán)合規(guī)問題。此外,生成式AI的快速發(fā)展可能導(dǎo)致虛假信息野蠻生長,輿論對“深度造假”問題的擔(dān)憂逐漸加劇。


  2 全球范圍合規(guī)監(jiān)管加速探索


  針對各自AI產(chǎn)業(yè)發(fā)展的現(xiàn)狀,不同國家對數(shù)據(jù)安全性、合規(guī)性、倫理性的監(jiān)管重點不盡相同。如在日本、歐美等地的著作權(quán)法中有文本和數(shù)據(jù)挖掘的限制例外制度,其中規(guī)定,為了訓(xùn)練人工智能的目的而利用他人作品的行為可以不認(rèn)定為侵權(quán)。


  我國在信息內(nèi)容安全領(lǐng)域已經(jīng)有了較為完整的實踐思路。近年來,《中華人民共和國網(wǎng)絡(luò)安全法》《中華人民共和國數(shù)據(jù)安全法》《中華人民共和國個人信息保護(hù)法》頒布,為數(shù)據(jù)安全提供了基礎(chǔ)性法律保障?!痘ヂ?lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》等文件相繼出臺,對技術(shù)向上向善發(fā)展加強(qiáng)引導(dǎo)和規(guī)范。


  2023年8月,國家網(wǎng)信辦等7部門發(fā)布的《生成式人工智能服務(wù)管理暫行辦法》正式施行,其中明確規(guī)定,應(yīng)當(dāng)依法開展預(yù)訓(xùn)練、優(yōu)化訓(xùn)練等訓(xùn)練數(shù)據(jù)處理活動,使用具有合法來源的數(shù)據(jù)和基礎(chǔ)模型;涉及個人信息的,應(yīng)當(dāng)取得個人同意或者符合法律、行政法規(guī)規(guī)定的其他情形。10月,全國信息安全標(biāo)準(zhǔn)化技術(shù)委員會組織制定的《生成式人工智能服務(wù)安全基本要求(征求意見稿)》面向社會公開征求意見,其中對語料來源安全、內(nèi)容安全、標(biāo)注安全等做出了明確要求。


  3 以語料庫建設(shè)助力AI產(chǎn)業(yè)安全發(fā)展


  “一邊是‘嗷嗷待大量數(shù)據(jù)以哺’的人工智能,另一邊是越發(fā)重視個人信息保護(hù)的用戶,如何善用數(shù)據(jù),考驗全社會數(shù)據(jù)治理的能力和成效,事關(guān)萬千網(wǎng)民的切身利益?!比嗣袢請笤u論指出,發(fā)展和安全從來不必然是矛盾的、對立的,平衡好各方面利益,才能推動生成式人工智能健康可持續(xù)發(fā)展。


  語料庫是訓(xùn)練和優(yōu)化AI大模型的“養(yǎng)料”。當(dāng)前,我國AI發(fā)展所需要的語料數(shù)據(jù)仍相對匱乏。有數(shù)據(jù)顯示,全球通用的50億大模型數(shù)據(jù)訓(xùn)練集里,中文語料的占比僅為1.3%。業(yè)內(nèi)人士指出,雖然我國的數(shù)據(jù)資源豐富,但是由于數(shù)據(jù)挖掘與流通不足,中文語料庫與英文等其它語言的數(shù)據(jù)語料庫相比仍有差距,可能成為阻礙大模型研發(fā)的重要因素。


  國內(nèi)多地數(shù)據(jù)交易所和大模型研究機(jī)構(gòu)已圍繞中文語料庫建設(shè)展開探索。面對合規(guī)難題,國家數(shù)據(jù)庫、主流價值語料庫等建設(shè)備受關(guān)注。


  在2023年7月舉行的2023全球數(shù)字經(jīng)濟(jì)大會上,首批“北京市人工智能大模型高質(zhì)量數(shù)據(jù)集”發(fā)布,包括人民日報在內(nèi)的10家單位的18個高質(zhì)量訓(xùn)練數(shù)據(jù)集入選。


  為促進(jìn)AI大模型發(fā)展,人民數(shù)據(jù)打造了新聞數(shù)據(jù)、問答數(shù)據(jù)等語義語料庫,相關(guān)數(shù)據(jù)量達(dá)到了近3億條。該語義語料庫面向人工智能大模型、通用人工智能、智能互聯(lián)網(wǎng)等應(yīng)用場景,提供高質(zhì)量的語料生產(chǎn)、定制、供給服務(wù)。針對當(dāng)前大模型普遍回答不了、回答不好卻又必須直面、不容回避的重大問題、敏感問題、疑難問題、復(fù)雜問題,該語義語料庫梳理了1萬余個重點問題,并精心編撰建成優(yōu)質(zhì)問答語料庫,助力解決大模型在語料方面的剛性需求、緊急需求、安全需求。語料庫的進(jìn)一步豐富充實或?qū)⑹官Y料查找更加便捷,進(jìn)一步降低了普通人的AI使用門檻,幫助普通人以更簡單的方式獲取更全面的信息。

20240221105829118.png

  AI技術(shù)和應(yīng)用創(chuàng)新,“合規(guī)”始終是底線。未來還需加強(qiáng)對AI大模型安全、規(guī)范、可持續(xù)發(fā)展的探索,充分挖掘各類數(shù)據(jù)資源價值,以構(gòu)建主流價值語料庫為抓手,推動中國AI產(chǎn)業(yè)安全發(fā)展。


  聯(lián)系人:欒老師

  電話:15810381987


  轉(zhuǎn)自:人民數(shù)據(jù)

  【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個人觀點,不代表本網(wǎng)觀點和立場。版權(quán)事宜請聯(lián)系:010-65363056。

延伸閱讀

?

版權(quán)所有:中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)京ICP備11041399號-2京公網(wǎng)安備11010502035964