當(dāng)前位置首頁 > 行業(yè) > 綜合 >

人民數(shù)據(jù)打造全球最大中文語義語料庫助力Sora新場景

中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng) 時間：2024-02-21

　　2月16日，OpenAI宣布推出全新的生成式人工智能模型“Sora”。據(jù)了解，通過文本指令，Sora可以直接輸出長達(dá)60秒的視頻，并且包含高度細(xì)致的背景、復(fù)雜的多角度鏡頭，以及富有情感的多個角色。這意味著，繼文本、圖像之后，OpenAI將其先進(jìn)的AI技術(shù)拓展到了視頻領(lǐng)域。OpenAI亦表示，Sora是能夠理解和模擬現(xiàn)實世界的模型的基礎(chǔ)，這一能力將是實現(xiàn)AGI（通用人工智能）的重要里程碑。

　　與此同時，隨著AI生成內(nèi)容與現(xiàn)實之間的界限變得越來越模糊，如何確保內(nèi)容的真實性和透明性成為了一個重要問題。此外，版權(quán)、隱私和數(shù)據(jù)安全等問題也需要得到妥善解決。社會必須面對這些挑戰(zhàn)，通過制定相關(guān)政策、法律和倫理準(zhǔn)則來確保技術(shù)的健康發(fā)展，同時保護(hù)個人和社會的利益不受侵害。

　　當(dāng)前，大模型已成為AI領(lǐng)域的熱門賽道，眾多企業(yè)競相入局投入研發(fā)。隨著越來越多的AI大模型產(chǎn)品向公眾開放，其引發(fā)的數(shù)據(jù)隱私與版權(quán)爭議日益激烈。

　　1　AI大模型頻繁侵權(quán)遭抵制

　　AI大模型引發(fā)的數(shù)據(jù)安全問題引發(fā)全球高度關(guān)注。現(xiàn)實中，數(shù)據(jù)來源和版權(quán)歸屬復(fù)雜、用戶授權(quán)規(guī)則和知情權(quán)不明晰、技術(shù)判定和取證困難等多重挑戰(zhàn)，使大模型在訓(xùn)練和應(yīng)用階段均可能出現(xiàn)數(shù)據(jù)濫用問題。

　　2023年3月，意大利以O(shè)penAI公司推出的聊天機(jī)器人ChatGPT違反歐盟《通用數(shù)據(jù)保護(hù)條例》等數(shù)據(jù)隱私保護(hù)規(guī)定為由，宣布對其禁用；西班牙、法國等歐洲國家跟進(jìn)對其展開調(diào)查。不到半年時間，ChatGPT陷入與多家內(nèi)容平臺的版權(quán)糾紛之中。OpenAI、Meta、微軟等科技公司接連遭遇訴訟，被控從互聯(lián)網(wǎng)上“竊取”大量個人數(shù)據(jù)信息及未授權(quán)作品來訓(xùn)練AI工具。在國內(nèi)，小紅書、LOFTER等平臺去年推出的AI繪畫功能也因濫用戶數(shù)據(jù)訓(xùn)練AI、侵犯畫師作品版權(quán)而遭用戶抵制而下線。

　　有專家指出，用于大模型訓(xùn)練的語料來自互聯(lián)網(wǎng)的各個角落，包括但不限于書籍、文章、新聞、論壇、博客等等，凡是互聯(lián)網(wǎng)上可以找到的信息幾乎都在其學(xué)習(xí)之列。即便科研人員會對語料進(jìn)行數(shù)據(jù)清洗，但其中仍有可能包含個人隱私信息；隨著數(shù)據(jù)來源的擴(kuò)大，即便是號稱“開源”的各類數(shù)據(jù)庫，也并非意味著完全不存在版權(quán)合規(guī)問題。此外，生成式AI的快速發(fā)展可能導(dǎo)致虛假信息野蠻生長，輿論對“深度造假”問題的擔(dān)憂逐漸加劇。

　　2　全球范圍合規(guī)監(jiān)管加速探索

　　針對各自AI產(chǎn)業(yè)發(fā)展的現(xiàn)狀，不同國家對數(shù)據(jù)安全性、合規(guī)性、倫理性的監(jiān)管重點不盡相同。如在日本、歐美等地的著作權(quán)法中有文本和數(shù)據(jù)挖掘的限制例外制度，其中規(guī)定，為了訓(xùn)練人工智能的目的而利用他人作品的行為可以不認(rèn)定為侵權(quán)。

　　我國在信息內(nèi)容安全領(lǐng)域已經(jīng)有了較為完整的實踐思路。近年來，《中華人民共和國網(wǎng)絡(luò)安全法》《中華人民共和國數(shù)據(jù)安全法》《中華人民共和國個人信息保護(hù)法》頒布，為數(shù)據(jù)安全提供了基礎(chǔ)性法律保障?！痘ヂ?lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》等文件相繼出臺，對技術(shù)向上向善發(fā)展加強(qiáng)引導(dǎo)和規(guī)范。

　　2023年8月，國家網(wǎng)信辦等7部門發(fā)布的《生成式人工智能服務(wù)管理暫行辦法》正式施行，其中明確規(guī)定，應(yīng)當(dāng)依法開展預(yù)訓(xùn)練、優(yōu)化訓(xùn)練等訓(xùn)練數(shù)據(jù)處理活動，使用具有合法來源的數(shù)據(jù)和基礎(chǔ)模型；涉及個人信息的，應(yīng)當(dāng)取得個人同意或者符合法律、行政法規(guī)規(guī)定的其他情形。10月，全國信息安全標(biāo)準(zhǔn)化技術(shù)委員會組織制定的《生成式人工智能服務(wù)安全基本要求（征求意見稿）》面向社會公開征求意見，其中對語料來源安全、內(nèi)容安全、標(biāo)注安全等做出了明確要求。

　　3　以語料庫建設(shè)助力AI產(chǎn)業(yè)安全發(fā)展

　　“一邊是‘嗷嗷待大量數(shù)據(jù)以哺’的人工智能，另一邊是越發(fā)重視個人信息保護(hù)的用戶，如何善用數(shù)據(jù)，考驗全社會數(shù)據(jù)治理的能力和成效，事關(guān)萬千網(wǎng)民的切身利益?！比嗣袢請笤u論指出，發(fā)展和安全從來不必然是矛盾的、對立的，平衡好各方面利益，才能推動生成式人工智能健康可持續(xù)發(fā)展。

　　語料庫是訓(xùn)練和優(yōu)化AI大模型的“養(yǎng)料”。當(dāng)前，我國AI發(fā)展所需要的語料數(shù)據(jù)仍相對匱乏。有數(shù)據(jù)顯示，全球通用的50億大模型數(shù)據(jù)訓(xùn)練集里，中文語料的占比僅為1.3%。業(yè)內(nèi)人士指出，雖然我國的數(shù)據(jù)資源豐富，但是由于數(shù)據(jù)挖掘與流通不足，中文語料庫與英文等其它語言的數(shù)據(jù)語料庫相比仍有差距，可能成為阻礙大模型研發(fā)的重要因素。

　　國內(nèi)多地數(shù)據(jù)交易所和大模型研究機(jī)構(gòu)已圍繞中文語料庫建設(shè)展開探索。面對合規(guī)難題，國家數(shù)據(jù)庫、主流價值語料庫等建設(shè)備受關(guān)注。

　　在2023年7月舉行的2023全球數(shù)字經(jīng)濟(jì)大會上，首批“北京市人工智能大模型高質(zhì)量數(shù)據(jù)集”發(fā)布，包括人民日報在內(nèi)的10家單位的18個高質(zhì)量訓(xùn)練數(shù)據(jù)集入選。

　　為促進(jìn)AI大模型發(fā)展，人民數(shù)據(jù)打造了新聞數(shù)據(jù)、問答數(shù)據(jù)等語義語料庫，相關(guān)數(shù)據(jù)量達(dá)到了近3億條。該語義語料庫面向人工智能大模型、通用人工智能、智能互聯(lián)網(wǎng)等應(yīng)用場景，提供高質(zhì)量的語料生產(chǎn)、定制、供給服務(wù)。針對當(dāng)前大模型普遍回答不了、回答不好卻又必須直面、不容回避的重大問題、敏感問題、疑難問題、復(fù)雜問題，該語義語料庫梳理了1萬余個重點問題，并精心編撰建成優(yōu)質(zhì)問答語料庫，助力解決大模型在語料方面的剛性需求、緊急需求、安全需求。語料庫的進(jìn)一步豐富充實或?qū)⑹官Y料查找更加便捷，進(jìn)一步降低了普通人的AI使用門檻，幫助普通人以更簡單的方式獲取更全面的信息。

　　AI技術(shù)和應(yīng)用創(chuàng)新，“合規(guī)”始終是底線。未來還需加強(qiáng)對AI大模型安全、規(guī)范、可持續(xù)發(fā)展的探索，充分挖掘各類數(shù)據(jù)資源價值，以構(gòu)建主流價值語料庫為抓手，推動中國AI產(chǎn)業(yè)安全發(fā)展。

　　聯(lián)系人：欒老師

　　電話：15810381987

　　轉(zhuǎn)自：人民數(shù)據(jù)

返回產(chǎn)經(jīng)網(wǎng)首頁 >>

　　【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品，轉(zhuǎn)載時須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”，違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊，僅代表作者個人觀點，不代表本網(wǎng)觀點和立場。版權(quán)事宜請聯(lián)系：010-65363056。

延伸閱讀

熱點視頻

上半年汽車工業(yè)多項經(jīng)濟(jì)指標(biāo)創(chuàng)新高

熱點新聞

熱點輿情

人民數(shù)據(jù)打造全球最大中文語義語料庫助力Sora新場景

熱點視頻

熱點新聞

熱點輿情

微信公眾號