大語言模型與非遺“共舞”


中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)   時間:2024-11-06





  宋錦既然起源于蘇州,為什么叫宋錦?為什么會有宋錦到蜀錦的發(fā)展轉變?繅絲使用梭子的方式與一般織布有何不同?近日,在《中國世界級非遺文化悅讀系列》叢書發(fā)布會上,一款同步推出的“非物質文化遺產(chǎn)大語言模型”引人注目。在模型中輸入上述問題,一個個翔實、生動的答案躍入眼簾。


  南京農(nóng)業(yè)大學信息管理學院王東波教授接受記者采訪時表示,他帶領團隊聯(lián)合南京大學“術語與翻譯跨學科研究基地”推出的這款模型,致力于推動非遺文化的數(shù)字化保護,為非遺文化的保護與傳播開辟新路徑。


  “非物質文化遺產(chǎn)是中華優(yōu)秀傳統(tǒng)文化的重要組成部分,我們希望通過打造一款非遺領域的人工智能大模型,促進中華優(yōu)秀傳統(tǒng)文化的國內(nèi)外傳播?!蓖鯑|波介紹,目前的通用領域大模型雖然在語言能力與通用知識領域表現(xiàn)出色,但缺乏對特定領域知識的了解。通過專業(yè)領域的數(shù)據(jù)開展預訓練,能夠彌補通用大模型在非遺知識領域的匱乏。


  “在非物質文化遺產(chǎn)領域,數(shù)據(jù)的獨特性與復雜性是大模型構建的關鍵挑戰(zhàn)。”王東波表示,為確保非遺大模型能夠精準理解和運用文化遺產(chǎn)領域的獨特知識,研究團隊在數(shù)據(jù)收集階段,從中國非物質文化遺產(chǎn)網(wǎng)的政策、資源、學術等五大板塊獲取并整理了海量數(shù)據(jù),并利用學術文獻數(shù)據(jù)庫中的大量非遺相關期刊論文摘要,通過對網(wǎng)頁內(nèi)容的分類解析和論文摘要的整理,構建了一個內(nèi)容豐富、預訓練數(shù)據(jù)總字數(shù)超1868萬字的數(shù)據(jù)集。


  在王東波看來,高質量數(shù)據(jù)集的構建是非遺大語言模型獲取相關領域專業(yè)知識的必要條件。為使模型能夠更好地理解和響應非遺相關問題,研究團隊通過對數(shù)據(jù)的量化分析和組織專家的深度參與,構建了面向非遺的知識實體標注方案,所完成的知識實體精標注語料庫總字符數(shù)超176萬。


  經(jīng)過長期的人工數(shù)據(jù)標注與校驗,團隊實現(xiàn)了非遺數(shù)據(jù)知識實體的精細標注。為進一步豐富訓練數(shù)據(jù),研究團隊結合數(shù)據(jù)生成的特性,與南京大學術語與翻譯跨學科研究基地的魏向清教授團隊合作,依托超大型語言模型,融入了《中國世界級非遺文化悅讀系列》叢書中的對話內(nèi)容,對已有非遺文本數(shù)據(jù)進行轉換與增強,構建了高質量的非遺知識對話數(shù)據(jù)。


  依托南京農(nóng)業(yè)大學高性能算力平臺,研究團隊訓練出非遺領域基座大模型,又在非遺知識對話數(shù)據(jù)的基礎上進一步構建了非遺對話大模型。


  “非遺對話大模型可以實現(xiàn)非遺文化的智能化傳播與知識普及,目前,這款模型有中英文兩種語言模式。后期我們也將嘗試引入其他語種,將不同地域的非遺文化融合,打破語言障礙,助力中國非遺文化走向世界?!蓖鯑|波表示,團隊希望通過非遺領域大語言模型,促進傳統(tǒng)故事、技藝、習俗等內(nèi)容的數(shù)字化、知識化、系統(tǒng)化保護與利用,建立非遺的長效保護體系,確保非遺的可持續(xù)發(fā)展。(記者 金鳳 通訊員 趙志梟)


  轉自:科技日報

  【版權及免責聲明】凡本網(wǎng)所屬版權作品,轉載時須獲得授權并注明來源“中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)”,違者本網(wǎng)將保留追究其相關法律責任的權力。凡轉載文章及企業(yè)宣傳資訊,僅代表作者個人觀點,不代表本網(wǎng)觀點和立場。版權事宜請聯(lián)系:010-65363056。

延伸閱讀

?

版權所有:中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)京ICP備11041399號-2京公網(wǎng)安備11010502035964