當(dāng)前位置首頁(yè) > 行業(yè) > 通信 >

超長(zhǎng)文本是AI大模型的能力突破口嗎？

中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng) 時(shí)間：2024-03-29

　　近日，能“一口氣讀完20萬(wàn)字小說(shuō)”的AI大模型應(yīng)用Kimi再次為國(guó)內(nèi)AI產(chǎn)業(yè)添了一把火。業(yè)內(nèi)認(rèn)為，國(guó)產(chǎn)大模型能力提升或成今年國(guó)內(nèi)AI領(lǐng)域最核心的主線。超長(zhǎng)上下文是主要突破口嗎？大模型還將如何提升能力？

　　在3月24日舉行的2024全球開(kāi)發(fā)者先鋒大會(huì)（2024 GDC）大模型前沿論壇上，阿里通義、騰訊混元、稀宇科技MiniMax ABAB、商湯商量、書(shū)生·浦語(yǔ)五個(gè)大模型的技術(shù)負(fù)責(zé)人罕見(jiàn)“同框”，共同探討未來(lái)大模型的技術(shù)演進(jìn)方向。

　　超長(zhǎng)上下文成國(guó)產(chǎn)大模型新競(jìng)逐焦點(diǎn)

　　3月18日，月之暗面公司宣布Kimi智能助手啟動(dòng)200萬(wàn)字無(wú)損上下文內(nèi)測(cè)。2023年10月，Kimi初次亮相時(shí)其處理能力還只有20萬(wàn)字。也就是說(shuō)，Kimi只用了不到半年，就將上下文處理能力提升了一個(gè)數(shù)量級(jí)。

　　月之暗面介紹稱(chēng)，大模型無(wú)損上下文長(zhǎng)度的數(shù)量級(jí)提升，能進(jìn)一步打開(kāi)對(duì)AI應(yīng)用場(chǎng)景的想象力，包括完整代碼庫(kù)的分析理解、可以自主幫人類(lèi)完成多步驟復(fù)雜任務(wù)的智能體、不會(huì)遺忘關(guān)鍵信息的終身助理、真正統(tǒng)一架構(gòu)的多模態(tài)模型等。

　　消息發(fā)布后，Kimi訪問(wèn)量激增，一度無(wú)法正常使用。連日來(lái)，Kimi還帶“紅”一眾A股“Kimi概念股”。以超長(zhǎng)上下文處理能力為突破口，Kimi成為國(guó)內(nèi)出現(xiàn)“百模大戰(zhàn)”以來(lái)為數(shù)不多的“破圈者”。

　　Kimi迅速走紅后，阿里宣布“通義千問(wèn)”將向所有人免費(fèi)開(kāi)放1000萬(wàn)字的長(zhǎng)文檔處理功能，可以幫助用戶(hù)快速讀研報(bào)、分析財(cái)報(bào)、讀科研論文、研判案情、讀醫(yī)療報(bào)告、解讀法律條文、分析考試成績(jī)、總結(jié)深度文章。360智腦也宣布正式內(nèi)測(cè)500萬(wàn)字長(zhǎng)文本處理功能，該功能將入駐360AI瀏覽器。

　　事實(shí)上，從2023年下半年開(kāi)始，大模型支持的上下文長(zhǎng)度就快速增長(zhǎng)，從早期GPT-3的2K（存儲(chǔ)容量單位），到今年3月提升到1M。

　　“更長(zhǎng)的上下文意味著什么，是我們需要思考的?！鄙虾Ｈ斯ぶ悄軐?shí)驗(yàn)室首席科學(xué)家林達(dá)華介紹說(shuō)，2K的上下文能力支持日常聊天、知識(shí)問(wèn)答、短文理解；32K支持?jǐn)M人對(duì)話、長(zhǎng)文分析、代碼解釋及編寫(xiě)；100K支持處理長(zhǎng)報(bào)告及短篇小說(shuō)、智能體長(zhǎng)時(shí)間交互、簡(jiǎn)單的軟件及網(wǎng)站構(gòu)建；1M支持處理長(zhǎng)篇小說(shuō)、直接注入小型知識(shí)庫(kù)、項(xiàng)目級(jí)代碼分析與構(gòu)建。

　　長(zhǎng)文本能力仍存局限性

　　林達(dá)華認(rèn)為，直接使用上下文面臨兩個(gè)基本問(wèn)題：一是超長(zhǎng)上下文的推理計(jì)算代價(jià)高昂；二是上下文本身對(duì)信息不會(huì)進(jìn)行壓縮，不能直接捕捉其中的深層知識(shí)和規(guī)律。

　　上海人工智能實(shí)驗(yàn)室青年科學(xué)家陳愷認(rèn)為，目前業(yè)內(nèi)對(duì)于長(zhǎng)文本的評(píng)測(cè)方式是“大海撈針”，也就是從超長(zhǎng)文本中找出一個(gè)信息，很多模型在這樣的測(cè)試中能做到接近100%的準(zhǔn)確率。

　　陳愷說(shuō)：“但如果把模型換到更接近真實(shí)的使用場(chǎng)景里，需要模型找一些碎片化信息并把它們聯(lián)系起來(lái)，模型的能力和準(zhǔn)確率會(huì)大幅下降。這和其他模型的應(yīng)用能力類(lèi)似，業(yè)內(nèi)要繼續(xù)關(guān)注模型的泛化性和實(shí)際應(yīng)用能力?！?/p>

　　此外，業(yè)內(nèi)也有聲音質(zhì)疑超長(zhǎng)上下文的技術(shù)水平和價(jià)值。月之暗面方面稱(chēng)，公司為了實(shí)現(xiàn)更好的長(zhǎng)窗口無(wú)損壓縮性能，研發(fā)和技術(shù)團(tuán)隊(duì)從模型預(yù)訓(xùn)練到對(duì)齊、推理環(huán)節(jié)均進(jìn)行了原生的重新設(shè)計(jì)和開(kāi)發(fā)，不走“滑動(dòng)窗口”“降采樣”等技術(shù)捷徑，攻克了很多底層技術(shù)難點(diǎn)。

　　達(dá)觀數(shù)據(jù)副總裁王文廣接受上海證券報(bào)記者采訪表示：“從創(chuàng)新點(diǎn)來(lái)看，Kimi顯示出了其在無(wú)損閱讀方面的巨大潛力，超長(zhǎng)文本上下文的輸入為內(nèi)容創(chuàng)作和整理提供了技術(shù)基礎(chǔ)。但從技術(shù)本身來(lái)說(shuō)，這只是個(gè)噱頭，既沒(méi)有對(duì)模型能力提升帶來(lái)什么幫助，本身也沒(méi)什么難度?！?/p>

　　達(dá)觀數(shù)據(jù)是專(zhuān)注智能文本處理的國(guó)家級(jí)專(zhuān)精特新“小巨人”企業(yè)。2023年7月，達(dá)觀數(shù)據(jù)對(duì)外發(fā)布“曹植”大語(yǔ)言模型應(yīng)用公測(cè)版，“曹植”具有長(zhǎng)文本、多語(yǔ)言、垂直化三大特點(diǎn)。

　　王文廣說(shuō)：“從Kimi的走紅來(lái)看，接下來(lái)‘百模大戰(zhàn)’會(huì)更加喧囂，很快會(huì)有大模型廠商推出具有千萬(wàn)字甚至上億字處理能力的模型。未來(lái)，大模型領(lǐng)域可能還會(huì)出現(xiàn)有噱頭、技術(shù)難度不高的宣傳點(diǎn)。但真正的產(chǎn)業(yè)應(yīng)用，還是要靜下心來(lái)，一步一個(gè)腳印提升模型能力，一點(diǎn)一滴來(lái)解決產(chǎn)業(yè)上的問(wèn)題?！?/p>

　　五大模型“主創(chuàng)”共論技術(shù)演進(jìn)方向

　　除了上下文長(zhǎng)度，國(guó)產(chǎn)大模型還有哪些能力提升路徑？下一步如何更大限度地發(fā)揮“?！绷?？

　　阿里通義算法負(fù)責(zé)人周暢認(rèn)為，合成數(shù)據(jù)會(huì)在未來(lái)大模型訓(xùn)練中扮演更重要的角色。合成數(shù)據(jù)是一種模仿真實(shí)世界數(shù)據(jù)的非人工創(chuàng)建的數(shù)據(jù)。

　　“通過(guò)使用合成數(shù)據(jù)，語(yǔ)言模型和多模態(tài)模型有望僅靠‘自己’便獲得能力提升。升級(jí)數(shù)據(jù)處理能力將是提升模型研發(fā)水平的重要方向之一。”周暢說(shuō)。

　　對(duì)于如何讓模型本身深度參與迭代，陳愷表示，參照研究人員研發(fā)中需具備的能力，如果模型具備較強(qiáng)的數(shù)學(xué)能力、編程能力和頭腦風(fēng)暴能力，并很好地將幾種能力結(jié)合起來(lái)，就能向“自我提升”的臨界點(diǎn)邁進(jìn)。

　　騰訊混元大模型算法負(fù)責(zé)人康戰(zhàn)輝提到，目前，頭部廠商的模型架構(gòu)都在轉(zhuǎn)向混合專(zhuān)家模型（Mixture of Experts，MoE）?；旌蠈?zhuān)家模型即將大型模型拆分為多個(gè)較小的專(zhuān)家模型，每個(gè)專(zhuān)家模型負(fù)責(zé)處理特定的任務(wù)或數(shù)據(jù)子集。

　　在康戰(zhàn)輝看來(lái)，未來(lái)，參數(shù)量較小的模型可能在應(yīng)用端表現(xiàn)出更高效率和“性?xún)r(jià)比”，全模態(tài)輸入輸出的大模型將是下一階段研究目標(biāo)。

　　大模型的技術(shù)演進(jìn)一方面旨在進(jìn)一步提升能力，另一個(gè)重要方向是如何在現(xiàn)實(shí)場(chǎng)景中更好用。

　　稀宇科技技術(shù)副總裁安德森認(rèn)為，人完成各種各樣的工作時(shí)，并不是僅靠自己的大腦，而是靠大腦加上各種外部的工具。所以，大模型在落地應(yīng)用的時(shí)候也要考慮把大模型和其他工具，包括其他模型結(jié)合在一起，使其更加便利。

　　商湯科技大裝置執(zhí)行總監(jiān)成功表示，大模型的基礎(chǔ)能力已在很多場(chǎng)景落地，但在實(shí)踐中，模型的推理能力，包括規(guī)劃執(zhí)行能力等仍需重點(diǎn)突破。同時(shí)，他強(qiáng)調(diào)關(guān)注效率和成本，模型能以更低成本、更快觸達(dá)應(yīng)用始終是技術(shù)發(fā)展的重要目標(biāo)。（劉怡鶴）

　　轉(zhuǎn)自：上海證券報(bào)

返回產(chǎn)經(jīng)網(wǎng)首頁(yè) >>

　　【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品，轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來(lái)源“中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”，違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊，僅代表作者個(gè)人觀點(diǎn)，不代表本網(wǎng)觀點(diǎn)和立場(chǎng)。版權(quán)事宜請(qǐng)聯(lián)系：010-65363056。

延伸閱讀

熱點(diǎn)視頻

上半年汽車(chē)工業(yè)多項(xiàng)經(jīng)濟(jì)指標(biāo)創(chuàng)新高

熱點(diǎn)新聞

熱點(diǎn)輿情

超長(zhǎng)文本是AI大模型的能力突破口嗎？

熱點(diǎn)視頻

熱點(diǎn)新聞

熱點(diǎn)輿情

微信公眾號(hào)

超長(zhǎng)文本是AI大模型的能力突破口嗎？