DNA包含了維持生命所需的基礎(chǔ)信息。理解這些信息是如何存儲(chǔ)和組織的,一直是20世紀(jì)最大的科學(xué)挑戰(zhàn)之一?,F(xiàn)在,借助GROVER這一基于人類(lèi)DNA訓(xùn)練的新型大型語(yǔ)言模型,研究人員有望解碼基因組中隱藏的復(fù)雜信息。GROVER由德國(guó)德累斯頓工業(yè)大學(xué)生物技術(shù)中心開(kāi)發(fā),它將人類(lèi)DNA視為文本,通過(guò)學(xué)習(xí)其規(guī)則和上下文來(lái)提取DNA序列的功能信息。這一新工具有望徹底改變基因組學(xué)并加速個(gè)性化醫(yī)療的發(fā)展。相關(guān)研究論文發(fā)表在新一期《自然·機(jī)器智能》雜志上。
大型語(yǔ)言模型通過(guò)文本訓(xùn)練,發(fā)展出了在多種語(yǔ)境下使用語(yǔ)言的能力。研究人員設(shè)想將生命代碼DNA當(dāng)作一種語(yǔ)言,訓(xùn)練了一個(gè)大型語(yǔ)言模型——GROVER。
在語(yǔ)言方面,人們談?wù)摰氖钦Z(yǔ)法、句法和語(yǔ)義。而對(duì)于DNA來(lái)說(shuō),這意味著學(xué)習(xí)核苷酸的序列等。就像GPT模型學(xué)習(xí)人類(lèi)語(yǔ)言一樣,GROVER基本上學(xué)會(huì)了DNA“語(yǔ)言”。
研究表明,GROVER不僅能準(zhǔn)確地預(yù)測(cè)接下來(lái)的DNA序列,還可用來(lái)提取具有生物學(xué)意義的上下文信息,例如識(shí)別DNA上的基因啟動(dòng)子或蛋白質(zhì)結(jié)合位點(diǎn)。此外,GROVER還學(xué)習(xí)了“表觀遺傳”過(guò)程,即在DNA序列不發(fā)生改變的情況下,基因表達(dá)的可遺傳變化。
GROVER有望解鎖DNA中蘊(yùn)含著關(guān)于人類(lèi)本質(zhì)、疾病易感性以及對(duì)治療反應(yīng)的關(guān)鍵信息。研究人員相信,通過(guò)語(yǔ)言模型理解DNA的規(guī)則,將有助于揭示隱藏在DNA中的生物意義,從而推動(dòng)基因組學(xué)和個(gè)性化醫(yī)學(xué)發(fā)展。(記者張佳欣)
轉(zhuǎn)自:科技日?qǐng)?bào)
【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來(lái)源“中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個(gè)人觀點(diǎn),不代表本網(wǎng)觀點(diǎn)和立場(chǎng)。版權(quán)事宜請(qǐng)聯(lián)系:010-65363056。
延伸閱讀
版權(quán)所有:中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)京ICP備11041399號(hào)-2京公網(wǎng)安備11010502035964