新方法提升AI預(yù)訓(xùn)練效率和準(zhǔn)確性
記者劉霞
點擊播報本文,約
加拿大滑鐵盧大學(xué)研發(fā)出一種名為SubTrack++的全新訓(xùn)練方法,不僅可大幅縮短大語言模型的預(yù)訓(xùn)練時間,更能顯著提升其準(zhǔn)確性。這一突破有望降低構(gòu)建人工智能(AI)工具的成本與環(huán)境負擔(dān),讓更多人用上強大、便捷的AI技術(shù)。
大語言模型是基于深度神經(jīng)網(wǎng)絡(luò)、專注于理解與生成人類自然語言的AI系統(tǒng)。其核心能力源于海量文本數(shù)據(jù)的預(yù)訓(xùn)練,借此學(xué)習(xí)語法規(guī)律、語義邏輯及上下文關(guān)聯(lián),從而輸出貼近人類表達習(xí)慣的內(nèi)容。這類模型的“大”體現(xiàn)在兩方面:一是訓(xùn)練數(shù)據(jù)規(guī)模巨大,二是模型參數(shù)量極為龐大。正因如此,對其進行預(yù)訓(xùn)練往往需要數(shù)月時間,并消耗大量算力、專用硬件及電力,高昂成本使一般企業(yè)與機構(gòu)難以承擔(dān)。
為破解這一難題,團隊開發(fā)出SubTrack++方法,可將預(yù)訓(xùn)練耗時縮減一半。團隊指出,大語言模型能耗極高,即便訓(xùn)練時間僅減少5%,也能帶來顯著效益。從長遠看,此類技術(shù)進步將推動更多人自主構(gòu)建專屬的大語言模型。
團隊解釋說,大語言模型本質(zhì)是由龐大數(shù)字矩陣構(gòu)成的神經(jīng)網(wǎng)絡(luò),通過數(shù)十億次試錯學(xué)習(xí)預(yù)測文本序列。每當(dāng)預(yù)測出錯,模型便微調(diào)其數(shù)學(xué)參數(shù)以提升準(zhǔn)確率。這一過程如同讓模型“閱讀整座圖書館”,從中學(xué)習(xí)人類如何使用語言。SubTrack++通過聚焦對任務(wù)最關(guān)鍵的核心參數(shù),簡化校正流程,實現(xiàn)高效微調(diào),從而加速整體預(yù)訓(xùn)練。
團隊期望,通過節(jié)省預(yù)訓(xùn)練時間,未來不只大型企業(yè),普通用戶也能構(gòu)建并定制屬于自己的AI工具。安全學(xué)習(xí)個人偏好后,大語言模型可成為真正的智能數(shù)字助理,適應(yīng)不同用戶的風(fēng)格、目標(biāo)與需求,成為人類工作與創(chuàng)造中的得力伙伴。
團隊將在墨西哥城舉辦的神經(jīng)信息處理系統(tǒng)會議上正式發(fā)表相關(guān)論文。
222
