記者6月1日獲悉,浪潮電子信息產(chǎn)業(yè)股份有限公司近日發(fā)布“源2.0-M32”開源大模型。“源2.0-M32”在“源2.0”系列大模型基礎上,創(chuàng)新性提出和采用了基于注意力機制的門控網(wǎng)絡技術,構建包含32個專家的混合專家模型(MoE),大幅提升了模型算力效率。模型運行時激活參數(shù)37億,在業(yè)界主流基準評測中性能全面對標700億參數(shù)的LLaMA3開源大模型。
據(jù)介紹,針對MoE模型核心的專家調度策略,“源2.0-M32”采用的新型算法結構——基于注意力機制的門控網(wǎng)絡,關注專家模型之間的協(xié)同性度量,可解決傳統(tǒng)門控網(wǎng)絡下選擇兩個或多個專家參與計算時關聯(lián)性缺失問題,大幅提升專家之間協(xié)同處理數(shù)據(jù)的水平。
據(jù)悉,“源2.0-M32”以“源2.0-2B”為基礎模型設計,沿用并融合局部過濾增強注意力機制。通過“先學習相鄰詞之間的關聯(lián)性,再計算全局關聯(lián)性”的方法,它能更好地學習自然語言的局部和全局語言特征。
在數(shù)據(jù)層面,“源2.0-M32”基于超2萬億token(文本中最小的語義單元)進行訓練,覆蓋萬億量級的代碼、中英文書籍、百科、論文及合成數(shù)據(jù)。在算力層面,“源2.0-M32”為硬件差異較大的訓練環(huán)境提供了一種高性能訓練方法。
基于在算法、數(shù)據(jù)和算力方面的創(chuàng)新,“源2.0-M32”性能大幅提升,在數(shù)學競賽、科學推理榜單上的得分超過700億參數(shù)的LLaMA3開源大模型。
浪潮電子信息產(chǎn)業(yè)股份有限公司人工智能首席科學家吳韶華表示,大模型在性能不斷提升的同時,也面臨著所需算力大幅攀升的問題。“源2.0-M32”將為企業(yè)開發(fā)應用生成式AI提供模型高性能、算力低門檻的高效路徑。“‘源2.0-M32’開源大模型配合企業(yè)大模型開發(fā)平臺,將助力企業(yè)實現(xiàn)更快的技術迭代與高效的應用落地,為人工智能產(chǎn)業(yè)發(fā)展提供堅實底座,加速產(chǎn)業(yè)智能化進程。”他說。
記者6月1日獲悉,浪潮電子信息產(chǎn)業(yè)股份有限公司近日發(fā)布“源2.0-M32”開源大模型。“源2.0-M32”在“源2.0”系列大模型基礎上,創(chuàng)新性提出和采用了基于注意力機制的門控網(wǎng)絡技術,構建包含32個專家的混合專家模型(MoE),大幅提升了模型算力效率。模型運行時激活參數(shù)37億,在業(yè)界主流基準評測中性能全面對標700億參數(shù)的LLaMA3開源大模型。
據(jù)介紹,針對MoE模型核心的專家調度策略,“源2.0-M32”采用的新型算法結構——基于注意力機制的門控網(wǎng)絡,關注專家模型之間的協(xié)同性度量,可解決傳統(tǒng)門控網(wǎng)絡下選擇兩個或多個專家參與計算時關聯(lián)性缺失問題,大幅提升專家之間協(xié)同處理數(shù)據(jù)的水平。
據(jù)悉,“源2.0-M32”以“源2.0-2B”為基礎模型設計,沿用并融合局部過濾增強注意力機制。通過“先學習相鄰詞之間的關聯(lián)性,再計算全局關聯(lián)性”的方法,它能更好地學習自然語言的局部和全局語言特征。
在數(shù)據(jù)層面,“源2.0-M32”基于超2萬億token(文本中最小的語義單元)進行訓練,覆蓋萬億量級的代碼、中英文書籍、百科、論文及合成數(shù)據(jù)。在算力層面,“源2.0-M32”為硬件差異較大的訓練環(huán)境提供了一種高性能訓練方法。
基于在算法、數(shù)據(jù)和算力方面的創(chuàng)新,“源2.0-M32”性能大幅提升,在數(shù)學競賽、科學推理榜單上的得分超過700億參數(shù)的LLaMA3開源大模型。
浪潮電子信息產(chǎn)業(yè)股份有限公司人工智能首席科學家吳韶華表示,大模型在性能不斷提升的同時,也面臨著所需算力大幅攀升的問題。“源2.0-M32”將為企業(yè)開發(fā)應用生成式AI提供模型高性能、算力低門檻的高效路徑。“‘源2.0-M32’開源大模型配合企業(yè)大模型開發(fā)平臺,將助力企業(yè)實現(xiàn)更快的技術迭代與高效的應用落地,為人工智能產(chǎn)業(yè)發(fā)展提供堅實底座,加速產(chǎn)業(yè)智能化進程。”他說。
本文鏈接:http://www.3ypm.com.cn/news-2-5492-0.html“源2.0-M32”開源大模型發(fā)布
聲明:本網(wǎng)頁內容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。
上一篇:用人工智能解決心理問題 抑郁狀態(tài)識別模型準確率達90%
下一篇:智能云打印破解遠程打印難題
點擊右上角微信好友
朋友圈
點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“”按鈕
點擊右上角QQ
點擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點擊“”按鈕