價格戰(zhàn)兇猛,AI小模型狂飆
21世紀經(jīng)濟報道記者孔海麗、實習生劉清怡 北京報道
AI小模型大爆發(fā),成為AI巨頭的新角力賽場。
大模型價格戰(zhàn)“卷生卷死”,投入了巨額資金的AI企業(yè),亟需在商業(yè)故事上再進一步,最近紛紛祭出了自家低成本、易部署的小模型,新一輪較量拉開。
先是HuggingFace發(fā)布了SmolLM - 135M、360M和1.7B,僅使用650B個token進行訓練,性能卻超過了Qwen 1.5B、Phi 1.5B。
隔日,Mistral AI和英偉達聯(lián)合發(fā)布Mistral NeMo,被稱為“Mistral AI最佳小型模型”,易于使用,可以直接替代任何使用Mistral 7B的系統(tǒng)。
就在同一天,OpenAI下場“血拼”,推出了GPT-4o 的迷你版――GPT-4o Mini,稱這款新模型是“功能最強、性價比最高的小參數(shù)模型”,并將其作為展示模型,替換了GPT-3.5的網(wǎng)頁版“臺前”位置。
蘋果也不甘示弱,與OpenAI同日發(fā)布了DCLM小模型,并且發(fā)布即開源。蘋果ML小組研究科學家Vaishaal Shankar說“這是迄今為止性能最好的真正開源的模型”。
這些模型參數(shù)小、占內(nèi)存少,在特定場景中,經(jīng)過精調(diào)后使用效果可以媲美大模型,成為性價比之選。
“小模型一定是更容易實現(xiàn)價值的。”IBM中國數(shù)據(jù)與人工智能首席架構(gòu)師徐孝天在接受21世紀經(jīng)濟報道記者采訪時表示:“一批專業(yè)小模型配合agents實現(xiàn)業(yè)務流的整合,功能和經(jīng)濟性上都會更加可行?!?span style="display:none">AKg即熱新聞——關注每天科技社會生活新變化gihot.com
在AI生成式模型戰(zhàn)場上,迭代速度極快,可能今天的“最好”,馬上就會被明天的新版本打敗,“歷史記錄”不斷被顛覆重寫?!澳P透绿?,都不好評判,前腳有廠商說自家是‘最大最好的’,后腳就有另外一家說自己是‘最小最好的’?!比斯ぶ悄苄袠I(yè)資深觀察人士告訴21世紀經(jīng)濟報道記者,人工智能模型眼花繚亂,AI企業(yè)要想跑通商業(yè)故事,必須十倍、百倍努力。
小模型賽道開“卷”
AI巨頭們密集發(fā)布小模型,既比性能,還拼價格。
根據(jù)Open AI官網(wǎng),在MMLU、MGSM、HumanEval、MMMU等基準測試中,GPT-4o mini均展現(xiàn)出了比GPT-3.5 Turbo和Gemini Flash、Claude Haiku等小模型更加出色的文本和視覺推理、數(shù)學推理、編碼和多模態(tài)推理能力,尤其是數(shù)學推理和編碼能力遠勝過GPT-3.5 Turbo和其他小模型,稍弱于GPT-4o。在最新的LMSYS盲測競技場排名中,GPT-4o mini還取得了與GPT-4o并列第一的好成績,連OpenAI的CEO Sam Altman也難掩激動的心情,在社交媒體平臺上發(fā)文稱,“我們從未對任何一項評估感到如此興奮?!?span style="display:none">AKg即熱新聞——關注每天科技社會生活新變化gihot.com
除了優(yōu)異的性能,OpenAI還拿出了低價殺手锏。7月18日上線時,OpenAI宣布GPT-4o mini的定價為每百萬輸入token15美分和每百萬輸出token60美分,比GPT-3.5 Turbo便宜60%以上。7月24日,OpenAI再次宣布,從即日起至9月23日,免費為4級、5級用戶提供GPT-4o mini微調(diào)服務,每天限制200萬token,超過的部分按照每100萬token3美元收費。OpenAI稱:“我們期待GPT-4o mini將擴大人工智能的應用范圍,使人工智能更加實惠?!?span style="display:none">AKg即熱新聞——關注每天科技社會生活新變化gihot.com
平安證券研報認為,GPT-4omini是價格顯著下降的新一代入門級別人工智能“小模型”,兼具性能與性價比。當前全球范圍內(nèi)的大模型逐漸呈現(xiàn)由單方面的性能角逐,轉(zhuǎn)向性能與實用性并重的發(fā)展趨勢。大模型能力達到一定水平時必然會走向應用,大模型廠商通過提升其產(chǎn)品性價比,助推下游應用端的推廣部署,有望加速大模型產(chǎn)業(yè)鏈商業(yè)閉環(huán)的形成。
在GPT-4o mini之后發(fā)布的蘋果DCLM模型同樣引人矚目,DCLM全面開源了代碼、權(quán)重、訓練流程及數(shù)據(jù)集。DCLM分為14億和70億參數(shù)兩種規(guī)模,其70億參數(shù)版本超越了Mistral-7B ,性能接近Llama 3、Gemma。在MMLU(5-shot)基準測試中,DCLM-7B的準確率為63.7%。根據(jù)研究人員的說法,這一性能比此前最先進的開放數(shù)據(jù)語言模型MAP-Neo提高了6.6%,并減少了40%的計算量。更重要的是,這一結(jié)果超越了準確率為62.7%的Mistral-7B-v0.3,并接近于準確率為64.3%的Gemma 8B、66.2%的Llama3 8B和69.9%的Phi-3 7B。
比起“越大越好”,蘋果更傾向于走小模型路線。今年4月,蘋果公布的小模型家族四款預訓練的大模型OpenELM,體量極小,彼時已在朝著“讓人工智能在蘋果設備上本地運行”目標邁進。
6月,蘋果曾透露自己的AI發(fā)展路線圖,計劃把小模型順利嵌進移動裝備,不僅能達到“更快速、更安全”的目的,還一舉解決了移動端設備與模型融合的終極難題。
Mistral NeMo是Mistral AI與NVIDIA合作構(gòu)建的,該模型經(jīng)過先進的微調(diào)和對準階段,在遵循精確指令、推理、處理多輪對話和生成代碼方面表現(xiàn)優(yōu)異。據(jù)了解,Mistral NeMo主要面向企業(yè)環(huán)境,目的是讓企業(yè)在不需要大量云資源的情況下實施人工智能解決方案。
在接受Venturebeat采訪時,英偉達應用深度學習研究副總裁 Bryan Catanzaro 詳細闡述了小型模型的優(yōu)勢。他說:“小型模型更容易獲取和運行,可以有不同的商業(yè)模式,因為人們可以在家中自己的系統(tǒng)上運行它們?!?span style="display:none">AKg即熱新聞——關注每天科技社會生活新變化gihot.com
大模型進入下半場,從技術(shù)卷到應用,市場對于更易本地部署的高效率、低成本模型越來越感興趣,這背后折射了對安全性、隱私性以及高效率、高性價比的渴望。
行業(yè)分析師認為,AI部署有了一個明顯的新趨勢,即可以在本地硬件上高效運行的模型,正在打消許多企業(yè)大規(guī)模采用AI方案的擔憂,比如數(shù)據(jù)隱私、延遲以及高成本等問題。“這可能會使競爭更加公平,資源有限的小企業(yè)也將獲得AI模型的加持,從而彌合與大企業(yè)之間先天的差距?!?span style="display:none">AKg即熱新聞——關注每天科技社會生活新變化gihot.com
入局小模型賽道背后
AI巨頭們?yōu)楹渭娂婇_辟小模型賽道?部分或出于成本因素的考量。
大模型的開發(fā)和運行成本高昂,即使像OpenAI這樣的巨頭也難以負擔得起。
近日,有知情人士分析稱“OpenAI今年可能會虧損50億美元,面臨著在12個月內(nèi)資金耗盡的風險”。截至今年3月,OpenAl花費近40億美元租用微軟的服務器,以運行ChatGPT及其底層大語言模型(LLM)。除了運行ChatGPT之外,OpenAl包括數(shù)據(jù)費用在內(nèi)的培訓成本今年可能會飆升至30億美元。據(jù)知情人士透露,去年,OpenAl加快了對新AI的訓練,速度超過了最初的計劃,OpenAl原本計劃在這類成本上花費約8億美元,但最終的支出要多得多。
相較之下,小模型成本低、響應速度快,而且可以本地化運行,更能適應個性化、精準化的使用需求。業(yè)內(nèi)人士表示:“在全球AI硬件供不應求的前提下,小模型意味著更低的部署和訓練成本,其產(chǎn)出效果足以應對一些特定任務?!?span style="display:none">AKg即熱新聞——關注每天科技社會生活新變化gihot.com
有國內(nèi)AI企業(yè)相關業(yè)務負責人告訴21世紀經(jīng)濟報道記者,小參數(shù)規(guī)??梢源蠓?jié)省推理成本,模型訓練與調(diào)整所需的硬件成本遠遠低于大模型,成熟開發(fā)者甚至可以低成本訓練垂直模型,這些操作的成本都遠低于大模型。
OpenAI創(chuàng)始成員、特斯拉前AI高級總監(jiān)Andrej Karpathy最近的預測頗有代表性,他提出,生成式模型的尺寸競爭將會逆轉(zhuǎn),比拼誰的模型更小、更智能。
在Andrej Karpathy的解釋中,當前大模型如此之大,是因為訓練期間仍然非常浪費,雖然大模型在記憶方面非常出色,但這也意味著大模型記住了大量無關緊要的細節(jié),而那些內(nèi)容本不應該在特定問題中反復被調(diào)用。
對于小模型來說,訓練目標變得更簡單、直接、高效,讓AI更直接地學到更有用的信息。
不過,大模型與小模型并非“二選一”,他們的發(fā)展路線仍然有著相互借鑒的意義。
Andrej Karpathy稱:“模型必須先變大,然后才能變小。因為我們需要大模型將數(shù)據(jù)重構(gòu)、塑造成理想的形式,一個模型幫助生成下一個模型的訓練數(shù)據(jù),逐漸得到完美的訓練集,再喂給小模型,而后者不需要完全記住所有的知識,只是偶爾需要查找一些東西以確保準確。”
李彥宏也曾在百度AI開發(fā)者大會Create 2024上表示,未來大型的AI原生應用基本都是Moe架構(gòu),即大小模型的混用。李彥宏還稱,通過大模型壓縮蒸餾出一個基礎模型,然后再用數(shù)據(jù)去訓練,比從頭開始訓練小模型的效果要好很多,比基于開源模型訓練出來的模型效果更好,速度更快,成本更低。
本文鏈接:http://www.3ypm.com.cn/news-4-72529-0.html價格戰(zhàn)兇猛,AI小模型狂飆
聲明:本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。
點擊右上角微信好友
朋友圈
點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“”按鈕
點擊右上角QQ
點擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點擊“”按鈕