繼快手宣布上線自研的視覺生成大模型產(chǎn)品可靈AI后,大模型企業(yè)智譜AI也展示了其在多模態(tài)生成式 AI 模型上的研發(fā)實力。
7月26日,智譜AI CEO張鵬在智譜 Open Day上宣布,AI生成視頻模型清影(Ying)正式上線。即日起所有C端用戶,都能通過清影(Ying)體驗到AI文生視頻、圖生視頻能力。
據(jù)其介紹,在輸入一段文字后(俗稱Prompt),用戶可以選擇自己想要生成的風(fēng)格,包括卡通3D、油畫、電影感等,再配上清影自帶的音樂,就可以生成充滿AI想象力的視頻片段。
除了文本生成視頻,也可以到清影上圖片生成視頻。圖生視頻帶來了更多的新玩法,包括表情包梗圖、廣告制作、劇情創(chuàng)作、短視頻創(chuàng)作等。同時,基于清影的照片動起來小程序也會同步上線,只需一步上傳照片,AI就能讓凝練在舊時光中的照片靈動起來。
“本次清影底座的視頻生成模型是CogVideoX,它能將文本、時間、空間三個維度融合起來,參考了Sora的算法設(shè)計,它也是一個DiT架構(gòu),通過優(yōu)化,CogVideoX 相比前代(CogVideo)推理速度提升了6倍。在后續(xù)版本中,將推出更高分辨率、更長時長的生成視頻功能?!睆堸i稱。
在生成式視頻模型的研發(fā)中,Scaling Law 繼續(xù)在算法和數(shù)據(jù)兩方面發(fā)揮作用?!拔覀兎e極在模型層面探索更高效的scaling方式?!睆堸i表示:“隨著算法、數(shù)據(jù)不斷迭代,相信Scaling Law將繼續(xù)發(fā)揮強有力作用。”
相較于OpenAI早前發(fā)布的SORA,智譜的清影已完全面向C端,并提供免費版和付費版兩種選擇。會上,張鵬表示,“為什么要做多模態(tài)這件事,視頻生成要放到整個技術(shù)和產(chǎn)品發(fā)展路線當(dāng)中來看,我們認為它是AGI必須走的路徑?!?span style="display:none">xg4即熱新聞——關(guān)注每天科技社會生活新變化gihot.com
今年年初時,張鵬曾表示,不止ToB,C端智譜也會去做,但目的比較明確,把閉環(huán)做起來,給未來也留下一個可能性。他判斷,TO C應(yīng)用可能未來也是一個要爆發(fā)的點。
清影是繼智譜清言APP上線后的又一大To C應(yīng)用,也意味著智譜正式切入AI視頻生成市場。
此前張鵬接受時代周報記者采訪時曾提到Sora的技術(shù)力,他指出,Sora的主要技術(shù)思路是用視覺塊編碼(Visual Patch)的方式,把不同格式的視頻進行統(tǒng) 一編碼,然后用Transformer 架構(gòu)進行訓(xùn)練,并引入類似 Diffusion的Unet方式做在降維和升維的過程中做加噪和去噪。之前的基于Diffusion的模型,特別是把 Stable Diffusion 微調(diào)成視頻生成的模型,基本上都有著“閃爍”(幀間細節(jié)跳變)的問題,張鵬稱,“Sora 細節(jié)設(shè)計很合理,解決了這個問題?!?span style="display:none">xg4即熱新聞——關(guān)注每天科技社會生活新變化gihot.com
張鵬表示,Sora另一個特點是高分辨率:視頻常見的一個問題是H*W*T 長度太長,導(dǎo)致分辨率不夠高或者需要分層,Sora 直接生成了高分辨率(1080p)的圖像。 Sora 可以生成語義豐富的長達 60s 的視頻,這說明訓(xùn)練的序列也比較長,訓(xùn)練時候的窗口至少也得有 5s+。從展示出的較短樣例分析,可能訓(xùn)練的長度為 7-8s。另外,OpenAI 還使用了基于重要性采樣的生成式訓(xùn)練以及虛幻引擎生成一些特定的數(shù)據(jù)來補充一些 OOD 的情況,例如長程關(guān)聯(lián)等。
智譜AI 一直在多模態(tài)領(lǐng)域大力投入,有長期的技術(shù)積累,從2021年開始,先后研發(fā)了CogView(NeurIPS’21)、CogView2(NeurIPS’22)、CogVideo(ICLR’23)、RelayDiffusion(ICLR’24)和 CogView3(2024)。
“實現(xiàn)全系列產(chǎn)品矩陣對標(biāo)Open AI 是我們大模型系列產(chǎn)品布局的一貫?zāi)繕?biāo),多模態(tài)模型在其中扮演著重要角色,也始終是我們的研究重點。”張鵬稱。
本文鏈接:http://www.3ypm.com.cn/news-2-10443-0.html智譜入局AI生成視頻:30秒生成高清視頻,瞄準(zhǔn)TO C應(yīng)用市場
聲明:本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔(dān)任何法律責(zé)任。天上不會到餡餅,請大家謹(jǐn)防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。
點擊右上角微信好友
朋友圈
點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“”按鈕
點擊右上角QQ
點擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點擊“”按鈕