4月27日,在中關(guān)村論壇未來人工智能先鋒論壇上,清華大學(xué)聯(lián)合北京生數(shù)科技有限公司(以下簡(jiǎn)稱“生數(shù)科技”)正式發(fā)布中國(guó)首個(gè)原創(chuàng)全自研視頻大模型——Vidu。論壇現(xiàn)場(chǎng),清華大學(xué)教授、生數(shù)科技首席科學(xué)家朱軍向與會(huì)者展示了Vidu生成的視頻,包括行駛在崎嶇道路上的汽車、戴珍珠耳環(huán)的貓、彈吉他的熊貓等。與此前震撼業(yè)界的Sora一樣,Vidu能夠根據(jù)文本描述直接生成高質(zhì)量視頻。
“長(zhǎng)時(shí)長(zhǎng)、高一致性、高動(dòng)態(tài)性”是Vidu的顯著特征。朱軍表示,研發(fā)團(tuán)隊(duì)的核心技術(shù)在于采用U-ViT架構(gòu)。它由Diffusion與Transformer兩個(gè)模型融合而來,可支持一鍵生成長(zhǎng)達(dá)16秒的高清視頻內(nèi)容。
除了在時(shí)長(zhǎng)方面優(yōu)勢(shì)突出,Vidu在視頻效果方面也實(shí)現(xiàn)顯著提升。朱軍介紹,Vidu能模擬真實(shí)物理世界,生成的視頻不但場(chǎng)景細(xì)節(jié)復(fù)雜,而且符合物理規(guī)律,例如合理的光影效果、細(xì)膩的人物表情等。Vidu還具有豐富的想象力,能生成真實(shí)世界不存在的虛構(gòu)畫面,創(chuàng)造出具有深度和復(fù)雜性的超現(xiàn)實(shí)主義內(nèi)容。此外,Vidu可理解多鏡頭語言,生成的視頻不再局限于簡(jiǎn)單的推、拉、移等固定鏡頭,而是圍繞同一主體實(shí)現(xiàn)遠(yuǎn)景、中景、近景、特寫等不同鏡頭的切換,甚至能直接生成長(zhǎng)鏡頭、追焦、轉(zhuǎn)場(chǎng)等效果,給視頻注入豐富的鏡頭表達(dá)。Vidu還獨(dú)具文化特色,能很好理解中國(guó)元素,生成熊貓、龍等中國(guó)元素的視頻。
值得一提的是,論壇上展示的視頻都是從頭到尾連續(xù)生成,沒有明顯的插幀現(xiàn)象。朱軍說,與Sora一樣,Vidu在文本到視頻的轉(zhuǎn)換過程中直接且連續(xù),而且在底層算法上,是由單一模型完全端到端生成,不涉及插幀和其他多步驟處理。
4月27日,在中關(guān)村論壇未來人工智能先鋒論壇上,清華大學(xué)聯(lián)合北京生數(shù)科技有限公司(以下簡(jiǎn)稱“生數(shù)科技”)正式發(fā)布中國(guó)首個(gè)原創(chuàng)全自研視頻大模型——Vidu。論壇現(xiàn)場(chǎng),清華大學(xué)教授、生數(shù)科技首席科學(xué)家朱軍向與會(huì)者展示了Vidu生成的視頻,包括行駛在崎嶇道路上的汽車、戴珍珠耳環(huán)的貓、彈吉他的熊貓等。與此前震撼業(yè)界的Sora一樣,Vidu能夠根據(jù)文本描述直接生成高質(zhì)量視頻。
“長(zhǎng)時(shí)長(zhǎng)、高一致性、高動(dòng)態(tài)性”是Vidu的顯著特征。朱軍表示,研發(fā)團(tuán)隊(duì)的核心技術(shù)在于采用U-ViT架構(gòu)。它由Diffusion與Transformer兩個(gè)模型融合而來,可支持一鍵生成長(zhǎng)達(dá)16秒的高清視頻內(nèi)容。
除了在時(shí)長(zhǎng)方面優(yōu)勢(shì)突出,Vidu在視頻效果方面也實(shí)現(xiàn)顯著提升。朱軍介紹,Vidu能模擬真實(shí)物理世界,生成的視頻不但場(chǎng)景細(xì)節(jié)復(fù)雜,而且符合物理規(guī)律,例如合理的光影效果、細(xì)膩的人物表情等。Vidu還具有豐富的想象力,能生成真實(shí)世界不存在的虛構(gòu)畫面,創(chuàng)造出具有深度和復(fù)雜性的超現(xiàn)實(shí)主義內(nèi)容。此外,Vidu可理解多鏡頭語言,生成的視頻不再局限于簡(jiǎn)單的推、拉、移等固定鏡頭,而是圍繞同一主體實(shí)現(xiàn)遠(yuǎn)景、中景、近景、特寫等不同鏡頭的切換,甚至能直接生成長(zhǎng)鏡頭、追焦、轉(zhuǎn)場(chǎng)等效果,給視頻注入豐富的鏡頭表達(dá)。Vidu還獨(dú)具文化特色,能很好理解中國(guó)元素,生成熊貓、龍等中國(guó)元素的視頻。
值得一提的是,論壇上展示的視頻都是從頭到尾連續(xù)生成,沒有明顯的插幀現(xiàn)象。朱軍說,與Sora一樣,Vidu在文本到視頻的轉(zhuǎn)換過程中直接且連續(xù),而且在底層算法上,是由單一模型完全端到端生成,不涉及插幀和其他多步驟處理。
本文鏈接:http://www.3ypm.com.cn/news-2-4595-0.html新大模型可根據(jù)文本生成高清視頻
聲明:本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅,請(qǐng)大家謹(jǐn)防詐騙!若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。
點(diǎn)擊右上角微信好友
朋友圈
點(diǎn)擊瀏覽器下方“”分享微信好友Safari瀏覽器請(qǐng)點(diǎn)擊“”按鈕
點(diǎn)擊右上角QQ
點(diǎn)擊瀏覽器下方“”分享QQ好友Safari瀏覽器請(qǐng)點(diǎn)擊“”按鈕