9月24日,字節(jié)跳動旗下火山引擎在深圳舉辦AI創(chuàng)新巡展,現(xiàn)場發(fā)布豆包視頻生成-PixelDance、豆包視頻生成-Seaweed兩款大模型,同時面向企業(yè)市場" />
視頻生成大模型領(lǐng)域迎來重要玩家。
9月24日,字節(jié)跳動旗下火山引擎在深圳舉辦AI創(chuàng)新巡展,現(xiàn)場發(fā)布豆包視頻生成-PixelDance、豆包視頻生成-Seaweed兩款大模型,同時面向企業(yè)市場開啟邀測。
對于視頻生成大模型而言,生成視頻的時長十分重要。目前,PixelDanc視頻生成時長為5秒或10秒,Seaweed為5秒?;鹕揭婵偛米T待對時代周報等媒體表示:“視頻生成有很多難關(guān)亟待突破?;鹕揭娴膬?yōu)勢包含指令遵循能力、運(yùn)鏡(多鏡頭下主體一致性)等,背后有技術(shù)突破和全棧能力等優(yōu)勢。此外,抖音、剪映對視頻的理解也是優(yōu)勢?!?span style="display:none">dkZ即熱新聞——關(guān)注每天科技社會生活新變化gihot.com
譚待認(rèn)為,視頻生成大模型不應(yīng)只討論時長,要考慮應(yīng)用場景,不同場景對時長要求不同,火山更關(guān)注針對不同行業(yè)的解決方案?!?span style="display:none">dkZ即熱新聞——關(guān)注每天科技社會生活新變化gihot.com
值得注意的是,新款豆包視頻生成模型正在即夢AI小范圍內(nèi)測,未來將逐步開放給所有用戶。
今年2月,抖音集團(tuán)原CEO張楠突然宣布轉(zhuǎn)戰(zhàn)剪映,要在剪映推動AI應(yīng)用。宣布負(fù)責(zé)剪映僅一周后,2月16日,OpenAI推出可生成1分鐘視頻的Sora,讓文生視頻功能再次火爆全球。與此同時,張楠作為剪映業(yè)務(wù)負(fù)責(zé)人在朋友圈宣布即夢上線,即夢也成為張楠調(diào)任后第一次重要的產(chǎn)品更新。
在AI創(chuàng)新巡展上,剪映和即夢AI市場負(fù)責(zé)人陳欣然介紹了兩款A(yù)PP“AI化”的最新情況。她表示,過去制作類似質(zhì)量內(nèi)容需要5-10人團(tuán)隊,包括制作故事線、打磨特效、包裝剪輯等,協(xié)作流程復(fù)雜,制作周期長達(dá)1-2個月,還需大量金錢和資源投入。但在AI幫助下,大部分創(chuàng)作者一人就能完成創(chuàng)作,制作時長也縮減至1-2周。
譚待也在演講中提到:“視頻生成有很多難關(guān)亟待突破。豆包兩款模型會持續(xù)演進(jìn),在解決關(guān)鍵問題上探索更多可能性,加速拓展AI視頻的創(chuàng)作空間和應(yīng)用落地?!?span style="display:none">dkZ即熱新聞——關(guān)注每天科技社會生活新變化gihot.com
無論如何,豆包視頻生成大模型誕生并在即夢和剪映中使用,意味著字節(jié)跳動在用AI卷起視頻“老本行”的道路上往前更近了一步。
圖源:時代周報記者現(xiàn)場攝
可自由切換鏡頭
據(jù)火山引擎現(xiàn)場介紹,豆包大模型的使用量在急速增長。
截至9月,豆包語言模型的日均tokens使用量超過1.3萬億,相比5月首發(fā)時增長十倍,多模態(tài)數(shù)據(jù)處理量也分別達(dá)到每天5000萬張圖片和85萬小時語音。
在龐大的用戶使用量下,豆包大模型再次帶來新變化。不僅新增視頻生成模型,還發(fā)布了豆包音樂模型和同聲傳譯模型,已全面覆蓋語言、語音、圖像、視頻等全模態(tài)。
此前,視頻生成模型大多只能完成簡單指令,豆包視頻生成模型則能實現(xiàn)自然連貫的多拍動作與多主體復(fù)雜交互——不僅能夠遵循復(fù)雜指令,讓不同人物完成多個動作指令的互動,人物樣貌、服裝細(xì)節(jié)甚至頭飾在不同運(yùn)鏡下也保持一致,接近實拍效果。
豆包視頻生成模型基于DiT架構(gòu),通過高效的DiT融合計算單元,讓視頻在大動態(tài)與運(yùn)鏡中自由切換,擁有變焦、環(huán)繞、平搖、縮放、目標(biāo)跟隨等多鏡頭語言能力?!斑@意味著豆包生成的視頻攻克了多景別切換的一致性難題,在鏡頭切換時可同時保持主體、風(fēng)格、氛圍的一致性,這也是豆包視頻生成模型獨樹一幟的技術(shù)創(chuàng)新。”譚待表示。
關(guān)于模型未來的方向,譚待表示火山引擎更關(guān)注基于現(xiàn)有模型更好地落地和加速創(chuàng)新,“技術(shù)要滿足用戶需求,新老技術(shù)要不斷調(diào)整適配。大模型的成熟標(biāo)準(zhǔn)是孵化后用戶體驗過且有一定體量的真實且較好的反饋,而不是實驗室里的反饋。比如即夢、豆包都有大量內(nèi)測,用戶反饋是重要評測標(biāo)準(zhǔn)?!?span style="display:none">dkZ即熱新聞——關(guān)注每天科技社會生活新變化gihot.com
此前,豆包大模型定下低于行業(yè)99%的token定價,率先卷起降價潮的火山引擎。目前,豆包視頻大模型的使用定價尚未公布。譚待對時代周報等媒體表示,視頻模型和語言模型應(yīng)用場景不同,定價邏輯也不同,要考慮“新體驗-老體驗-遷移成本”,最終能否廣泛應(yīng)用取決于比以前的生產(chǎn)力ROI提升多少。
圖源:即夢官網(wǎng)
探索AI原生產(chǎn)品
此前,即夢的普通用戶已可以生成3秒的AI短視頻,VIP用戶則可以延長3秒。
今年3月開始,剪映密集更新AI功能,如智能字幕、視頻翻譯等功能。并且還與抖音打通,對使用剪映AI功能的短視頻進(jìn)行流量和現(xiàn)金獎勵扶持,例如優(yōu)秀作品可獲得DOU+500元/條的流量扶持。當(dāng)前,剪映的VIP會員定價為1年218元,平均每月18.17元,即夢的VIP會員月費則為69元。
在AI創(chuàng)新巡展上,陳欣然提到“已將豆包大模型的相關(guān)技術(shù)應(yīng)用在剪映、即夢AI和醒圖”,并介紹了AI技術(shù)應(yīng)用下的新功能。
如數(shù)字分身應(yīng)用,可基于音色克隆技術(shù)在剪映上線定制數(shù)字人音色克隆功能。制作數(shù)字人只需錄制或上傳一段3分鐘的高清正面視頻,音色克隆只需5秒聲音輸入,就能生成自然流暢、毫無違和感的聲音,還能做各種語言的翻譯?!拔覀兒荜P(guān)注隱私和安全問題,在產(chǎn)品設(shè)計和技術(shù)層面要求用戶本人確認(rèn),也會關(guān)注行業(yè)新規(guī),提升服務(wù)安全性和可靠性?!标愋廊徽f道。
此外,還有針對電商商家的“內(nèi)容營銷”創(chuàng)作神器。過去,商家可能要花幾個小時刷抖音和TikTok分析爆款帶貨視頻套路,拆解套路、仿寫文案,還要花幾個小時剪輯,現(xiàn)在只需幾分鐘,只要填寫商品名、上傳素材或者粘貼商品頁鏈接,就能一鍵生成多個不同風(fēng)格的帶貨視頻。
陳欣然特別提到,除了在已有產(chǎn)品上應(yīng)用AI,剪映也在探索GenA(生成式人工智能)I時代下AI native(AI原生)產(chǎn)品的可能性,“即夢ai就是這個方向的探索產(chǎn)品,目前正在接入兩款視頻生成大模型,進(jìn)行內(nèi)測的場景打磨和效果打磨。我們認(rèn)為,創(chuàng)作不應(yīng)受制作成本、風(fēng)格或者文化背景的限制,它應(yīng)該是有趣的、快樂的、自由的?!?span style="display:none">dkZ即熱新聞——關(guān)注每天科技社會生活新變化gihot.com
譚待也表示,大模型的應(yīng)用成本已經(jīng)得到很好解決,“大模型要從卷價格走向卷性能,卷更好的模型能力和服務(wù)?!?span style="display:none">dkZ即熱新聞——關(guān)注每天科技社會生活新變化gihot.com
本文鏈接:http://www.3ypm.com.cn/news-2-47781-0.html字節(jié)用AI卷起老本行:進(jìn)軍視頻生成大模型,可自由切換鏡頭、接近實拍效果
聲明:本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點,本站不承擔(dān)任何法律責(zé)任。天上不會到餡餅,請大家謹(jǐn)防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。
點擊右上角微信好友
朋友圈
點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“”按鈕
點擊右上角QQ
點擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點擊“”按鈕