“在AIGC的路上,我們可以說是一路狂奔。”近日,智象未來(HiDream.ai)的創(chuàng)始人梅濤(CEO)表示,作為國內(nèi)一家專注于構建視覺多模態(tài)基礎模型及應用的生成式人工智能初創(chuàng)公司,其自主研發(fā)的“智象視覺大模型”是目前全球同時支持圖像和視頻生成的最大模型。模型參數(shù)已超過130 億,可實現(xiàn)文本、圖片、視頻等多模態(tài)內(nèi)容的生成。
2024年第一季度,智象未來計劃推出重大迭代的圖像基礎模型。這一技術也將持續(xù)賦能視頻生成領域,原有視頻基礎模型預計在3月底實現(xiàn)大幅升級。新一版模型將在文本與視頻的一致性、生成時長和視頻連貫性等方面有顯著進步,用戶可享受到更加絲滑、順暢的視頻生成體驗。
深耕于視頻生成領域,智象未來將聚焦四大關鍵要素——視覺故事性、內(nèi)容確定性、超高清畫質(zhì)(4K/8K)以及全局和局部可控性,并已在實際產(chǎn)品中實現(xiàn)4K高清畫面、全局和局部的可控、劇本多鏡頭視頻生成等功能。
其中,Pixeling 千象是智象未來打造的自主可控生成式AIGC創(chuàng)作平臺和社區(qū),其小程序“千象萬相”集圖片生成、視頻生成、圖片編輯(智能重繪、智能拓圖、圖片增強)等功能于一體。即使是零基礎的用戶,也能運用AIGC一站式滿足需求,讓天馬行空的想象觸手可及,讓創(chuàng)作更加高效而強大。
E象則是專為電商賣家打造的AI制圖工具。無需策劃方案、道具采購、美工置景、布景拍攝、后期加工等流程及費用,商家只需上傳一張商品圖或真人試穿圖,即可一鍵生成大量真實場景商品圖,還原服飾的真實上身效果,助力賣家降本增效,打造爆款。
此外,智象未來團隊在文生視頻領域獨辟蹊徑,開辟更精細、穩(wěn)定、品質(zhì)卓越的創(chuàng)新之路——不直接從文本向視頻轉(zhuǎn)換,而是從文本先向圖片轉(zhuǎn)換,生成關鍵幀,再拓展為多鏡頭的完整視頻。
“逐幀生成的方法不僅能夠提高視頻生成的穩(wěn)定性、細節(jié)處理和美感,還為視頻生成的時長拓展提供了可能性。”梅濤介紹。
收到一條文本或指令后,大語言模型會基于對文本的理解,自動生成分鏡頭腳本,再通過“文生圖”功能,創(chuàng)造性地生成分鏡頭腳本所描繪的畫面,從細膩紋理到光影流轉(zhuǎn),每一幅畫面都精雕細琢。然后,將多個畫面逐幀拼接,轉(zhuǎn)換為多段單一鏡頭的視頻。最終,將這些視頻剪輯形成15秒甚至更長時間的多鏡頭視頻。
目前,智象未來已經(jīng)完成圖像Diffusion Transformer 架構 130 億參數(shù)規(guī)模的訓練,擁有如此大規(guī)模的訓練數(shù)據(jù)集,使模型具備強大的語言理解和視覺推理能力。
“在AIGC的路上,我們可以說是一路狂奔。”近日,智象未來(HiDream.ai)的創(chuàng)始人梅濤(CEO)表示,作為國內(nèi)一家專注于構建視覺多模態(tài)基礎模型及應用的生成式人工智能初創(chuàng)公司,其自主研發(fā)的“智象視覺大模型”是目前全球同時支持圖像和視頻生成的最大模型。模型參數(shù)已超過130 億,可實現(xiàn)文本、圖片、視頻等多模態(tài)內(nèi)容的生成。
2024年第一季度,智象未來計劃推出重大迭代的圖像基礎模型。這一技術也將持續(xù)賦能視頻生成領域,原有視頻基礎模型預計在3月底實現(xiàn)大幅升級。新一版模型將在文本與視頻的一致性、生成時長和視頻連貫性等方面有顯著進步,用戶可享受到更加絲滑、順暢的視頻生成體驗。
深耕于視頻生成領域,智象未來將聚焦四大關鍵要素——視覺故事性、內(nèi)容確定性、超高清畫質(zhì)(4K/8K)以及全局和局部可控性,并已在實際產(chǎn)品中實現(xiàn)4K高清畫面、全局和局部的可控、劇本多鏡頭視頻生成等功能。
其中,Pixeling 千象是智象未來打造的自主可控生成式AIGC創(chuàng)作平臺和社區(qū),其小程序“千象萬相”集圖片生成、視頻生成、圖片編輯(智能重繪、智能拓圖、圖片增強)等功能于一體。即使是零基礎的用戶,也能運用AIGC一站式滿足需求,讓天馬行空的想象觸手可及,讓創(chuàng)作更加高效而強大。
E象則是專為電商賣家打造的AI制圖工具。無需策劃方案、道具采購、美工置景、布景拍攝、后期加工等流程及費用,商家只需上傳一張商品圖或真人試穿圖,即可一鍵生成大量真實場景商品圖,還原服飾的真實上身效果,助力賣家降本增效,打造爆款。
此外,智象未來團隊在文生視頻領域獨辟蹊徑,開辟更精細、穩(wěn)定、品質(zhì)卓越的創(chuàng)新之路——不直接從文本向視頻轉(zhuǎn)換,而是從文本先向圖片轉(zhuǎn)換,生成關鍵幀,再拓展為多鏡頭的完整視頻。
“逐幀生成的方法不僅能夠提高視頻生成的穩(wěn)定性、細節(jié)處理和美感,還為視頻生成的時長拓展提供了可能性。”梅濤介紹。
收到一條文本或指令后,大語言模型會基于對文本的理解,自動生成分鏡頭腳本,再通過“文生圖”功能,創(chuàng)造性地生成分鏡頭腳本所描繪的畫面,從細膩紋理到光影流轉(zhuǎn),每一幅畫面都精雕細琢。然后,將多個畫面逐幀拼接,轉(zhuǎn)換為多段單一鏡頭的視頻。最終,將這些視頻剪輯形成15秒甚至更長時間的多鏡頭視頻。
目前,智象未來已經(jīng)完成圖像Diffusion Transformer 架構 130 億參數(shù)規(guī)模的訓練,擁有如此大規(guī)模的訓練數(shù)據(jù)集,使模型具備強大的語言理解和視覺推理能力。
本文鏈接:http://www.3ypm.com.cn/news-2-2357-0.html中國自研“智象視覺大模型” 將生命力注入你的故事
聲明:本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。
上一篇:膨潤土固沙和生態(tài)治理新技術研發(fā)成功
下一篇:阿里電商殺了個“回馬槍”
點擊右上角微信好友
朋友圈
點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“”按鈕
點擊右上角QQ
點擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點擊“”按鈕