今年來,隨著算力的不斷增加和深度學(xué)習(xí)等技術(shù)的進(jìn)步,AI在內(nèi)容生產(chǎn)領(lǐng)域的應(yīng)用已經(jīng)不僅僅局限于圖片和文字。最近,內(nèi)容生成AI可以說正式進(jìn)入視頻時(shí)代,未來用描述性的文字直接生成腦海中的畫面將不再困難,人人都將能夠制作出電影級(jí)別的長短視頻。
當(dāng)看到下面這個(gè)“馬兒低頭喝水”的畫面時(shí),相信每個(gè)人都會(huì)認(rèn)為這是對(duì)一段事先拍攝好的視頻加上了動(dòng)漫化的濾鏡,但真實(shí)的情況卻是,這個(gè)視頻里的每一個(gè)像素全都是由AI來生成的,僅僅是對(duì)AI模型輸入了一句簡單“馬兒喝水”。
【資料圖】
據(jù)了解,該AI模型名為“Make-A-Video”,是由Meta AI的研究人員開發(fā)出來的,任意給模型輸入幾個(gè)單詞或幾行文字,就能生成符合語義的但在現(xiàn)實(shí)中卻并不存在的視頻畫面,而且風(fēng)格還可以多元化。
例如,將一些英文短句輸入模型之后,生成的視頻也都讓人嘆為觀止:
不得不說,現(xiàn)在人工智能的發(fā)展真的是日新月異,每隔一段時(shí)間就會(huì)給人不同的驚喜。
從圖像到視頻,生成模型功不可沒
最近幾年,人工智能在視覺領(lǐng)域的發(fā)展可謂是“神速”。去年1月,致力于“用通用人工智能造福全人類”的OpenAI公司基于GPT-3模型發(fā)布了劃時(shí)代的 DALL·E,實(shí)現(xiàn)了從文本生成圖像。
今年4月份,OpenAI發(fā)布的第二代DALL·E 2模型,再次為圖像生成領(lǐng)域樹立了全新標(biāo)桿,可以通過簡短的文本描述(prompt)來生成相應(yīng)的圖像,使得不會(huì)畫畫的人也可以將自己的想象力變?yōu)樗囆g(shù)創(chuàng)作,例如“羊駝打籃球”這句話生成的四張圖片看起來就非常符合大家預(yù)期的想象。
不僅如此,隨著文字描述的顆粒度不斷細(xì)化,生成的圖像也會(huì)越來越精準(zhǔn),效果在非專業(yè)人士看來已經(jīng)相當(dāng)震撼。
但DALL-E 2這樣的模型仍然停留在二維創(chuàng)作即圖片生成領(lǐng)域,無法生成360度無死角的3D模型。但這依舊難不住極具創(chuàng)意的算法研究員,Google Research的一項(xiàng)最新成果——DreamFusion模型,即可通過輸入簡單的文本提示生成3D模型,不僅能夠在不同的光照條件下進(jìn)行渲染,而且生成的3D模型還具有密度、顏色等特性,甚至可以把生成的多個(gè)3D模型融合到一個(gè)場景里。
在生成3D圖片之后,Meta的算法人員將思路進(jìn)一步打開,向更高難度發(fā)起挑戰(zhàn),開始探索用文字提示來直接生成視頻。
雖然本質(zhì)上來說,視頻就是一系列圖像的疊加,但相比于生成圖像,用文字來生成視頻時(shí)不僅需要生成相同場景下的多個(gè)幀,還要保證相鄰幀之間的連貫性,訓(xùn)練模型時(shí)可用的高質(zhì)量視頻數(shù)據(jù)非常少,但計(jì)算量卻很大,大大增加了視頻生成任務(wù)的復(fù)雜性。
9月29日,來自Meta的研究人員發(fā)布了Make-A-Video,這是一個(gè)基于人工智能的高質(zhì)量短視頻生成模型,相當(dāng)于視頻版的DALL·E,也被戲稱為“用嘴做視頻”,即可以通過文本提示創(chuàng)建新的視頻內(nèi)容,其背后使用的關(guān)鍵技術(shù)也同樣來自DALL-E等圖像生成器所使用的文本-圖像合成技術(shù)。
僅1周之后,谷歌CEO皮查伊就接連官宣了兩個(gè)模型來正面挑戰(zhàn)Meta的Make-A-Video,分別是Imagen Video與Phenaki。
與Make-A-Video相比,Imagen Video更加突出視頻的高清特性,能生成1280*768分辨率、每秒24幀的視頻片段,還能理解并生成不同藝術(shù)風(fēng)格的作品;理解物體的3D結(jié)構(gòu),在旋轉(zhuǎn)展示中不會(huì)變形;甚至還繼承了Imagen準(zhǔn)確描繪文字的能力,在此基礎(chǔ)上僅靠簡單描述產(chǎn)生各種創(chuàng)意動(dòng)畫。
而Phenaki則能根據(jù)200個(gè)詞左右的提示語生成2分鐘以上的較低分辨率長鏡頭,講述一個(gè)相對(duì)完整的故事。
在計(jì)算機(jī)視覺領(lǐng)域中,文本生成圖像或視頻用到最多的就是生成模型,生成模型也在最近的文本到圖像 AI 系統(tǒng)中取得了重大進(jìn)展,比如 DALL-E 2、Imagen、Parti、CogView 和 Latent Diffusion等。這些新模型和算法的基本思路都來自于早期最出名的GAN(生成對(duì)抗網(wǎng)絡(luò)),即通過生成器和辨別器之間的相互對(duì)抗來生成圖像。但由于模型本身具有對(duì)抗性,因此很難進(jìn)行訓(xùn)練,而利用擴(kuò)散模型則可以解決這個(gè)問題,這也是今年最火的模型之一。
擴(kuò)散模型也是生成模型的一種,其背后的直覺和原理來源于物理學(xué):氣體分子從高密度區(qū)域擴(kuò)散到低密度區(qū)域的現(xiàn)象與由于噪聲干擾而導(dǎo)致信息丟失的現(xiàn)象相似。所以通過引入噪聲導(dǎo)致信息的衰減,再嘗試通過去噪來生成圖像,就能通過多次迭代,使得模型每次都在給定一些噪聲輸入的情況下學(xué)習(xí)生成新圖像。如今,擴(kuò)散模型在密度估計(jì)、文本到語音、圖像到圖像、文本到圖像和 3D 合成等多種生成式建模任務(wù)中都取得了巨大成功。
短視頻創(chuàng)作者可暫時(shí)“松一口氣”
自人工智能得以真正發(fā)展以來,每當(dāng)有了令人驚嘆的新進(jìn)展后都會(huì)有相同的一個(gè)問題出現(xiàn),即AI到底會(huì)不會(huì)取代人類,由擴(kuò)散模型帶火的文字生成視頻也不例外。
對(duì)于這個(gè)問題,Stability AI的新任首席信息官Daniel Jeffries曾經(jīng)表示,AI最終會(huì)帶來更多的工作崗位,就像相機(jī)的發(fā)明雖然取代了大部分畫家,但也創(chuàng)造了攝影師這一職業(yè),同時(shí)還開辟了電影、電視這樣更大規(guī)模的全新產(chǎn)業(yè)。
雖然對(duì)于普通用戶等非專業(yè)人士來說,當(dāng)前AI生成的視頻效果已經(jīng)足夠驚艷,但相信真正的業(yè)內(nèi)人士能夠一眼看出AI還是缺乏對(duì)每一個(gè)鏡頭的精細(xì)控制,也沒有任何真正的思考注入到視頻的內(nèi)容當(dāng)中,對(duì)于AI取代視頻創(chuàng)作者的擔(dān)憂恐怕為時(shí)過早。
不過,這些AI技術(shù)對(duì)于工作的輔助作用有立竿見影的效果。如對(duì)于媒體行業(yè)來說,常常有“一圖勝千言”的情況發(fā)生,很多時(shí)候?qū)懞昧说奈淖?,總差一張恰到好處的配圖來畫龍點(diǎn)睛。
此外,如果不能恰當(dāng)?shù)匾脠D片并標(biāo)注來源,還會(huì)造成一定的法律風(fēng)險(xiǎn),當(dāng)有了AI輔助生成圖片或視頻內(nèi)容之后,雖然可以規(guī)避類似問題,但新的問題也接踵而來。
AI總在鉆各種法律的空子
2019年時(shí),一款名為“ZAO”的AI換臉軟件曾經(jīng)火爆全網(wǎng),用戶只需要在APP中上傳一張照片,就能將自己的臉替換成任何想要替換的人,并且人臉融合效果非常好,達(dá)到了以假亂真的程度。不過,盡管該軟件很有趣,并且將技術(shù)門檻降到最低,但很快也遭到了用戶的抵制,因?yàn)樵撥浖@取的個(gè)人信息并無法保障其安全性,這很有可能讓不法分子鉆了空子。
同樣,在AI生成視頻領(lǐng)域,這樣的惡意創(chuàng)作依舊不可避免,出于安全和倫理的考慮,谷歌表示暫時(shí)不會(huì)發(fā)布兩個(gè)視頻生成模型的代碼或Demo。Meta也承認(rèn),按需制作真實(shí)感視頻的能力存在一定的社會(huì)危害,因此將所有由AI生成的視頻內(nèi)容都加上了水印,以“確保觀眾知道這段視頻是由人工智能生成的,而不是捕捉到的視頻?!?/p>
通常情況下,傳統(tǒng)理論認(rèn)為,作為智力活動(dòng)的創(chuàng)作只能由人類的思維活動(dòng)來實(shí)現(xiàn),即作品是自然人思想觀念的表達(dá)。但在人工智能時(shí)代,這一理論將會(huì)受到重大挑戰(zhàn),人們也需要重新思考與之相關(guān)的新標(biāo)準(zhǔn)、新道德、新法規(guī)。
參考資料:
1.《真·拿嘴做視頻!Meta「AI導(dǎo)演」一句話搞定視頻素材,網(wǎng)友:我已跟不上AI發(fā)展速度》,量子位
2.《谷歌AI生成視頻兩連發(fā):720p高清+長鏡頭,網(wǎng)友:對(duì)短視頻行業(yè)沖擊太大》,量子位
3.《圖像生成卷膩了,谷歌全面轉(zhuǎn)向文字→視頻生成,兩大利器同時(shí)挑戰(zhàn)分辨率和長度》,機(jī)器之心
- 世界消息!“用嘴做視頻”已經(jīng)成真,AI讓短視頻創(chuàng)作者驚呼飯碗不保
- 全球資訊:Operator VC與Investor VC:誰是更好的VC
- 【世界聚看點(diǎn)】大小盤風(fēng)格切換時(shí),一個(gè)有意思的流動(dòng)性現(xiàn)象
- 【新視野】深圳江門高鐵正式開工建設(shè)
- 全球今日訊!康緣藥業(yè)上機(jī)數(shù)控公布三季報(bào) 雙雙報(bào)喜
- 今日精選:三季度港股掀起回購潮南下資金連續(xù)10個(gè)月凈流入
- 世界信息:颶風(fēng)“朱麗葉”已在委內(nèi)瑞拉造成22人死亡
- 【當(dāng)前熱聞】德國舉辦2022柏林燈光節(jié)
- 環(huán)球快消息!融創(chuàng)中國前9個(gè)月銷售額1433億元 仍在商討債務(wù)重組方案
- 環(huán)球今亮點(diǎn)!新國標(biāo)擬規(guī)范預(yù)裝App:不可卸載App宜提供停止使用選項(xiàng)
- 天天通訊!涉商業(yè)詆毀糾紛騰訊被判賠償沐瞳科技22萬 后者去年被字節(jié)收購
- 環(huán)球滾動(dòng):今年全球外匯儲(chǔ)備縮水1萬億美元 流動(dòng)性問題再加碼
- 天天報(bào)道:貴州省“十四五”節(jié)能減排綜合工作方案印發(fā) 到2025年全省單位地區(qū)生產(chǎn)總值能耗比2020年下降13%
- 通訊!國家發(fā)改委:近日將投放今年第五批中央豬肉儲(chǔ)備
- 全球熱議:樓市“國慶檔”成績亮眼 長沙內(nèi)五區(qū)商品住宅網(wǎng)簽成交面積同比上漲16.19%
- 全球最資訊丨延續(xù)5月以來加快增長趨勢 湖南工業(yè)生產(chǎn)持續(xù)向好
- 焦點(diǎn)消息!秋高氣爽好出行 早晚添衣防感冒
- 天天消息!百大集團(tuán):花樣年就杭州項(xiàng)目上訴被駁回 尚有本金481萬元未收回
- 每日看點(diǎn)!1-8月寧德時(shí)代電池全球裝車量突破100GWh超去年全年
- 天天動(dòng)態(tài):華潤三九:擬參股熠保科技 布局惠民保賽道
- 北京抽檢月餅全部合格 涉及全國各地61家食品生產(chǎn)
- 富陽電動(dòng)自行車監(jiān)管實(shí)現(xiàn)“雙百” 電動(dòng)自行車全鏈條
- 淮北黨建促融合引導(dǎo)外賣送餐行業(yè)發(fā)展 壓實(shí)網(wǎng)絡(luò)餐
- 安徽聯(lián)合整治網(wǎng)絡(luò)市場突出問題 規(guī)范競爭秩序
- 福建四部門聯(lián)合發(fā)文守護(hù)秋季學(xué)校食品安全 嚴(yán)厲打
- 黑龍江:“你點(diǎn)我檢”進(jìn)超市 為消除廣大消費(fèi)者對(duì)
- 上海中秋假期投訴舉報(bào)情況顯示:一般食品、化妝品等
- 遼寧阜新:試點(diǎn)“市場監(jiān)管網(wǎng)格化” 推進(jìn)全員下沉參
- “土榨油”真的就那么好嗎?食用“土榨油”要持謹(jǐn)慎
- 街頭維修廣告騙局多 消費(fèi)者切勿被“李鬼”蒙蔽要
- 1 世界消息!“用嘴做視頻”已經(jīng)成真,AI讓短視頻創(chuàng)作
- 2 全球資訊:Operator VC與Investor VC:誰是更好的VC
- 3 【世界聚看點(diǎn)】大小盤風(fēng)格切換時(shí),一個(gè)有意思的流動(dòng)
- 4 【新視野】深圳江門高鐵正式開工建設(shè)
- 5 全球今日訊!康緣藥業(yè)上機(jī)數(shù)控公布三季報(bào) 雙雙報(bào)喜
- 6 今日精選:三季度港股掀起回購潮南下資金連續(xù)10個(gè)月
- 7 世界信息:颶風(fēng)“朱麗葉”已在委內(nèi)瑞拉造成22人死亡
- 8 【當(dāng)前熱聞】德國舉辦2022柏林燈光節(jié)
- 9 環(huán)球快消息!融創(chuàng)中國前9個(gè)月銷售額1433億元 仍在
- 10 環(huán)球今亮點(diǎn)!新國標(biāo)擬規(guī)范預(yù)裝App:不可卸載App宜提