作者為美國麻省理工學(xué)院的Rachel Gordon
美國麻省理工學(xué)院博士生Yilun Du一直致力于將穩(wěn)定擴(kuò)散模型(生成藝術(shù)的技術(shù)支柱)擴(kuò)展到機器人等其他領(lǐng)域。
人工智能圖像生成器,在夢想和現(xiàn)實的交匯處創(chuàng)造出奇幻的景象,在網(wǎng)絡(luò)的每個角落涌現(xiàn)。它們的娛樂價值體現(xiàn)在不斷擴(kuò)大的異想天開和隨機圖像的寶庫中,作為人類設(shè)計師大腦的間接門戶。一個簡單的文字提示就能產(chǎn)生一個幾乎即時的圖像,滿足了我們的原始大腦,它是硬性規(guī)定的即時滿足。
雖然看起來是新生事物,但人工智能生成的藝術(shù)領(lǐng)域最早可以追溯到20世紀(jì)60年代,早期嘗試使用基于符號規(guī)則的方法來制作技術(shù)圖像。雖然解讀和解析文字的模型進(jìn)展越來越成熟,但生成藝術(shù)的爆發(fā)引發(fā)了圍繞版權(quán)、虛假信息和偏見的辯論,這些都陷入了炒作和爭議之中。
電子工程和計算機科學(xué)系的博士生、,美國麻省理工學(xué)院計算機科學(xué)和人工智能實驗室(CSAIL)的附屬機構(gòu)Yilun Du最近開發(fā)了一種新方法,使像《DALL-E 2》這樣的模型更具創(chuàng)造性,并有更好的場景理解。在這里,Du描述了這些模型是如何工作的,這種技術(shù)基礎(chǔ)設(shè)施是否可以應(yīng)用于其他領(lǐng)域,以及我們?nèi)绾卧谌斯ぶ悄芎腿祟悇?chuàng)造力之間劃清界限。
問:人工智能生成的圖像使用一種叫做 "穩(wěn)定擴(kuò)散 "的模型,在短短幾秒鐘內(nèi)將文字變成令人震驚的圖像。但每張圖片的背后通常都有一個人。那么,人工智能和人類創(chuàng)造力之間的界限是什么?這些模型到底是如何工作的?
答:想象一下你在谷歌搜索上能得到的所有圖片以及它們的相關(guān)模式。這就是這些模型的食物。它們在所有這些圖片和它們的標(biāo)題上接受訓(xùn)練,以生成與它在互聯(lián)網(wǎng)上看到的數(shù)十億張圖片相似的圖片。
比方說,一個模型已經(jīng)看到了很多狗的照片。它經(jīng)過訓(xùn)練,所以當(dāng)它得到類似 "狗 "這樣的文字輸入提示時,它能夠生成一張看起來與已經(jīng)看到的許多狗的照片非常相似的照片?,F(xiàn)在,從方法論上講,這一切的工作可以追溯到非常古老的一類模型,稱為 "基于能量的模型",起源于70年代或80年代。
在基于能量的模型中,在圖像上構(gòu)建了一個能量景觀,用來模擬物理耗散以生成圖像。當(dāng)你把一個墨水點滴到水中,它消散了,例如,在最后,你只是得到這種均勻的紋理。但如果你試圖扭轉(zhuǎn)這個消散的過程,你又會逐漸得到水里原來的墨點。
或者說,你有這個非常復(fù)雜的積木塔,如果你用球砸它,它就會坍塌成一堆積木。這堆積木就非常無序了,而且沒有什么結(jié)構(gòu)。為了使塔復(fù)活,你可以嘗試逆轉(zhuǎn)這個折疊過程,生成你原來的那堆積木。
這些生成模型生成圖像的方式非常類似,最初,你有這個非常好的圖像,你從這個隨機的噪聲開始,你基本上學(xué)會了如何模擬這個從噪聲回到你的原始圖像的過程,你試圖迭代地完善這個圖像,使它越來越真實。
就人工智能和人類創(chuàng)造力之間的界限而言,你可以說,這些模型確實是在人們的創(chuàng)造力上訓(xùn)練出來的。互聯(lián)網(wǎng)上有各種類型的繪畫和圖像,都是人們過去已經(jīng)創(chuàng)造過的。這些模型被訓(xùn)練來復(fù)述和生成互聯(lián)網(wǎng)上已經(jīng)出現(xiàn)的圖像。因此,這些模型更像是人們幾百年來花費創(chuàng)造力的結(jié)晶。
同時,由于這些模型是根據(jù)人類所設(shè)計的東西進(jìn)行訓(xùn)練的,它們可以生成與人類過去所做的非常相似的藝術(shù)作品。他們可以在人們所做的藝術(shù)中找到模式,但這些模型要真正自己生成有創(chuàng)意的照片就難多了。
如果你試圖輸入 "抽象藝術(shù) "或 "獨特藝術(shù) "之類的提示,它并不能真正理解人類藝術(shù)的創(chuàng)造力方面??梢哉f,這些模型是在復(fù)述人們過去所做的事情,而不是從根本上產(chǎn)生新的和創(chuàng)造性的藝術(shù)。
由于這些模型是在互聯(lián)網(wǎng)上的大量圖片上訓(xùn)練出來的,這些圖片中很多都可能是有版權(quán)的。你并不確切知道模型在生成新圖像時檢索了什么,所以有一個很大的問題是,你甚至可以確定模型是否在使用受版權(quán)保護(hù)的圖像。如果該模型在某種意義上依賴于一些受版權(quán)保護(hù)的圖像,那么這些新圖像是否受版權(quán)保護(hù)?這是另一個需要解決的問題。
美國麻省理工學(xué)院學(xué)生解釋 AI 圖像生成器解釋 AI 圖像生成器
問:你是否認(rèn)為由擴(kuò)散模型生成的圖像編碼了對自然或物理世界的某種理解,無論是動態(tài)的還是幾何的?是否有努力 "教導(dǎo) "圖像生成器了解嬰兒很早就學(xué)會的宇宙的基本知識?
答:在代碼中,他們是否理解了對自然和物理世界的一些把握?我想肯定是的。如果你要求一個模型生成一個穩(wěn)定的塊狀配置,它肯定會生成一個穩(wěn)定的塊狀配置。如果你告訴它,生成一個不穩(wěn)定的塊狀配置,它確實看起來非常不穩(wěn)定?;蛘撸绻阏f "湖邊的一棵樹",它大致上能夠生成。
從某種意義上說,似乎這些模型已經(jīng)抓住了常識的很大一個方面。但是,使我們離真正理解自然和物理世界仍然非常遙遠(yuǎn)的問題是,當(dāng)你試圖生成你或我在工作中我們的頭腦可以非常容易地想象的不經(jīng)常出現(xiàn)的詞語組合時,這些模型不能。
例如,如果你說,"把叉子放在盤子上面",這種情況一直在發(fā)生。如果你要求模型產(chǎn)生這個,它很容易就能做到。如果你說,"把盤子放在叉子上面",同樣,我們很容易想象這將是什么樣子的。但是,如果你把它放到任何這些大型模型中,你永遠(yuǎn)不會得到一個放在叉子上面的盤子。相反,你會得到一個盤子上面的叉子,因為這些模型正在學(xué)習(xí)重述它所訓(xùn)練的所有圖像。它不能很好地歸納出它沒有見過的詞語的組合。
一個相當(dāng)知名的例子是宇航員騎著馬,模型可以輕松做到這一點。但是如果你說一匹馬騎著一個宇航員,它仍然會生成一個人騎著一匹馬??雌饋磉@些模型在它們所訓(xùn)練的數(shù)據(jù)集中捕捉到了很多相關(guān)性,但它們實際上并沒有捕捉到世界的基本因果機制。
另一個常用的例子是,如果你得到非常復(fù)雜的文本描述,比如一個物體在另一個物體的右邊,第三個物體在前面,還有第三個或第四個物體在飛。它真的只能滿足也許是其中的一個或兩個物體。這可能部分是由于訓(xùn)練數(shù)據(jù)的原因,因為很少有非常復(fù)雜的標(biāo)題 但它也可能表明,這些模型不是很有結(jié)構(gòu)。
你可以想象,如果你得到非常復(fù)雜的自然語言提示,模型沒有辦法準(zhǔn)確地表示所有的組成部分的細(xì)節(jié)。
問:你最近提出了一種新的方法,使用多個模型來創(chuàng)造更復(fù)雜的圖像,對生成藝術(shù)有更好的理解。這個框架在圖像或文本領(lǐng)域之外是否有潛在的應(yīng)用?
答:我們真正受到了這些模型的一個限制的啟發(fā)。當(dāng)你給這些模型非常復(fù)雜的場景描述時,它們實際上并不能正確地生成與之匹配的圖像。
一個想法是,由于它是一個具有固定計算圖的單一模型,意味著你只能使用固定的計算量來生成圖像,如果你得到一個極其復(fù)雜的提示,你就沒有辦法使用更多的計算能力來生成這個圖像。
如果我給人類一個場景的描述,比如說,100行,和一個只有一行的場景,人類藝術(shù)家可以在前者上花費更多的時間。這些模型并沒有真正的感性來做到這一點。那么,我們建議,給定非常復(fù)雜的提示,你實際上可以把許多不同的獨立模型組成在一起,讓每個單獨的模型代表你想要描述的場景的一部分。
我們發(fā)現(xiàn),這使我們的模型能夠生成更復(fù)雜的場景,或者更準(zhǔn)確地一起生成場景的不同方面。此外,這種方法可以普遍應(yīng)用于各種不同的領(lǐng)域。雖然圖像生成可能是目前最成功的應(yīng)用,但生成式模型實際上已經(jīng)在各種領(lǐng)域中看到了各種類型的應(yīng)用。
你可以用它們來生成不同的不同的機器人行為,合成3D形狀,使人們更好地理解場景,或設(shè)計新材料。你可以潛在地組成多個所需的因素,以產(chǎn)生你在特定應(yīng)用中需要的確切材料。
我們一直非常感興趣的一件事是機器人技術(shù)。就像你可以生成不同的圖像一樣,你也可以生成不同的機器人軌跡(路徑和時間表),通過將不同的模型組合在一起,你能夠生成具有不同技能組合的軌跡。如果我有跳躍與避開障礙物的自然語言規(guī)范,你也可以將這些模型合成在一起,然后生成既能跳躍又能避開障礙物的機器人軌跡.
以類似的方式,如果我們想設(shè)計蛋白質(zhì),我們可以指定不同的功能或方面--類似于我們用語言來指定圖像的內(nèi)容--用類似語言的描述,如蛋白質(zhì)的類型或功能。然后,我們可以將這些組合在一起,生成有可能滿足所有這些給定功能的新蛋白質(zhì)。
我們還探索了在三維形狀生成上使用擴(kuò)散模型,你可以使用這種方法來生成和設(shè)計三維資產(chǎn)。通常情況下,3D資產(chǎn)設(shè)計是一個非常復(fù)雜和費力的過程。通過將不同的模型組合在一起,生成形狀就會變得容易得多,例如,"我想要一個有四條腿的3D形狀,有這樣的風(fēng)格和高度",可能會使3D資產(chǎn)設(shè)計的一部分自動化。
2024-12-12 10:22
2024-12-12 10:20
2024-12-12 10:19
2024-12-12 10:18
2024-12-12 10:17
2024-12-12 10:14
2024-12-12 10:13
2024-12-12 10:08
2024-12-12 10:05
2024-12-12 10:04