首頁>資訊 >
照片里其他游客太多?三星研究員提出LaMa模型,一鍵全部摳掉 2022-01-28 13:41:05  來源:36氪

【導(dǎo)讀】照片里面有不想要的東西,摳起來又太麻煩?神器來了!三星研究員最近提出一個(gè)圖像修復(fù)模型:LaMa,在高分辨率圖像輸入下也無需太多計(jì)算量,并且效果十分驚人!

拍照的時(shí)候,想必大家都有過一種經(jīng)歷:背景永遠(yuǎn)有一大堆其他游客,拍完照還得找半天哪個(gè)是自己。

除了其他游客外,如果照片里有一個(gè)垃圾桶,或者跟畫面無關(guān)的元素過多也會(huì)破壞整張照片的美感。對于PS圖片技術(shù)不過關(guān)的小伙伴來說,想把這些元素從畫面里摳出去,那可真是太難了。

但人工智能技術(shù)發(fā)展的目的就是讓這種工作變得簡單!

只需一鍵,就可以把畫面中不想要的元素統(tǒng)統(tǒng)摳掉,而且「毫無PS痕跡」!

圖像修復(fù)

長期以來,大量的研究人員一直在研究如何更好地移除畫面中的元素,并將其正確地替換背景,這個(gè)任務(wù)也稱為圖像修復(fù)(image inpainting)。

這個(gè)任務(wù)看起來簡單,但實(shí)現(xiàn)起來卻相當(dāng)難,因?yàn)楸徽趽醯舻谋尘靶畔τ贏I來說是完全未知的,生成背景全靠腦補(bǔ)。

并且一些遮擋掉的元素也并非是規(guī)則的背景圖,也可能是相當(dāng)復(fù)雜的元素。

但從2016年Image Inpainting的開山之作發(fā)布以來,目前圖像修復(fù)的效果已經(jīng)相當(dāng)驚人了,在人臉修復(fù)上尚有「想象」的成分存在,但對于摳背景來說簡直小菜一碟。

人類在進(jìn)行圖像腦補(bǔ)的時(shí)候,會(huì)很自然而然地利用上人類對三維世界的信息理解,但對于AI來說,他所能接收到的信息只有二維圖像中的像素點(diǎn)。這種信息接收上的差異也是AI圖像修復(fù)的難點(diǎn)之一。

并且人類也能根據(jù)視覺常識,從物體的一部分來推測出物體的全貌。所以想讓AI學(xué)會(huì)圖像修復(fù),我們首先需要教會(huì)機(jī)器一件事:世界究竟是什么樣子?

ImageNet數(shù)據(jù)集提供了大量二維圖片,所以讓機(jī)器了解世界這點(diǎn)很容易做到。

另一個(gè)問題是,通常需要修復(fù)的真實(shí)照片分辨率都很高,所以需要的計(jì)算成本也更高。但目前大多數(shù)圖像修復(fù)方法都聚焦于低質(zhì)量的圖像。雖然可以用各種方法來講圖像降低分辨率為小圖像,然后把修復(fù)的結(jié)果放大應(yīng)用于原圖像,但最終結(jié)果肯定不如在原始圖像上進(jìn)行修復(fù)的效果好。

高分辨率圖像帶來的是更真實(shí)的圖像修復(fù),但也需要更多的時(shí)間來進(jìn)行訓(xùn)練和圖像處理,難道真的沒有兩全之法?

LaMa模型

針對上面提到的問題,三星的研究人員提出了一個(gè)新模型LaMa(LArge MAsk inpainting),能夠在高分辨率圖像的情況下,隨意刪除圖像中的各種元素。

LaMa的主要?jiǎng)?chuàng)新點(diǎn)為:提出一種新的修復(fù)網(wǎng)絡(luò)結(jié)構(gòu),使用快速傅立葉卷積,具有圖像寬接收域, 高感受野感知損失, 較大的訓(xùn)練掩碼(mask),可以有效提升前兩個(gè)組件的性能潛力。

該模型還可以很好地泛化到比訓(xùn)練時(shí)更高的分辨率圖像,以較低的參數(shù)量和計(jì)算成本實(shí)現(xiàn)與基準(zhǔn)相媲美的性能。

論文地址:https://arxiv.org/abs/2109.07161

代碼地址:https://github.com/saic-mdal/lama

例如下面圖片中的各種樹、窗臺,路燈、汽車都可以一鍵P掉。

模型的主要架構(gòu)如下圖所示。包含一個(gè)mask的黑白圖,一張?jiān)紙D像。將掩碼圖覆蓋圖像后輸入Inpainting網(wǎng)絡(luò)中,先是降采樣到低分辨率,再經(jīng)過幾個(gè)快速傅里葉卷積FFC殘差塊,最后輸出上采樣,生成了一張高分辨的修復(fù)圖像。

和一般的圖像修復(fù)網(wǎng)絡(luò)一樣,LaMa也必須理解圖像并嘗試填充它認(rèn)為最適合的像素。因此,在這種情況下,為了減少計(jì)算,它也需要在網(wǎng)絡(luò)的開始階段縮小圖像。但不一樣的是,LaMa在處理圖像時(shí)采用了一些特別的技術(shù)來保證降采樣后的圖像質(zhì)量和原始高分辨率圖像相同。

網(wǎng)絡(luò)主要分為兩步。

首先,模型會(huì)進(jìn)行圖像壓縮并嘗試僅保存重要的相關(guān)信息。網(wǎng)絡(luò)最后將主要保留有關(guān)圖像的通用信息,如顏色、整體風(fēng)格或出現(xiàn)的常見的物體,但不會(huì)保留精確的細(xì)節(jié)。然后,模型會(huì)嘗試使用相同的原理但向后重建圖像。研究人員使用了一些技巧,例如跳過連接(skipt-connections)可以保存來自網(wǎng)絡(luò)前幾層的信息,并將其傳遞到第二步,以便模型可以將其定向到正確的對象。

簡單來說,模型能夠知道圖片里有一個(gè)塔,藍(lán)天和樹木,這種就叫全局信息(global information),但仍然需要一些skip connections來讓模型識別到埃菲爾鐵塔在圖片的中央。

對于更細(xì)粒度的信息,例如這里或那里有云,樹有哪些顏色等細(xì)節(jié),研究人員稱之為局部信息(local information)。

但還存在一個(gè)問題,就是在這種情況下,模型正在處理的是質(zhì)量較低的圖像,這會(huì)降低圖像修復(fù)的質(zhì)量。所以特殊之處在于,LaMa不是像在常規(guī)卷積網(wǎng)絡(luò)中那樣使用卷積并跳過連接來保持局部知識,而是使用快速傅里葉卷積,也就是說網(wǎng)絡(luò)將在空間域和頻域中同時(shí)工作,并且不需要回到前面的層來理解圖像的上下文。

每一層都將與空間域中的卷積一起處理局部特征,并在頻域中使用傅里葉卷積來分析全局特征。

頻域有點(diǎn)特殊,基本上就是將輸入圖像轉(zhuǎn)換為所有可能的頻率,所以這個(gè)新創(chuàng)建的圖像的每個(gè)像素都將代表一個(gè)覆蓋整個(gè)空間圖像的頻率以及它的存在量,而不是顏色。當(dāng)然,這里的頻率并非是聲音頻率,而是代表不同尺度的重復(fù)模式。

因此,對新的傅里葉圖像進(jìn)行卷積可以讓模型在卷積過程的每個(gè)步驟中處理整個(gè)圖像,因此即使在前幾層也可以更好地理解圖像,而無需太多計(jì)算成本,這種效果通過常規(guī)的卷積是無法實(shí)現(xiàn)的。

然后,全局和局部的結(jié)果都被保存并發(fā)送到下一層,下一層將重復(fù)這些步驟,最終將獲得可以放大回來的最終圖像。

傅立葉域的使用使其可以擴(kuò)展到更大的圖像,因?yàn)閳D像分辨率不會(huì)影響傅立葉域,它使用整個(gè)圖像的頻率而非顏色作為特征,并且尋找的重復(fù)模式需要是相同的圖像的大小,這意味著即使在用小圖像訓(xùn)練這個(gè)網(wǎng)絡(luò)時(shí),也能取得相同的效果。

研究人員在CelebA-HQ數(shù)據(jù)集上的圖像修復(fù)進(jìn)行了實(shí)驗(yàn),采用可學(xué)習(xí)感知圖像斑塊相似性(LPIP)和FID作為定量評估指標(biāo)。與LaMa傅立葉模型相比,幾乎所有的模型的性能都更弱(紅色上箭頭)。表中還包括了不同的測試掩碼生成的不同策略的度量,即窄掩碼(narrow)、寬掩碼(wide)和分段掩碼(segmentation),LaMa傅里葉的性能仍然更強(qiáng),表明了實(shí)驗(yàn)方法更有效地利用了可訓(xùn)練參數(shù)。

下面是一些模型的圖像修復(fù)樣例。

也有一些修復(fù)的不是很好的樣例。

雖然結(jié)果有好有壞,但LaMa模型仍然性能出眾,向現(xiàn)實(shí)應(yīng)用邁出了重要一步。

參考資料:

https://www.louisbouchard.ai/lama/

本文來自微信公眾號“新智元”(ID:AI_era),編輯:LRS,36氪經(jīng)授權(quán)發(fā)布。

關(guān)鍵詞: 三星 太多 研究員

相關(guān)閱讀:
熱點(diǎn)
圖片 圖片