91香蕉APP好色先生APP,老子影院午夜精品欧美视频,今天高清视频免费播放

首頁>資訊 >

照片里其他游客太多？三星研究員提出LaMa模型，一鍵全部摳掉 2022-01-28 13:41:05　　來源：36氪

【導(dǎo)讀】照片里面有不想要的東西，摳起來又太麻煩？神器來了！三星研究員最近提出一個(gè)圖像修復(fù)模型：LaMa，在高分辨率圖像輸入下也無需太多計(jì)算量，并且效果十分驚人！

拍照的時(shí)候，想必大家都有過一種經(jīng)歷：背景永遠(yuǎn)有一大堆其他游客，拍完照還得找半天哪個(gè)是自己。

除了其他游客外，如果照片里有一個(gè)垃圾桶，或者跟畫面無關(guān)的元素過多也會(huì)破壞整張照片的美感。對于PS圖片技術(shù)不過關(guān)的小伙伴來說，想把這些元素從畫面里摳出去，那可真是太難了。

但人工智能技術(shù)發(fā)展的目的就是讓這種工作變得簡單！

只需一鍵，就可以把畫面中不想要的元素統(tǒng)統(tǒng)摳掉，而且「毫無PS痕跡」！

圖像修復(fù)

長期以來，大量的研究人員一直在研究如何更好地移除畫面中的元素，并將其正確地替換背景，這個(gè)任務(wù)也稱為圖像修復(fù)（image inpainting）。

這個(gè)任務(wù)看起來簡單，但實(shí)現(xiàn)起來卻相當(dāng)難，因?yàn)楸徽趽醯舻谋尘靶畔τ贏I來說是完全未知的，生成背景全靠腦補(bǔ)。

并且一些遮擋掉的元素也并非是規(guī)則的背景圖，也可能是相當(dāng)復(fù)雜的元素。

但從2016年Image Inpainting的開山之作發(fā)布以來，目前圖像修復(fù)的效果已經(jīng)相當(dāng)驚人了，在人臉修復(fù)上尚有「想象」的成分存在，但對于摳背景來說簡直小菜一碟。

人類在進(jìn)行圖像腦補(bǔ)的時(shí)候，會(huì)很自然而然地利用上人類對三維世界的信息理解，但對于AI來說，他所能接收到的信息只有二維圖像中的像素點(diǎn)。這種信息接收上的差異也是AI圖像修復(fù)的難點(diǎn)之一。

并且人類也能根據(jù)視覺常識，從物體的一部分來推測出物體的全貌。所以想讓AI學(xué)會(huì)圖像修復(fù)，我們首先需要教會(huì)機(jī)器一件事：世界究竟是什么樣子？

ImageNet數(shù)據(jù)集提供了大量二維圖片，所以讓機(jī)器了解世界這點(diǎn)很容易做到。

另一個(gè)問題是，通常需要修復(fù)的真實(shí)照片分辨率都很高，所以需要的計(jì)算成本也更高。但目前大多數(shù)圖像修復(fù)方法都聚焦于低質(zhì)量的圖像。雖然可以用各種方法來講圖像降低分辨率為小圖像，然后把修復(fù)的結(jié)果放大應(yīng)用于原圖像，但最終結(jié)果肯定不如在原始圖像上進(jìn)行修復(fù)的效果好。

高分辨率圖像帶來的是更真實(shí)的圖像修復(fù)，但也需要更多的時(shí)間來進(jìn)行訓(xùn)練和圖像處理，難道真的沒有兩全之法？

LaMa模型

針對上面提到的問題，三星的研究人員提出了一個(gè)新模型LaMa（LArge MAsk inpainting），能夠在高分辨率圖像的情況下，隨意刪除圖像中的各種元素。

LaMa的主要?jiǎng)?chuàng)新點(diǎn)為：提出一種新的修復(fù)網(wǎng)絡(luò)結(jié)構(gòu)，使用快速傅立葉卷積，具有圖像寬接收域，高感受野感知損失，較大的訓(xùn)練掩碼（mask），可以有效提升前兩個(gè)組件的性能潛力。

該模型還可以很好地泛化到比訓(xùn)練時(shí)更高的分辨率圖像，以較低的參數(shù)量和計(jì)算成本實(shí)現(xiàn)與基準(zhǔn)相媲美的性能。

論文地址：https://arxiv.org/abs/2109.07161

代碼地址：https://github.com/saic-mdal/lama

例如下面圖片中的各種樹、窗臺，路燈、汽車都可以一鍵P掉。

模型的主要架構(gòu)如下圖所示。包含一個(gè)mask的黑白圖，一張?jiān)紙D像。將掩碼圖覆蓋圖像后輸入Inpainting網(wǎng)絡(luò)中，先是降采樣到低分辨率，再經(jīng)過幾個(gè)快速傅里葉卷積FFC殘差塊，最后輸出上采樣，生成了一張高分辨的修復(fù)圖像。

和一般的圖像修復(fù)網(wǎng)絡(luò)一樣，LaMa也必須理解圖像并嘗試填充它認(rèn)為最適合的像素。因此，在這種情況下，為了減少計(jì)算，它也需要在網(wǎng)絡(luò)的開始階段縮小圖像。但不一樣的是，LaMa在處理圖像時(shí)采用了一些特別的技術(shù)來保證降采樣后的圖像質(zhì)量和原始高分辨率圖像相同。

網(wǎng)絡(luò)主要分為兩步。

首先，模型會(huì)進(jìn)行圖像壓縮并嘗試僅保存重要的相關(guān)信息。網(wǎng)絡(luò)最后將主要保留有關(guān)圖像的通用信息，如顏色、整體風(fēng)格或出現(xiàn)的常見的物體，但不會(huì)保留精確的細(xì)節(jié)。然后，模型會(huì)嘗試使用相同的原理但向后重建圖像。研究人員使用了一些技巧，例如跳過連接（skipt-connections）可以保存來自網(wǎng)絡(luò)前幾層的信息，并將其傳遞到第二步，以便模型可以將其定向到正確的對象。

簡單來說，模型能夠知道圖片里有一個(gè)塔，藍(lán)天和樹木，這種就叫全局信息（global information），但仍然需要一些skip connections來讓模型識別到埃菲爾鐵塔在圖片的中央。

對于更細(xì)粒度的信息，例如這里或那里有云，樹有哪些顏色等細(xì)節(jié)，研究人員稱之為局部信息（local information）。

但還存在一個(gè)問題，就是在這種情況下，模型正在處理的是質(zhì)量較低的圖像，這會(huì)降低圖像修復(fù)的質(zhì)量。所以特殊之處在于，LaMa不是像在常規(guī)卷積網(wǎng)絡(luò)中那樣使用卷積并跳過連接來保持局部知識，而是使用快速傅里葉卷積，也就是說網(wǎng)絡(luò)將在空間域和頻域中同時(shí)工作，并且不需要回到前面的層來理解圖像的上下文。

每一層都將與空間域中的卷積一起處理局部特征，并在頻域中使用傅里葉卷積來分析全局特征。

頻域有點(diǎn)特殊，基本上就是將輸入圖像轉(zhuǎn)換為所有可能的頻率，所以這個(gè)新創(chuàng)建的圖像的每個(gè)像素都將代表一個(gè)覆蓋整個(gè)空間圖像的頻率以及它的存在量，而不是顏色。當(dāng)然，這里的頻率并非是聲音頻率，而是代表不同尺度的重復(fù)模式。

因此，對新的傅里葉圖像進(jìn)行卷積可以讓模型在卷積過程的每個(gè)步驟中處理整個(gè)圖像，因此即使在前幾層也可以更好地理解圖像，而無需太多計(jì)算成本，這種效果通過常規(guī)的卷積是無法實(shí)現(xiàn)的。

然后，全局和局部的結(jié)果都被保存并發(fā)送到下一層，下一層將重復(fù)這些步驟，最終將獲得可以放大回來的最終圖像。

傅立葉域的使用使其可以擴(kuò)展到更大的圖像，因?yàn)閳D像分辨率不會(huì)影響傅立葉域，它使用整個(gè)圖像的頻率而非顏色作為特征，并且尋找的重復(fù)模式需要是相同的圖像的大小，這意味著即使在用小圖像訓(xùn)練這個(gè)網(wǎng)絡(luò)時(shí)，也能取得相同的效果。

研究人員在CelebA-HQ數(shù)據(jù)集上的圖像修復(fù)進(jìn)行了實(shí)驗(yàn)，采用可學(xué)習(xí)感知圖像斑塊相似性（LPIP）和FID作為定量評估指標(biāo)。與LaMa傅立葉模型相比，幾乎所有的模型的性能都更弱（紅色上箭頭）。表中還包括了不同的測試掩碼生成的不同策略的度量，即窄掩碼（narrow）、寬掩碼（wide）和分段掩碼（segmentation），LaMa傅里葉的性能仍然更強(qiáng)，表明了實(shí)驗(yàn)方法更有效地利用了可訓(xùn)練參數(shù)。

下面是一些模型的圖像修復(fù)樣例。

也有一些修復(fù)的不是很好的樣例。

雖然結(jié)果有好有壞，但LaMa模型仍然性能出眾，向現(xiàn)實(shí)應(yīng)用邁出了重要一步。

參考資料：

https://www.louisbouchard.ai/lama/

本文來自微信公眾號“新智元”（ID:AI_era），編輯：LRS，36氪經(jīng)授權(quán)發(fā)布。

關(guān)鍵詞：三星太多研究員

相關(guān)閱讀：