【導(dǎo)讀】照片里面有不想要的東西,摳起來又太麻煩?神器來了!三星研究員最近提出一個(gè)圖像修復(fù)模型:LaMa,在高分辨率圖像輸入下也無需太多計(jì)算量,并且效果十分驚人!
拍照的時(shí)候,想必大家都有過一種經(jīng)歷:背景永遠(yuǎn)有一大堆其他游客,拍完照還得找半天哪個(gè)是自己。
除了其他游客外,如果照片里有一個(gè)垃圾桶,或者跟畫面無關(guān)的元素過多也會(huì)破壞整張照片的美感。對于PS圖片技術(shù)不過關(guān)的小伙伴來說,想把這些元素從畫面里摳出去,那可真是太難了。
但人工智能技術(shù)發(fā)展的目的就是讓這種工作變得簡單!
只需一鍵,就可以把畫面中不想要的元素統(tǒng)統(tǒng)摳掉,而且「毫無PS痕跡」!
圖像修復(fù)
長期以來,大量的研究人員一直在研究如何更好地移除畫面中的元素,并將其正確地替換背景,這個(gè)任務(wù)也稱為圖像修復(fù)(image inpainting)。
這個(gè)任務(wù)看起來簡單,但實(shí)現(xiàn)起來卻相當(dāng)難,因?yàn)楸徽趽醯舻谋尘靶畔τ贏I來說是完全未知的,生成背景全靠腦補(bǔ)。
并且一些遮擋掉的元素也并非是規(guī)則的背景圖,也可能是相當(dāng)復(fù)雜的元素。
但從2016年Image Inpainting的開山之作發(fā)布以來,目前圖像修復(fù)的效果已經(jīng)相當(dāng)驚人了,在人臉修復(fù)上尚有「想象」的成分存在,但對于摳背景來說簡直小菜一碟。
人類在進(jìn)行圖像腦補(bǔ)的時(shí)候,會(huì)很自然而然地利用上人類對三維世界的信息理解,但對于AI來說,他所能接收到的信息只有二維圖像中的像素點(diǎn)。這種信息接收上的差異也是AI圖像修復(fù)的難點(diǎn)之一。
并且人類也能根據(jù)視覺常識,從物體的一部分來推測出物體的全貌。所以想讓AI學(xué)會(huì)圖像修復(fù),我們首先需要教會(huì)機(jī)器一件事:世界究竟是什么樣子?
ImageNet數(shù)據(jù)集提供了大量二維圖片,所以讓機(jī)器了解世界這點(diǎn)很容易做到。
另一個(gè)問題是,通常需要修復(fù)的真實(shí)照片分辨率都很高,所以需要的計(jì)算成本也更高。但目前大多數(shù)圖像修復(fù)方法都聚焦于低質(zhì)量的圖像。雖然可以用各種方法來講圖像降低分辨率為小圖像,然后把修復(fù)的結(jié)果放大應(yīng)用于原圖像,但最終結(jié)果肯定不如在原始圖像上進(jìn)行修復(fù)的效果好。
高分辨率圖像帶來的是更真實(shí)的圖像修復(fù),但也需要更多的時(shí)間來進(jìn)行訓(xùn)練和圖像處理,難道真的沒有兩全之法?
LaMa模型
針對上面提到的問題,三星的研究人員提出了一個(gè)新模型LaMa(LArge MAsk inpainting),能夠在高分辨率圖像的情況下,隨意刪除圖像中的各種元素。
LaMa的主要?jiǎng)?chuàng)新點(diǎn)為:提出一種新的修復(fù)網(wǎng)絡(luò)結(jié)構(gòu),使用快速傅立葉卷積,具有圖像寬接收域, 高感受野感知損失, 較大的訓(xùn)練掩碼(mask),可以有效提升前兩個(gè)組件的性能潛力。
該模型還可以很好地泛化到比訓(xùn)練時(shí)更高的分辨率圖像,以較低的參數(shù)量和計(jì)算成本實(shí)現(xiàn)與基準(zhǔn)相媲美的性能。
論文地址:https://arxiv.org/abs/2109.07161
代碼地址:https://github.com/saic-mdal/lama
例如下面圖片中的各種樹、窗臺,路燈、汽車都可以一鍵P掉。
模型的主要架構(gòu)如下圖所示。包含一個(gè)mask的黑白圖,一張?jiān)紙D像。將掩碼圖覆蓋圖像后輸入Inpainting網(wǎng)絡(luò)中,先是降采樣到低分辨率,再經(jīng)過幾個(gè)快速傅里葉卷積FFC殘差塊,最后輸出上采樣,生成了一張高分辨的修復(fù)圖像。
和一般的圖像修復(fù)網(wǎng)絡(luò)一樣,LaMa也必須理解圖像并嘗試填充它認(rèn)為最適合的像素。因此,在這種情況下,為了減少計(jì)算,它也需要在網(wǎng)絡(luò)的開始階段縮小圖像。但不一樣的是,LaMa在處理圖像時(shí)采用了一些特別的技術(shù)來保證降采樣后的圖像質(zhì)量和原始高分辨率圖像相同。
網(wǎng)絡(luò)主要分為兩步。
首先,模型會(huì)進(jìn)行圖像壓縮并嘗試僅保存重要的相關(guān)信息。網(wǎng)絡(luò)最后將主要保留有關(guān)圖像的通用信息,如顏色、整體風(fēng)格或出現(xiàn)的常見的物體,但不會(huì)保留精確的細(xì)節(jié)。然后,模型會(huì)嘗試使用相同的原理但向后重建圖像。研究人員使用了一些技巧,例如跳過連接(skipt-connections)可以保存來自網(wǎng)絡(luò)前幾層的信息,并將其傳遞到第二步,以便模型可以將其定向到正確的對象。
簡單來說,模型能夠知道圖片里有一個(gè)塔,藍(lán)天和樹木,這種就叫全局信息(global information),但仍然需要一些skip connections來讓模型識別到埃菲爾鐵塔在圖片的中央。
對于更細(xì)粒度的信息,例如這里或那里有云,樹有哪些顏色等細(xì)節(jié),研究人員稱之為局部信息(local information)。
但還存在一個(gè)問題,就是在這種情況下,模型正在處理的是質(zhì)量較低的圖像,這會(huì)降低圖像修復(fù)的質(zhì)量。所以特殊之處在于,LaMa不是像在常規(guī)卷積網(wǎng)絡(luò)中那樣使用卷積并跳過連接來保持局部知識,而是使用快速傅里葉卷積,也就是說網(wǎng)絡(luò)將在空間域和頻域中同時(shí)工作,并且不需要回到前面的層來理解圖像的上下文。
每一層都將與空間域中的卷積一起處理局部特征,并在頻域中使用傅里葉卷積來分析全局特征。
頻域有點(diǎn)特殊,基本上就是將輸入圖像轉(zhuǎn)換為所有可能的頻率,所以這個(gè)新創(chuàng)建的圖像的每個(gè)像素都將代表一個(gè)覆蓋整個(gè)空間圖像的頻率以及它的存在量,而不是顏色。當(dāng)然,這里的頻率并非是聲音頻率,而是代表不同尺度的重復(fù)模式。
因此,對新的傅里葉圖像進(jìn)行卷積可以讓模型在卷積過程的每個(gè)步驟中處理整個(gè)圖像,因此即使在前幾層也可以更好地理解圖像,而無需太多計(jì)算成本,這種效果通過常規(guī)的卷積是無法實(shí)現(xiàn)的。
然后,全局和局部的結(jié)果都被保存并發(fā)送到下一層,下一層將重復(fù)這些步驟,最終將獲得可以放大回來的最終圖像。
傅立葉域的使用使其可以擴(kuò)展到更大的圖像,因?yàn)閳D像分辨率不會(huì)影響傅立葉域,它使用整個(gè)圖像的頻率而非顏色作為特征,并且尋找的重復(fù)模式需要是相同的圖像的大小,這意味著即使在用小圖像訓(xùn)練這個(gè)網(wǎng)絡(luò)時(shí),也能取得相同的效果。
研究人員在CelebA-HQ數(shù)據(jù)集上的圖像修復(fù)進(jìn)行了實(shí)驗(yàn),采用可學(xué)習(xí)感知圖像斑塊相似性(LPIP)和FID作為定量評估指標(biāo)。與LaMa傅立葉模型相比,幾乎所有的模型的性能都更弱(紅色上箭頭)。表中還包括了不同的測試掩碼生成的不同策略的度量,即窄掩碼(narrow)、寬掩碼(wide)和分段掩碼(segmentation),LaMa傅里葉的性能仍然更強(qiáng),表明了實(shí)驗(yàn)方法更有效地利用了可訓(xùn)練參數(shù)。
下面是一些模型的圖像修復(fù)樣例。
也有一些修復(fù)的不是很好的樣例。
雖然結(jié)果有好有壞,但LaMa模型仍然性能出眾,向現(xiàn)實(shí)應(yīng)用邁出了重要一步。
參考資料:
https://www.louisbouchard.ai/lama/
本文來自微信公眾號“新智元”(ID:AI_era),編輯:LRS,36氪經(jīng)授權(quán)發(fā)布。
- 湖北恩施州鶴峰縣市場監(jiān)管局開展進(jìn)口水果排查專項(xiàng)行動(dòng) 加強(qiáng)宣傳引導(dǎo)
- 寧夏青銅峽市場監(jiān)管局:擰緊節(jié)日食藥“安全閥” 確保節(jié)日期間市場安全穩(wěn)定
- 北京東城對轄區(qū)旅游客運(yùn)企業(yè)開展專項(xiàng)聯(lián)合檢 營造和諧市場環(huán)境
- 安徽開展專項(xiàng)執(zhí)法查處濫用行政權(quán)力行為 共同營造公平競爭良好社會(huì)環(huán)境
- 安徽啟動(dòng)2022年春茶地理標(biāo)志保護(hù)專項(xiàng)行動(dòng) 促進(jìn)茶產(chǎn)業(yè)高質(zhì)量發(fā)展
- 吉林:開展知識產(chǎn)權(quán)代理行業(yè)“藍(lán)天”專項(xiàng)整治行動(dòng) 促進(jìn)知識產(chǎn)權(quán)服務(wù)業(yè)健康發(fā)展
- 福建福州:宣傳知識產(chǎn)權(quán)法律知識 全方位推進(jìn)地方高質(zhì)量發(fā)展超越
- 遼寧撫順積極建設(shè)知識產(chǎn)權(quán)強(qiáng)市 建設(shè)知識產(chǎn)權(quán)強(qiáng)市為目標(biāo)
- 2021年全國公共服務(wù)質(zhì)量監(jiān)測情況發(fā)布 南京以總體滿意度?排名第一
- 立案20件!安徽嚴(yán)查哄抬物價(jià)等價(jià)格違法行為 督促經(jīng)營者守法經(jīng)營
- 陜西消保委發(fā)出“五一”消費(fèi)提示 按需購買防浪費(fèi)理性消費(fèi)樹新風(fēng)
- 養(yǎng)元飲品一季度凈利潤下降 今年上市公司買理財(cái)規(guī)模降至近五年最低
- 失守3000點(diǎn)!滬指重挫逾5%創(chuàng)兩年來最大單日跌幅 兩市跌停股票超700只
- 一季度西安市地區(qū)生產(chǎn)總值同比增2.8% 第一產(chǎn)業(yè)增加值增長4.4%
- 今年以來露營活動(dòng)火爆“出圈” 露營從專業(yè)小眾走向休閑大眾
- 香港47人被控"串謀顛覆國家政權(quán)罪" 法官首次披露:11人擬認(rèn)罪
- 日本沖繩水壩發(fā)現(xiàn)千余枚啞彈 皆為美國制造
- 中新網(wǎng)評:“動(dòng)態(tài)清零”就是不放棄任何一個(gè)群體
- 國臺辦:在滬臺商臺企踴躍捐款捐物 捐贈(zèng)物資及現(xiàn)金合計(jì)超1097萬元
- 看抗疫“高亮瞬間”一秒變漫畫
- 湖北恩施州鶴峰縣市場監(jiān)管局開展進(jìn)口水果排查專項(xiàng)行
- 寧夏青銅峽市場監(jiān)管局:擰緊節(jié)日食藥“安全閥” 確
- 北京東城對轄區(qū)旅游客運(yùn)企業(yè)開展專項(xiàng)聯(lián)合檢 營造和
- 安徽開展專項(xiàng)執(zhí)法查處濫用行政權(quán)力行為 共同營造公
- 安徽啟動(dòng)2022年春茶地理標(biāo)志保護(hù)專項(xiàng)行動(dòng) 促進(jìn)茶產(chǎn)
- 吉林:開展知識產(chǎn)權(quán)代理行業(yè)“藍(lán)天”專項(xiàng)整治行動(dòng)
- 福建福州:宣傳知識產(chǎn)權(quán)法律知識 全方位推進(jìn)地方高
- 遼寧撫順積極建設(shè)知識產(chǎn)權(quán)強(qiáng)市 建設(shè)知識產(chǎn)權(quán)強(qiáng)市為
- 2021年全國公共服務(wù)質(zhì)量監(jiān)測情況發(fā)布 南京以總體滿
- 立案20件!安徽嚴(yán)查哄抬物價(jià)等價(jià)格違法行為 督促經(jīng)
- 1 湖北恩施州鶴峰縣市場監(jiān)管局開展進(jìn)口水果排查專項(xiàng)行
- 2 寧夏青銅峽市場監(jiān)管局:擰緊節(jié)日食藥“安全閥” 確
- 3 北京東城對轄區(qū)旅游客運(yùn)企業(yè)開展專項(xiàng)聯(lián)合檢 營造和
- 4 安徽開展專項(xiàng)執(zhí)法查處濫用行政權(quán)力行為 共同營造公
- 5 安徽啟動(dòng)2022年春茶地理標(biāo)志保護(hù)專項(xiàng)行動(dòng) 促進(jìn)茶產(chǎn)
- 6 吉林:開展知識產(chǎn)權(quán)代理行業(yè)“藍(lán)天”專項(xiàng)整治行動(dòng)
- 7 福建福州:宣傳知識產(chǎn)權(quán)法律知識 全方位推進(jìn)地方高
- 8 遼寧撫順積極建設(shè)知識產(chǎn)權(quán)強(qiáng)市 建設(shè)知識產(chǎn)權(quán)強(qiáng)市為
- 9 2021年全國公共服務(wù)質(zhì)量監(jiān)測情況發(fā)布 南京以總體滿
- 10 立案20件!安徽嚴(yán)查哄抬物價(jià)等價(jià)格違法行為 督促經(jīng)