本發(fā)明涉及圖像處理,具體地說,涉及基于生成對抗網(wǎng)絡的多模態(tài)數(shù)據(jù)合成系統(tǒng)。
背景技術:
1、ai圖像合成技術是指利用人工智能算法,尤其是機器學習和深度學習的方法,來生成、修改或者合成圖像的技術,可以讓計算機理解和生成復雜的視覺內容,實現(xiàn)從簡單圖像編輯任務到復雜場景創(chuàng)建的各種應用,常見的ai圖像合成技術包括但不限于,生成對抗網(wǎng)絡,由一個生成網(wǎng)絡和一個判別網(wǎng)絡組成,通過兩者之間的博弈過程,生成網(wǎng)絡能夠學習到如何生成逼真的圖像或者合適的圖像,現(xiàn)有技術已經(jīng)被應用于許多領域,比如超分辨率圖像生成、圖像轉換以及面部生成等;
2、目前用戶在進行ai圖像合成時,通常先將參考圖發(fā)送至ai程序,并輸入文字,通過生成網(wǎng)絡將文字描述轉換為圖像,并合成至參考圖對應位置,在判別網(wǎng)絡確定后自動生成最終圖,然而,目前基于生成對抗網(wǎng)絡的多模態(tài)數(shù)據(jù)合成系統(tǒng),存在以下問題:
3、區(qū)域定位模糊:無法精確識別用戶文字描述對應的圖像區(qū)域,導致合成內容偏移;
4、全局優(yōu)化局限:傳統(tǒng)方法對全圖進行統(tǒng)一特征提取,難以針對局部區(qū)域精細化調整;
5、多模態(tài)融合偏差:文本與圖像特征對齊不足,生成結果與參考圖風格不一致,鑒于此,我們提出基于生成對抗網(wǎng)絡的多模態(tài)數(shù)據(jù)合成系統(tǒng)。
技術實現(xiàn)思路
1、本發(fā)明的目的在于提供基于生成對抗網(wǎng)絡的多模態(tài)數(shù)據(jù)合成系統(tǒng),以解決上述背景技術中提出ai識別文字和圖片的精度有限,特別是要對某個區(qū)域的圖進行單獨調整時,由于不能準確識別文字對應的位置和內容,導致合成圖像有偏差的問題。
2、為實現(xiàn)上述目的,本發(fā)明提供基于生成對抗網(wǎng)絡的多模態(tài)數(shù)據(jù)合成系統(tǒng),包括動態(tài)分層劃分單元、交互式選擇單元、多模態(tài)特征對齊單元和階段無縫拼接單元;
3、通過所述動態(tài)分層劃分單元基于圖像特征點對參考圖進行遞歸式區(qū)域劃分形成多階合成區(qū)域,提高了區(qū)域定位的準確性,減少了合成內容偏移,實現(xiàn)后續(xù)分階段生成和拼接,避免全局優(yōu)化限制,提高局部調整的精細度,并使所述交互式選擇單元允許用戶標記需調整的合成區(qū)域,并輸入用于轉換調整合成區(qū)域的文字描述,滿足個性化需求,其中:
4、所述多模態(tài)特征對齊單元用于將文本描述與標記的多階合成區(qū)域進行聯(lián)合編碼,增強了文本和圖像特征的一致性,生成結果與參考圖風格一致,使階段無縫拼接單元分階段的局部生成對抗網(wǎng)絡形成候選圖像,再通過多模態(tài)融合算法與參考圖無縫拼接,確保了合成圖像的質量和一致性。
5、作為本技術方案的進一步改進,所述動態(tài)分層劃分單元包括圖像特征提取模塊和區(qū)域劃分模塊;
6、所述圖像特征提取模塊用于采用canny邊緣檢測和harris角點檢測提取參考圖的特征點,有利于在聚類過程中,這些特征點可以作為區(qū)域劃分的依據(jù),幫助劃分出有意義的圖像區(qū)域,提高區(qū)域定位的準確性和后續(xù)圖像生成的質量;
7、所述區(qū)域劃分模塊使用k-means算法隨機選擇k個初始質心,將每個特征點分配到最近的質心,計算每個簇的質心,重復分配和更新,直到質心不再變化劃分形成多個初始區(qū)域,根據(jù)層級對每個初始區(qū)域進一步進行特征點檢測和劃分形成子區(qū)域,直到滿足設定層級,實現(xiàn)將參考圖不斷細化,更準確的使工作人員根據(jù)要更改的位置鎖定區(qū)域,避免因文字自動識別更改區(qū)域造成的不準確,提高了準確性。
8、作為本技術方案的進一步改進,所述交互式選擇單元包括交互反饋模塊和文字輸入模塊;
9、所述交互反饋模塊用于接收所述區(qū)域劃分模塊輸出的層級區(qū)域展示在交互式界面,層級區(qū)域包括初始參考圖、初始區(qū)域和子區(qū)域,在當前層級區(qū)域不是用戶所需的區(qū)域時,允許用戶設定層級,直至觸發(fā)標記信號,用戶可以進行多個層級區(qū)域進行標記,形成多個標記信號;
10、所述文字輸入模塊接收標記信號后,針對多個標記信號對應的層級區(qū)域鍵入文字描述用于指導如何調整標記的層級區(qū)域,實現(xiàn)用戶針對每個層級區(qū)域進行獨立輸入如何調整,有利于局域化的進行調整的更精準。
11、作為本技術方案的進一步改進,所述交互反饋模塊還包括勾勒調整模塊,所述勾勒調整模塊用于在交互式界面上提供手繪工具,允許用戶通過手繪工具勾勒出初始參考圖中需要調整的自定義區(qū)域,使所述圖像特征提取模塊感知自定義區(qū)域作為實際參考圖進行特征點提取,有利于避免多個初始區(qū)域同時加載或運行造成的強度較大,有利于后續(xù)在標記時更針對,提高運行效率。
12、作為本技術方案的進一步改進,所述多模態(tài)特征對齊單元進行聯(lián)合編碼時,包括以下步驟:
13、文本嵌入:通過大量捕捉文本的語義信息進行分詞處理,并對文本進行編碼,生成文本嵌入向量,使用預訓練語言模型生成語義信息與文本嵌入向量的映射關系,識別所述文字輸入模塊鍵入的文字描述捕捉的語義信息輸入預訓練語言模型中,輸出文本嵌入向量;
14、圖像特征嵌入:通過所述圖像特征提取模塊感知多個層級區(qū)域的圖像特征形成每個層級區(qū)域的特征向量,并通過全連接層映射到與文本嵌入相同的語義空間;
15、聯(lián)合編碼:分別對文本嵌入向量和圖像特征向量進行多頭自注意力處理,以增強各自的語義表示,并通過交叉注意力機制,將多個層級區(qū)域分別對應的文本和圖像特征之間的關聯(lián)關系進行建模,將文本和圖像的注意力輸出進行融合,生成最終的聯(lián)合編碼向量,每個層級區(qū)域對應一個聯(lián)合編碼向量,通過多頭自注意力和交叉注意力機制,模型能夠同時捕捉文本和圖像的局部細節(jié)和全局語義,實現(xiàn)高效的跨模態(tài)對齊,并且能夠逐層細化文本和圖像特征的關聯(lián)關系,生成更加精確的聯(lián)合編碼,同時,聯(lián)合編碼的結果能夠指導生成對抗網(wǎng)絡對特定區(qū)域進行調整,滿足用戶的個性化需求。
16、作為本技術方案的進一步改進,所述階段無縫拼接單元包括候選圖像形成模塊和多模態(tài)融合模塊;
17、所述候選圖像形成模塊用于由局部到全部的順序排列層級區(qū)域,并依次接收所述多模態(tài)特征對齊單元輸出聯(lián)合編碼向量,形成聯(lián)合編碼向量序列,根據(jù)局部生成對抗網(wǎng)絡的生成器依次生成高質量的候選圖像,僅生成特定層級區(qū)域的圖像,而不是整個圖像,這有助于提高生成的靈活性和精細度,判別器區(qū)分生成圖像和真實圖像;
18、所述多模態(tài)融合模塊用于執(zhí)行多模態(tài)融合算法,確保候選圖像對應的文本嵌入和圖像特征嵌入映射到同一空間形成融合特征,確保兩者可以有效結合,將生成的候選圖像與參考圖的特征點對齊,并在拼接區(qū)域應用平滑處理,確保過渡自然。
19、作為本技術方案的進一步改進,所述多模態(tài)融合模塊還包括精度反饋模塊,所述精度反饋模塊用于建立精度和時間的優(yōu)先級交互鍵,允許用戶選擇精度優(yōu)先或者時間優(yōu)先,觸發(fā)參考圖無縫拼接姿態(tài),包括以下姿態(tài):
20、姿態(tài)一、接收時間優(yōu)先信號,則將多個候選圖像映射到同一空間,同步融合形成一個完整的合成圖;
21、姿態(tài)二、接收精度優(yōu)先信號,則由局部到全部順序排列的候選圖像階段式平滑拼接,并在每次拼接后,使所述多模態(tài)特征對齊單元重新聯(lián)合編碼,直至形成合成圖。
22、作為本技術方案的進一步改進,所述同步融合形成一個完整的合成圖,包括以下步驟:
23、當最低層級a下的多個候選圖像a平滑拼接完成后形成層級a-1的候選圖像a1,繼續(xù)對層級a-1下的多個候選圖像a1進行平滑拼接,直至形成合成圖;
24、所述由局部到全部順序排列的候選圖像階段式平滑拼接,并在每次拼接后,使所述多模態(tài)特征對齊單元重新聯(lián)合編碼,直至形成合成圖,包括以下步驟:
25、當最低層級a下的多個候選圖像a平滑拼接完成后形成層級a-1的拼接圖像a1,使所述多模態(tài)特征對齊單元將拼接圖像a1與文字描述重新進行聯(lián)合編碼,形成新的候選圖像a1,繼續(xù)對層級a-1下的多個候選圖像a1進行平滑拼接,再次所述多模態(tài)特征對齊單元將拼接圖像a1與文字描述重新進行聯(lián)合編碼,形成新的候選圖像a2,重復上述操作,直至形成合成圖。
26、綜上,根據(jù)用戶選擇的優(yōu)先級,調整融合策略,在時間優(yōu)先時,快速融合;在精度優(yōu)先時,多次迭代優(yōu)化,有利于根據(jù)所需更靈活的改變圖像合成方式。
27、與現(xiàn)有技術相比,本發(fā)明的有益效果:
28、該基于生成對抗網(wǎng)絡的多模態(tài)數(shù)據(jù)合成系統(tǒng)中,通過動態(tài)分層劃分單元基于圖像特征點對參考圖進行遞歸式區(qū)域劃分形成多階合成區(qū)域,并使所述交互式選擇單元允許用戶標記需調整的合成區(qū)域,并輸入用于轉換調整合成區(qū)域的文字描述,滿足個性化需求,然后多模態(tài)特征對齊單元將文本描述與標記的多階合成區(qū)域進行聯(lián)合編碼,增強了文本和圖像特征的一致性,使階段無縫拼接單元分階段的局部生成對抗網(wǎng)絡形成候選圖像,再通過多模態(tài)融合算法與參考圖無縫拼接,確保了合成圖像的質量和一致性,避免全局優(yōu)化的限制,允許更精細的局部調整,使用戶可以標記特定區(qū)域并輸入描述,滿足個性化需求,在保證文本和圖像特征的一致性增強了生成結果的質量和風格一致性的前提下,?用戶可根據(jù)需求選擇時間或精度優(yōu)先,適應不同的使用場景。
29、除了上面所描述的目的、特征和優(yōu)點之外,本發(fā)明還有其它的目的、特征和優(yōu)點。下面將參照圖,對本發(fā)明作進一步詳細的說明。