本發(fā)明涉及三維重建技術(shù),尤其涉及基于三維高斯濺射表征的多視角圖像重建方法、裝置、電子設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù):
1、三維高斯濺射(3d?gaussian?splatting,簡(jiǎn)稱3dgs)是一種以3d高斯概率分布作為基本圖元的三維重建方法,其主要部分包含:可微分渲染器、可視化工具、重建模塊。其中可微分渲染用于對(duì)3d高斯數(shù)據(jù)進(jìn)行光柵化渲染,提供像素與高斯圖元之間的映射索引并實(shí)現(xiàn)像素的梯度反向傳播;可視化模塊提供功能性交互界面,用于交互式切換視角以及切換不同繪制模式;重建模塊負(fù)責(zé)評(píng)估3d高斯數(shù)據(jù)與參考圖像的差異,結(jié)合可微分渲染器逐步優(yōu)化3d高斯模型。
2、三維高斯重建方法的高斯圖元由三維姿態(tài)(位置、旋轉(zhuǎn)、縮放)以及顏色屬性定義,每個(gè)圖元共計(jì)58個(gè)可優(yōu)化屬性(透明度一個(gè)屬性,位置、旋轉(zhuǎn)、縮放各三個(gè)屬性,三階球諧函數(shù)定義的rgb顏色屬性共(3+1)2*3=48個(gè)屬性)??晌⒎咒秩酒饔?jì)算給定的視口信息下(包括相機(jī)姿態(tài)、視窗大小、裁剪距離),各個(gè)高斯圖元中心對(duì)應(yīng)的屏幕坐標(biāo)、視線方向投影深度、實(shí)現(xiàn)方向采樣顏色以及非線性透視變換在圖元中心處的線性近似結(jié)果,并對(duì)高斯圖元應(yīng)用該線性近似變換獲取三維高斯圖元在成像平面上的投影形狀(投影結(jié)果為二維高斯分布)。隨后,根據(jù)二維投影形狀投影記錄屏幕像素與高斯圖元的對(duì)應(yīng)索引,每個(gè)屏幕像素上的所有圖元按照投影深度從近到遠(yuǎn)排序。最終,每個(gè)像素以各個(gè)圖元對(duì)應(yīng)二維高斯高斯概率為透明度對(duì)圖元的rgb顏色進(jìn)行混合,得到最終渲染結(jié)果。其中rgb顏色作為直接優(yōu)化目標(biāo),參數(shù)梯度按照rgb→球諧函數(shù)顏色,rgb→透明度→二維高斯分布協(xié)方差→投影近似變換→三維姿態(tài)兩種路徑反向傳遞,實(shí)現(xiàn)高斯模型的監(jiān)督訓(xùn)練。此外,重建模塊還包含自適應(yīng)拆分/克隆功能,對(duì)于透明度梯度較大的圖元,將縮放因子大于閾值的圖元根據(jù)其三維概率分布采樣出多個(gè)小圖元或從一個(gè)小于閾值的圖元克隆出多個(gè)小圖元。
3、三維高斯重建方法在室內(nèi)、室外場(chǎng)景重建任務(wù)中都取得了很好的視覺(jué)效果,峰值信噪比psnr、結(jié)構(gòu)相似性ssim等圖像質(zhì)量指標(biāo)均超過(guò)以往的多視角重建方法。但三維高斯重建的結(jié)果在多視角一致性、高斯圖元分布整齊度、表面擬合準(zhǔn)確性仍有不足,不能輸出與重建目標(biāo)拓?fù)湟恢碌木W(wǎng)格模型,無(wú)法滿足實(shí)際場(chǎng)景重建工作的需要。同時(shí),其可微分渲染管線缺少深度和法線的梯度傳遞路徑,難以為重建優(yōu)化過(guò)程提供有效的監(jiān)督信息。此外,現(xiàn)有的三維高斯可視化工具僅包含三維高斯濺射結(jié)果和三維高斯圖元可視化結(jié)果,不便于直觀評(píng)估重建模型的表面重建質(zhì)量,且可視化工具中無(wú)法與高斯圖元直接交互,無(wú)法實(shí)現(xiàn)對(duì)重建結(jié)果的直接編輯和調(diào)整。
4、具體而言,3dgs方法的重建模塊僅以rgb圖像作為監(jiān)督信息,同時(shí)三維高斯圖元的優(yōu)化自由度較大,模型處于欠約束狀態(tài),優(yōu)化過(guò)程難以避免地陷入過(guò)擬合狀態(tài),其具體表現(xiàn)為:模型中三維高斯圖元分布雜亂無(wú)序,圖元間存在大量無(wú)序穿插,形態(tài)分布無(wú)法反映模型表面特征,局部表面的視覺(jué)效果可能由距離較遠(yuǎn)的多個(gè)部分拼湊而成,僅在特定視角下有較好的視覺(jué)效果,整體外形與模型實(shí)際情況不符。
技術(shù)實(shí)現(xiàn)思路
1、發(fā)明人在分析三維高斯圖元投影方案時(shí),發(fā)現(xiàn)三維高斯圖元的優(yōu)化自由度過(guò)大,訓(xùn)練過(guò)程整體處于欠約束狀態(tài),容易出現(xiàn)不符合實(shí)際模型要求甚至過(guò)擬合的情況,同時(shí)意識(shí)到表面法線連續(xù)性約束能有效引導(dǎo)高斯圖元擬合模型實(shí)際表面。此外,原三維高斯圖元的投影方案并非基于嚴(yán)格的射影幾何推導(dǎo),存在多視角下投影結(jié)果不一致的問(wèn)題,會(huì)對(duì)模型訓(xùn)練所需的視差信息帶來(lái)干擾,因此,發(fā)明人從射影幾何和二次曲面的基本原理出發(fā),重新設(shè)計(jì)了三維高斯圖元的投影方案,并在此基礎(chǔ)上實(shí)現(xiàn)了法線、深度的可微分渲染。
2、針對(duì)現(xiàn)有技術(shù)的不足,如圖3所示,本發(fā)明提出一種基于三維高斯濺射表征的多視角圖像重建方法,其中包括:
3、數(shù)據(jù)采集步驟,采集獲取待重建目標(biāo)物體的多視角圖像,該多視角圖像為目標(biāo)物體在多個(gè)視角下的拍攝圖像,且每張圖像具有對(duì)應(yīng)的位姿信息;
4、模型訓(xùn)練步驟,根據(jù)該多視角圖像及該位姿信息,通過(guò)單視角渲染、loss計(jì)算、梯度回傳以及模型致密化,訓(xùn)練三維高斯濺射模型,得到最終高斯圖元;
5、圖像重建步驟,對(duì)該最終高斯圖元的各個(gè)部分進(jìn)行標(biāo)注,并采用與該標(biāo)注相對(duì)應(yīng)的渲染方式,將該最終高斯圖元重建為網(wǎng)格體模型,并生成渲染深度圖像和rgb圖像。
6、所述的基于三維高斯濺射表征的多視角圖像重建方法,其中該模型訓(xùn)練步驟包括:
7、預(yù)處理步驟,在相機(jī)坐標(biāo)系下剔除在相機(jī)背后的高斯圖元;根據(jù)相機(jī)位置、高斯圖元的位置、旋轉(zhuǎn)和縮放計(jì)算相機(jī)在高斯圖元局部坐標(biāo)下的位置,即s-1r-1(c-p),其中c是相機(jī)位置,p、r、s分別是高斯圖元的位置向量、旋轉(zhuǎn)矩陣、縮放矩陣;剔除高斯圖元局部坐標(biāo)系下相機(jī)位置向量長(zhǎng)度小于預(yù)設(shè)值的高斯圖元;根據(jù)高斯圖元局部坐標(biāo)系下相機(jī)位置向量長(zhǎng)度r計(jì)算圓錐面斜角的正切值t以及該向量的方向向量d;計(jì)算高斯圖元局部坐標(biāo)系圓錐協(xié)方差covl=i-(t2+1)*d*dt,其中i為單位矩陣;計(jì)算相機(jī)坐標(biāo)系下的圓錐協(xié)方差,即cov=(s-1r-1v-1)^t*covl*(s-1r-1v-1),其中v為相機(jī)旋轉(zhuǎn)矩陣;根據(jù)圓錐方程計(jì)算視平面上的截線方程cov-1,其中zfar為視平面距離,w、h為畫(huà)面寬、高;
8、
9、圓錐方程:xtcov-1x=0
10、聯(lián)立z=zfar,可得截線方程:
11、ax^2+by^2+cz^2+2dxy+2exz+2fyz=0
12、a(x-l)^2+b(y-h)^2+2d(x-l)(y-h)=c
13、對(duì)應(yīng):
14、
15、對(duì)應(yīng)屏幕空間下的二維高斯分布:
16、協(xié)方差:
17、均值:
18、根據(jù)屏幕中心位置和協(xié)方差過(guò)濾掉在畫(huà)面外的高斯圖元和投影為雙曲面的高斯圖元;根據(jù)r、d計(jì)算相機(jī)坐標(biāo)系下深度參考平面方程,其中x,y為像素在屏幕空間下的坐標(biāo)局部坐標(biāo)系下深度參考平面方程為:
19、
20、相機(jī)坐標(biāo)系下,深度參考平面方程為:
21、
22、相機(jī)坐標(biāo)系下,各像素對(duì)應(yīng)視線的射線參數(shù)方程為:
23、
24、解方程可得射線參數(shù)u以及深度d=u*zfar;
25、根據(jù)r、v計(jì)算圖元法線,法線調(diào)整為與相機(jī)z方向夾角小于90度;計(jì)算圖元覆蓋范圍;
26、計(jì)算圖元顏色:從球諧函數(shù)分別計(jì)算rgb分量;類型屬性大于0時(shí),根據(jù)配置調(diào)整rgb分量;
27、根據(jù)參考平面計(jì)算圖元在各塊中心處的深度;根據(jù)位置id和中心深度排序;各塊收集相關(guān)圖元的rgb、二維協(xié)方差、深度平面、法線信息;逐像素計(jì)算概率密度函數(shù),篩除不透明度低于預(yù)設(shè)值的圖元;根據(jù)參考平面計(jì)算圖元在各像素處的深度;混合根據(jù)透明度混合rgb、深度和法線,對(duì)法線混合結(jié)果進(jìn)行歸一化;
28、后處理步驟,根據(jù)深度圖像計(jì)算屏幕空間法線,并對(duì)深度圖像進(jìn)行歸一化。
29、所述的基于三維高斯濺射表征的多視角圖像重建方法,其中該模型訓(xùn)練步驟包括:
30、損失loss計(jì)算步驟,根據(jù)渲染結(jié)果和參考圖像計(jì)算rgb損失lrgb,添加累計(jì)法線的自監(jiān)督拉普拉斯損失函數(shù)rn和基于屏幕空間法線的三維旋轉(zhuǎn)損失rsn,以及形狀約束正則項(xiàng)rec;
31、通過(guò)laplace算子計(jì)算三維高斯濺射模型局部法線的差異,三維高斯濺射模型優(yōu)化過(guò)程中應(yīng)使得該差異最小化;通過(guò)深度圖像梯度信息近似檢測(cè)三維高斯濺射模型邊緣,作為屏蔽區(qū);
32、
33、基于視角大小以及深度信息,得到像素對(duì)應(yīng)的相機(jī)空間坐標(biāo),像素屏幕x、y方向相鄰像素對(duì)應(yīng)三維點(diǎn)間矢徑叉乘,得到該像素處的法線方向,并根據(jù)相機(jī)變換矩陣轉(zhuǎn)換到世界空間坐標(biāo)系下,從而與基于屏幕空間的法線圖像計(jì)算監(jiān)督差異,該監(jiān)督差異的計(jì)算采用三維旋轉(zhuǎn)損失函數(shù),適配三維高斯圖元光柵化結(jié)果不可定向的問(wèn)題;
34、
35、為約束圖元形狀,重建模塊添加形狀約束正則項(xiàng)rec,該正則用于引導(dǎo)圖元向扁平、均勻的形態(tài)變化:
36、
37、重建模塊的優(yōu)化目標(biāo)損失函數(shù)為:loss=lrgb+mask*(θd*rd+θsn*rsn)+rec,其中mask為深度圖像局部梯度遮罩。
38、所述的基于三維高斯濺射表征的多視角圖像重建方法,其中該梯度回傳包括:根據(jù)各像素深度、法線、rgb梯度以及各圖元透明度計(jì)算各圖元透明度梯度、深度參考平面梯度、法線梯度、rgb梯度;根據(jù)各圖元透明度梯度計(jì)算對(duì)應(yīng)二維協(xié)方差梯度;根據(jù)各圖元二維協(xié)方差梯度、深度參考平面梯度、法線梯度計(jì)算圖元旋轉(zhuǎn)、位移、縮放梯度;根據(jù)各圖元rgb梯度計(jì)算球諧函數(shù)梯度;
39、該模型致密化包括:根據(jù)圖元y軸長(zhǎng)、場(chǎng)景尺寸,分類圖元為大圖元和小圖元,克隆梯度該小圖元并拆分該大圖元;剔除圖元尺寸超過(guò)預(yù)設(shè)值的圖元;剔除z軸長(zhǎng)大于x軸長(zhǎng)達(dá)到預(yù)設(shè)倍數(shù)的圖元以及剔除離心率大于預(yù)設(shè)值的圖元。
40、所述的基于三維高斯濺射表征的多視角圖像重建方法,其中通過(guò)可視化窗口對(duì)該三維高斯濺射模型進(jìn)行標(biāo)注和調(diào)整:
41、根據(jù)法線、屏幕空間法線、深度可視化選項(xiàng),在訓(xùn)練時(shí)實(shí)時(shí)查看三維高斯濺射模型的效果,并通過(guò)為該三維高斯濺射模型標(biāo)注類型,使該三維高斯濺射模型中不同類型的圖元按照不同的方式渲染。
42、如圖4所示,本發(fā)明還提出了一種基于三維高斯濺射表征的多視角圖像重建裝置,其中包括:
43、數(shù)據(jù)采集模塊,采集獲取待重建目標(biāo)物體的多視角圖像,該多視角圖像為目標(biāo)物體在多個(gè)視角下的拍攝圖像,且每張圖像具有對(duì)應(yīng)的位姿信息;
44、模型訓(xùn)練模塊,根據(jù)該多視角圖像及該位姿信息,通過(guò)單視角渲染、loss計(jì)算、梯度回傳以及模型致密化,訓(xùn)練三維高斯濺射模型,得到最終高斯圖元;
45、圖像重建模塊,對(duì)該最終高斯圖元的各個(gè)部分進(jìn)行標(biāo)注,并采用與該標(biāo)注相對(duì)應(yīng)的渲染方式,將該最終高斯圖元重建為網(wǎng)格體模型,并生成渲染深度圖像和rgb圖像。
46、所述的基于三維高斯濺射表征的多視角圖像重建裝置,其中該模型訓(xùn)練模塊包括:
47、預(yù)處理模塊,在相機(jī)坐標(biāo)系下剔除在相機(jī)背后的高斯圖元;根據(jù)相機(jī)位置、高斯圖元的位置、旋轉(zhuǎn)和縮放計(jì)算相機(jī)在高斯圖元局部坐標(biāo)下的位置,即s-1r-1(c-p),其中c是相機(jī)位置,p、r、s分別是高斯圖元的位置向量、旋轉(zhuǎn)矩陣、縮放矩陣;剔除高斯圖元局部坐標(biāo)系下相機(jī)位置向量長(zhǎng)度小于預(yù)設(shè)值的高斯圖元;根據(jù)高斯圖元局部坐標(biāo)系下相機(jī)位置向量長(zhǎng)度r計(jì)算圓錐面斜角的正切值t以及該向量的方向向量d;計(jì)算高斯圖元局部坐標(biāo)系圓錐協(xié)方差covl=i-(t2+1)*d*dt,其中i為單位矩陣;計(jì)算相機(jī)坐標(biāo)系下的圓錐協(xié)方差,即cov=(s-1r-1v-1)^t*covl*(s-1r-1v-1),其中v為相機(jī)旋轉(zhuǎn)矩陣;根據(jù)圓錐方程計(jì)算視平面上的截線方程cov-1,其中zfar為視平面距離,w、h為畫(huà)面寬、高;
48、
49、圓錐方程:xtcov-1x=0
50、聯(lián)立z=zfar,可得截線方程:
51、ax^2+by^2+cz^2+2dxy+2exz+2fyz=0
52、a(x-l)^2+b(y-h)^2+2d(x-l)(y-h)=c
53、對(duì)應(yīng):
54、
55、對(duì)應(yīng)屏幕空間下的二維高斯分布:
56、協(xié)方差:
57、均值:
58、根據(jù)屏幕中心位置和協(xié)方差過(guò)濾掉在畫(huà)面外的高斯圖元和投影為雙曲面的高斯圖元;根據(jù)r、d計(jì)算相機(jī)坐標(biāo)系下深度參考平面方程,其中x,y為像素在屏幕空間下的坐標(biāo)局部坐標(biāo)系下深度參考平面方程為:
59、
60、相機(jī)坐標(biāo)系下,深度參考平面方程為:
61、
62、相機(jī)坐標(biāo)系下,各像素對(duì)應(yīng)視線的射線參數(shù)方程為:
63、
64、解方程可得射線參數(shù)u以及深度d=u*zfar;
65、根據(jù)r、v計(jì)算圖元法線,法線調(diào)整為與相機(jī)z方向夾角小于90度;計(jì)算圖元覆蓋范圍;
66、計(jì)算圖元顏色:從球諧函數(shù)分別計(jì)算rgb分量;類型屬性大于0時(shí),根據(jù)配置調(diào)整rgb分量;
67、根據(jù)參考平面計(jì)算圖元在各塊中心處的深度;根據(jù)位置id和中心深度排序;各塊收集相關(guān)圖元的rgb、二維協(xié)方差、深度平面、法線信息;逐像素計(jì)算概率密度函數(shù),篩除不透明度低于預(yù)設(shè)值的圖元;根據(jù)參考平面計(jì)算圖元在各像素處的深度;混合根據(jù)透明度混合rgb、深度和法線,對(duì)法線混合結(jié)果進(jìn)行歸一化;
68、后處理模塊,根據(jù)深度圖像計(jì)算屏幕空間法線,并對(duì)深度圖像進(jìn)行歸一化;
69、該模型訓(xùn)練模塊包括:
70、損失loss計(jì)算模塊,根據(jù)渲染結(jié)果和參考圖像計(jì)算rgb損失lrgb,添加累計(jì)法線的自監(jiān)督拉普拉斯損失函數(shù)rn和基于屏幕空間法線的三維旋轉(zhuǎn)損失rsn,以及形狀約束正則項(xiàng)rec;
71、通過(guò)laplace算子計(jì)算三維高斯濺射模型局部法線的差異,三維高斯濺射模型優(yōu)化過(guò)程中應(yīng)使得該差異最小化;通過(guò)深度圖像梯度信息近似檢測(cè)三維高斯濺射模型邊緣,作為屏蔽區(qū);
72、
73、基于視角大小以及深度信息,得到像素對(duì)應(yīng)的相機(jī)空間坐標(biāo),像素屏幕x、y方向相鄰像素對(duì)應(yīng)三維點(diǎn)間矢徑叉乘,得到該像素處的法線方向,并根據(jù)相機(jī)變換矩陣轉(zhuǎn)換到世界空間坐標(biāo)系下,從而與基于屏幕空間的法線圖像計(jì)算監(jiān)督差異,該監(jiān)督差異的計(jì)算采用三維旋轉(zhuǎn)損失函數(shù),適配三維高斯圖元光柵化結(jié)果不可定向的問(wèn)題;
74、
75、為約束圖元形狀,重建模塊添加形狀約束正則項(xiàng)rec,該正則用于引導(dǎo)圖元向扁平、均勻的形態(tài)變化:
76、
77、重建模塊的優(yōu)化目標(biāo)損失函數(shù)為:loss=lrgb+mask*(θd*rd+θsn*rsn)+rec,其中mask為深度圖像局部梯度遮罩;
78、該梯度回傳包括:根據(jù)各像素深度、法線、rgb梯度以及各圖元透明度計(jì)算各圖元透明度梯度、深度參考平面梯度、法線梯度、rgb梯度;根據(jù)各圖元透明度梯度計(jì)算對(duì)應(yīng)二維協(xié)方差梯度;根據(jù)各圖元二維協(xié)方差梯度、深度參考平面梯度、法線梯度計(jì)算圖元旋轉(zhuǎn)、位移、縮放梯度;根據(jù)各圖元rgb梯度計(jì)算球諧函數(shù)梯度;
79、該模型致密化包括:根據(jù)圖元y軸長(zhǎng)、場(chǎng)景尺寸,分類圖元為大圖元和小圖元,克隆梯度該小圖元并拆分該大圖元;剔除圖元尺寸超過(guò)預(yù)設(shè)值的圖元;剔除z軸長(zhǎng)大于x軸長(zhǎng)達(dá)到預(yù)設(shè)倍數(shù)的圖元以及剔除離心率大于預(yù)設(shè)值的圖元。
80、通過(guò)可視化窗口對(duì)該三維高斯濺射模型進(jìn)行標(biāo)注和調(diào)整:
81、根據(jù)法線、屏幕空間法線、深度可視化選項(xiàng),在訓(xùn)練時(shí)實(shí)時(shí)查看三維高斯濺射模型的效果,并通過(guò)為該三維高斯濺射模型標(biāo)注類型,使該三維高斯濺射模型中不同類型的圖元按照不同的方式渲染。
82、本發(fā)明還提出了一種電子設(shè)備,包括所述的一種基于三維高斯濺射表征的多視角圖像重建裝置,該電子設(shè)備或連接有信息顯示設(shè)備,該信息顯示設(shè)備用于以用戶設(shè)置的顯示參數(shù)、屬性或通過(guò)人工智能模型,顯示該網(wǎng)格體模型、該渲染深度圖像和該rgb圖像。
83、本發(fā)明還提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述基于三維高斯濺射表征的多視角圖像重建方法的步驟。
84、本發(fā)明還提出了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其中該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述基于三維高斯濺射表征的多視角圖像重建方法的步驟。
85、由以上方案可知,本發(fā)明的優(yōu)點(diǎn)在于:
86、重建結(jié)果模型質(zhì)量較高、圖元分布致密、合理。本發(fā)明可應(yīng)用在植株葉片重建工作中,能較好地感知葉面曲率的變化,輸出圖元分布合理、形狀扁平、貼合頁(yè)面的三維高斯模型,同時(shí)在室外開(kāi)放場(chǎng)景、室內(nèi)場(chǎng)景重建中也有應(yīng)用,重建結(jié)果相較原三維高斯重建方法能提供更好的深度信息。本發(fā)明在多種場(chǎng)景中的重建結(jié)果均較原版有明顯提升,通過(guò)采集多視角深度渲染結(jié)果,經(jīng)過(guò)tsdf處理后可以獲得較好的網(wǎng)格模型,后續(xù)可以通過(guò)三維建模軟件對(duì)模型做進(jìn)一步調(diào)整,能較為便捷地融入工業(yè)化三維重建流程,其便利性、高效性能極大地縮減重建作業(yè)周期、降低重建成本、提高重建質(zhì)量。