本發(fā)明屬于目標(biāo)識(shí)別,具體涉及一種基于加權(quán)跨層級(jí)通道注意力機(jī)制的特征金字塔網(wǎng)絡(luò)檢測(cè)方法。
背景技術(shù):
1、在目標(biāo)檢測(cè)算法中,特征提取步驟很大程度上影響著后續(xù)檢測(cè)效果的穩(wěn)定。通過(guò)深度卷積網(wǎng)絡(luò),能夠很好的提取到圖像中的視覺(jué)特征信息,在特征提取過(guò)程中,淺層網(wǎng)絡(luò)提取的特征具有較高的分辨率,可以攜帶豐富的幾何細(xì)節(jié)信息,但感受野很小且缺乏語(yǔ)義信息,與之相反的是,深層特征具備較大的感受野以及豐富的語(yǔ)義信息,但分辨率不高,可能導(dǎo)致小目標(biāo)的特征丟失,這就導(dǎo)致了模型難以同時(shí)對(duì)極大和極小的物體同時(shí)進(jìn)行準(zhǔn)確的檢測(cè),這在無(wú)人機(jī)航拍場(chǎng)景下是尤為突出的。通過(guò)對(duì)不同尺度的特征圖進(jìn)行融合,可以得到同時(shí)包含語(yǔ)義信息和位置信息的特征圖,特征金字塔網(wǎng)絡(luò)(feature?pyramid?networks,fpn),將頂層特征通過(guò)上采樣和低層特征做融合,每層再進(jìn)行獨(dú)立預(yù)測(cè),實(shí)現(xiàn)了將高層的語(yǔ)義信息逐漸傳播到低層的功能,能夠提高目標(biāo)檢測(cè)算法對(duì)目標(biāo)尺度變換的適應(yīng)能力。
2、然而類(lèi)似特征金字塔網(wǎng)絡(luò)(fpn)這樣的特征融合算法仍存在一定的不足。首先簡(jiǎn)單加法融合或拼接融合無(wú)法根據(jù)輸入特征的重要性動(dòng)態(tài)調(diào)整融合權(quán)重,導(dǎo)致淺層細(xì)節(jié)特征和深層語(yǔ)義特征在融合時(shí)缺乏靈活性;其次簡(jiǎn)單的直接拼接可能會(huì)引入冗余信息,或忽視某些關(guān)鍵特征的貢獻(xiàn),尤其是在高維特征中;最后,在多層特征融合過(guò)程中,現(xiàn)有方法(如fpn)中對(duì)不同層級(jí)特征的處理通常是預(yù)定義的固定策略,未能通過(guò)網(wǎng)絡(luò)學(xué)習(xí)動(dòng)態(tài)調(diào)整各層級(jí)特征的重要性,這種固定分配可能會(huì)在不同任務(wù)或場(chǎng)景下導(dǎo)致融合效果不佳。
3、公開(kāi)號(hào)為cn118230117a的專(zhuān)利申請(qǐng)文件公開(kāi)了基于通道注意力機(jī)制和空間注意力機(jī)制交叉融合實(shí)現(xiàn)可見(jiàn)光特征圖和紅外特征圖自適應(yīng)融合的偽裝目標(biāo)檢測(cè)方法,該方法步驟包括:通過(guò)空間注意力機(jī)制和通道注意力機(jī)制分別捕獲紅外圖像和可見(jiàn)光圖像的空間注意力權(quán)重、通道注意力權(quán)重,之后通過(guò)交叉互聯(lián)的方式實(shí)現(xiàn)二者自適應(yīng)融合,生成高質(zhì)量融合特征。但是該方法存在的不足之處是:對(duì)兩種特征空間的特征圖分開(kāi)處理,在融合過(guò)程中忽視了兩個(gè)維度特征之間的關(guān)聯(lián)性,融合過(guò)程缺乏有效的通道篩選機(jī)制,導(dǎo)致信息冗余。
4、公開(kāi)號(hào)為cn118918310a的專(zhuān)利申請(qǐng)文件公開(kāi)了一種跨層級(jí)的多尺度特征融合方法,該方法步驟包括:通過(guò)跨層融合有效整合網(wǎng)絡(luò)生成的高層次與低層次特征,采用跨層融合策略相比逐層融合,更好地保留了各層之間的語(yǔ)義內(nèi)容,避免高級(jí)語(yǔ)義信息在經(jīng)過(guò)連續(xù)中間特征層融合后傳遞至表層卷積層時(shí)的丟失。但是該方法存在的不足之處是:在融合不同層級(jí)特征圖時(shí),采用直接逐點(diǎn)相加,忽略了不同層級(jí)特征圖之間的語(yǔ)義差異,無(wú)法自適應(yīng)地調(diào)整淺層與深層特征的重要性。
技術(shù)實(shí)現(xiàn)思路
1、為了克服上述現(xiàn)有技術(shù)存在的不足,本發(fā)明的目的在于提供一種基于加權(quán)跨層級(jí)通道注意力機(jī)制的特征金字塔網(wǎng)絡(luò)檢測(cè)方法,該網(wǎng)絡(luò)引入自適應(yīng)的特征融合權(quán)重,能夠動(dòng)態(tài)調(diào)整不同層級(jí)特征的重要性權(quán)重,提升融合特征的表達(dá)能力和網(wǎng)絡(luò)整體的檢測(cè)性能;通過(guò)跨層級(jí)的通道注意力機(jī)制,學(xué)習(xí)不同層級(jí)特征之間的相關(guān)性,再進(jìn)行特征融合,提高了層級(jí)間特征融合的效率,提升了目標(biāo)檢測(cè)的準(zhǔn)確性和魯棒性。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:
3、基于加權(quán)跨層級(jí)通道注意力機(jī)制的特征金字塔網(wǎng)絡(luò)檢測(cè)方法,包括以下步驟;
4、步驟1:向特征提取網(wǎng)絡(luò)中輸入原始圖像,生成多個(gè)尺度的特征圖;通過(guò)提取不同層次的特征信息,獲取不同深度層次的特征信息;提供豐富的上下文信息和細(xì)節(jié)語(yǔ)義;
5、步驟2:將所述多個(gè)尺度的特征圖輸入至基于加權(quán)跨層級(jí)通道注意力機(jī)制的特征金字塔網(wǎng)絡(luò)(wca-fpn),對(duì)多個(gè)尺度的特征圖進(jìn)行融合;
6、增強(qiáng)細(xì)節(jié)信息與語(yǔ)義信息的互補(bǔ)性,提高特征表示能力,為下游檢測(cè)任務(wù)提供高質(zhì)量特征圖;
7、步驟3:將融合后的特征圖集合輸入至檢測(cè)網(wǎng)絡(luò),輸出邊界框位置、目標(biāo)類(lèi)別、目標(biāo)置信度的檢測(cè)結(jié)果。
8、所述步驟1具體為:
9、輸入原始圖像至特征提取網(wǎng)絡(luò),所述特征提取網(wǎng)絡(luò)依次通過(guò)淺層特征模塊、中層特征模塊和深層特征模塊進(jìn)行特征提??;
10、特征提取網(wǎng)絡(luò)使用resnet50,所述多個(gè)尺度的特征圖來(lái)自不同深度網(wǎng)絡(luò)模塊的四組特征圖,覆蓋不同尺度和語(yǔ)義粒度。
11、所述四組特征圖分別為;
12、淺層特征c2,細(xì)節(jié)豐富,用于小目標(biāo)的精確定位。
13、中層特征c3、c4,用于平衡語(yǔ)義和空間信息,適合中尺度目標(biāo),其中c3仍然保持一定的空間分辨率,同時(shí)引入更多高級(jí)語(yǔ)義信息,c4相比c3,語(yǔ)義信息更豐富,但空間分辨率進(jìn)一步降低。
14、深層特征c5,語(yǔ)義強(qiáng),適合大尺度,用于目標(biāo)的分類(lèi)任務(wù)。
15、通過(guò)提取不同層次的特征信息,獲取不同深度層次的特征信息;提供豐富的上下文信息和細(xì)節(jié)語(yǔ)義;
16、上下文信息來(lái)自深層特征輸出,包含目標(biāo)的語(yǔ)義級(jí)別信息(如類(lèi)別、全局分布等);用于識(shí)別復(fù)雜背景中的高層語(yǔ)義模式。
17、細(xì)節(jié)語(yǔ)義來(lái)自淺層特征輸出,包含目標(biāo)的邊界、紋理和局部特征的細(xì)節(jié)信息,用于精確定位目標(biāo)的形狀和細(xì)節(jié)特征。這些特征圖覆蓋了從小尺度目標(biāo)到大尺度目標(biāo)的不同粒度。
18、所述特征提取網(wǎng)絡(luò)也可選用resnet18、yolo、efficientvit中的任意一種,以滿(mǎn)足不同場(chǎng)景的任務(wù)需求。其中,resnet50和resnet18適用于具有復(fù)雜背景的通用目標(biāo)檢測(cè)任務(wù),yolo和efficientvit適用于輕量化的實(shí)時(shí)檢測(cè)任務(wù),適合無(wú)人機(jī)目標(biāo)檢測(cè)、移動(dòng)端或資源受限的嵌入式場(chǎng)景。
19、所述步驟2中特征金字塔網(wǎng)絡(luò)對(duì)相鄰層級(jí)的兩個(gè)特征圖進(jìn)行處理,首先對(duì)兩張?zhí)卣鲌D的形狀進(jìn)行統(tǒng)一,然后分別經(jīng)過(guò)特征加權(quán)卷積、拼接與層歸一化、跨層級(jí)通道注意力機(jī)制三個(gè)步驟進(jìn)行特征融合。融合的過(guò)程從特征圖c5和c4開(kāi)始進(jìn)行,將深層的語(yǔ)義信息逐層往上傳遞,當(dāng)c5和c4進(jìn)行融合時(shí),對(duì)于這兩個(gè)相鄰的特征圖,c5是深層特征x2,c4是淺層特征x1,融合得到特征圖c4′,然后繼續(xù)往上融合傳遞;第二次是對(duì)融合后的c′4和c3特征圖進(jìn)行融合,此時(shí)c′4是深層特征x2,c3是淺層特征x1,得到融合特征圖c′3;最后對(duì)融合后的c′3和c2特征圖進(jìn)行融合,此時(shí)c′3是深層特征x2,c2是淺層特征x1,得到融合特征圖c′2。
20、共進(jìn)行以上三次相鄰特征圖融合操作,上述的每次相鄰特征圖融合操作具體步驟為:
21、2.1)相鄰層級(jí)特征圖包括:
22、深層特征x1,維度為[b,c1,h1,w1];
23、淺層特征x2,維度為[b,c2,h2,w2];
24、所述深層特征x1和淺層特征x2均指融合時(shí)兩個(gè)相鄰特征圖的相對(duì)深度,
25、其中b為批量大小,c1和c2分別為深層特征x1和淺層特征x2的通道數(shù),h1,w1和h2,w2分別為深層特征x1和淺層特征x2的高度和寬度,其中深層特征x1包含更加豐富的高級(jí)語(yǔ)義信息,而淺層特征x2則包含更豐富的空間細(xì)節(jié)信息;
26、2.2)形狀統(tǒng)一操作包括:
27、對(duì)深層特征x1進(jìn)行二倍上采樣,使其高度和寬度與淺層特征x2統(tǒng)一,然后再對(duì)深層特征x1進(jìn)行1×1卷積操作,使其通道數(shù)與淺層特征x2統(tǒng)一,經(jīng)過(guò)形狀統(tǒng)一操作,深層特征x1和淺層特征x2的維度均被統(tǒng)一成[b,c,h,w];
28、2.3)特征加權(quán)卷積具體過(guò)程如下:
29、首先,對(duì)深層特征x1進(jìn)行3×3卷積,提取初步特征,然后通過(guò)一個(gè)可學(xué)習(xí)的通道權(quán)重參數(shù)wfusion對(duì)淺層特征x1進(jìn)行顯示加權(quán),獲取深層特征x1′;
30、2.4)特征拼接與層歸一化操作具體過(guò)程如下:
31、將加權(quán)后的深層特征x1′與淺層特征x2在通道維度上拼接,形成融合特征:
32、xconcat=concat(x1′,x2)
33、其中,
34、拼接后的融合特征融合了淺層的細(xì)節(jié)信息和深層的語(yǔ)義信息,同時(shí)擴(kuò)充特征通道數(shù)量,為后續(xù)的處理提供更豐富的信息。
35、拼接后的融合特征xconcat通過(guò)層歸一化進(jìn)行標(biāo)準(zhǔn)化處理,歸一化公式如下:
36、
37、其中μ和σ分別為每個(gè)樣本的均值和標(biāo)準(zhǔn)差,計(jì)算公式為:
38、
39、其中,γ和β是可學(xué)習(xí)的縮放和平移參數(shù),維度與輸入通道一致。ò是一個(gè)極小的常數(shù),確保數(shù)值穩(wěn)定性。
40、對(duì)拼接后的特征做層歸一化操作能夠統(tǒng)一不同層級(jí)特征圖的尺度和方差,使他們具有相同的分布,同時(shí)又保證了統(tǒng)一批量中不同樣本的獨(dú)立性,能夠提高模型的訓(xùn)練穩(wěn)定性,還能夠提高網(wǎng)絡(luò)的學(xué)習(xí)效率。
41、2.5)跨層級(jí)通道注意力機(jī)制如下:
42、為了進(jìn)一步提高融合特征的表達(dá)能力,使用通道注意力機(jī)制對(duì)層歸一化后的特征圖進(jìn)行加權(quán)。所述步驟2.3)具體為:
43、具體實(shí)施步驟為:
44、2.3.1)卷積操作:深層特征x1進(jìn)行3×3卷積,提取初步特征;
45、xconv=conv(x1)
46、其中
47、2.3.2)融合權(quán)重加權(quán):使用通道權(quán)重參數(shù)wfusion對(duì)xconv進(jìn)行加權(quán):
48、x1′=wfusion·xconv
49、其中是一個(gè)維度為c的一維可學(xué)習(xí)向量,初始值為1;
50、加權(quán)過(guò)程通過(guò)廣播機(jī)制將wfusion擴(kuò)展到[b,c,h,w]的形狀后,與xconv逐元素相乘。wfusion是通過(guò)學(xué)習(xí)得到的最優(yōu)的通道權(quán)重,通過(guò)該參數(shù)對(duì)特征圖顯示加權(quán),能夠?qū)崿F(xiàn)在不同深度的相鄰特征圖進(jìn)行融合的時(shí)候動(dòng)態(tài)調(diào)整特征通道的重要性,突出關(guān)鍵通道,抑制無(wú)關(guān)信息。
51、所述步驟2.5)具體為:
52、具體實(shí)施步驟為:
53、2.5.1)對(duì)融合特征每個(gè)通道的特征圖通過(guò)自適應(yīng)全局平均池化,提取通道級(jí)的全局信息:
54、
55、其中
56、2.5.2)特征壓縮與激活,使用兩個(gè)1×1的卷積核對(duì)全局特征進(jìn)行通道維度上的壓縮與擴(kuò)展:
57、yattn=σ(w2·relu(w1·yavg))
58、其中,w1和w2表示兩個(gè)1×1的卷積操作,分別用于通道特征的壓縮與擴(kuò)展,relu(·)表示激活函數(shù),σ(·)表示為sigmoid激活函數(shù),用于將權(quán)重映射到(0,1)范圍內(nèi)。
59、2.5.3)通道加權(quán),將生成的通道權(quán)重yattn與輸入特征進(jìn)行逐通道相乘,實(shí)現(xiàn)通道加權(quán)。
60、
61、2.5.4)輸出特征,最后通過(guò)一個(gè)1×1的卷積層,對(duì)通道注意力加權(quán)后的特征進(jìn)一步做通道壓縮,得到最終輸出。
62、xout=conv(xattn)
63、經(jīng)過(guò)通道注意力機(jī)制加權(quán)和卷積融合后,輸出最終的融合特征圖該特征圖同時(shí)包含淺層的空間細(xì)節(jié)信息與深層的語(yǔ)義信息,具備更強(qiáng)的特征表示能力,可用于目標(biāo)檢測(cè)、圖像分類(lèi)等視覺(jué)任務(wù)。
64、所述步驟3具體為:
65、利用融合后的多尺度特征圖進(jìn)行目標(biāo)檢測(cè)任務(wù),完成目標(biāo)的邊界框定位與類(lèi)別預(yù)測(cè),輸出檢測(cè)結(jié)果,融合后的特征圖集合為{xout,1,xout,2,xout,3,xout,4},特征圖集合包含了不同層次的語(yǔ)義信息和細(xì)節(jié)信息,語(yǔ)義信息和細(xì)節(jié)信息作為輸入以供不同的目標(biāo)檢測(cè)框架使用。
66、具體包括以下實(shí)現(xiàn)方式:
67、3.1)基于fasterr-cnn的檢測(cè)流程
68、將多尺度融合特征圖輸入fasterr-cnn的區(qū)域建議網(wǎng)絡(luò)(rpn),rpn通過(guò)滑動(dòng)窗口在特征圖上生成候選區(qū)域,完成目標(biāo)區(qū)域的初步篩選,同時(shí)預(yù)測(cè)每個(gè)候選框的前景或背景得分;
69、將區(qū)域建議網(wǎng)絡(luò)(rpn)生成的候選框輸入roialign網(wǎng)絡(luò),映射回融合特征圖,進(jìn)行精確的目標(biāo)類(lèi)別分類(lèi)和邊界框回歸,最終輸出每個(gè)目標(biāo)的類(lèi)別和精確位置;
70、3.2)基于yolo的檢測(cè)流程
71、將融合后的多尺度特征圖直接輸入yolo檢測(cè)頭,yolo網(wǎng)絡(luò)通過(guò)在特征圖上劃分網(wǎng)格,預(yù)測(cè)每個(gè)網(wǎng)格單元中的目標(biāo)邊界框及其對(duì)應(yīng)的類(lèi)別得分。
72、本發(fā)明的有益效果:
73、(1)本發(fā)明通過(guò)引入顯式的特征加權(quán)機(jī)制,采用可學(xué)習(xí)參數(shù)wfusion對(duì)輸入特征圖進(jìn)行動(dòng)態(tài)調(diào)整,使得特征圖在融合過(guò)程中能夠根據(jù)任務(wù)需求自適應(yīng)地突出信息豐富的重要特征通道。通過(guò)顯式加權(quán),網(wǎng)絡(luò)能夠?qū)W習(xí)不同層級(jí)特征圖的不同特征通道所包含特征信息的重要性,避免信息丟失。與固定權(quán)重的融合方法相比,自適應(yīng)加權(quán)策略能夠以較低的計(jì)算開(kāi)銷(xiāo)提升融合特征的表示能力,從而優(yōu)化網(wǎng)絡(luò)性能。
74、(2)本發(fā)明提出的模塊,在拼接淺層特征和深層特征時(shí),結(jié)合k跨層級(jí)通道注意力機(jī)制,自適應(yīng)地生成權(quán)重分布,突出對(duì)任務(wù)有貢獻(xiàn)的通道,抑制冗余通道的信息干擾,進(jìn)一步提升融合特征的質(zhì)量,實(shí)現(xiàn)了細(xì)節(jié)與語(yǔ)義信息的互補(bǔ)增強(qiáng)。淺層特征提供局部的空間細(xì)節(jié),深層特征提供全局的語(yǔ)義信息。本模塊的融合策略有效結(jié)合了兩者的優(yōu)勢(shì),彌補(bǔ)了單層特征在信息表達(dá)上的局限性。對(duì)于目標(biāo)檢測(cè)中的復(fù)雜場(chǎng)景(如包含多尺度目標(biāo)的圖像),跨層級(jí)融合策略能夠使模型同時(shí)關(guān)注到小目標(biāo)的細(xì)節(jié)和大目標(biāo)的全局語(yǔ)義,提升檢測(cè)的魯棒性。
75、(3)本發(fā)明在模塊設(shè)計(jì)中采用了輕量化的架構(gòu),主要由卷積操作、層歸一化和1×1卷積構(gòu)成,顯著降低了計(jì)算復(fù)雜度和參數(shù)量。相比于傳統(tǒng)注意力模塊(如se?block)依賴(lài)復(fù)雜的全連接層計(jì)算,本模塊僅使用了簡(jiǎn)單的1×1卷積進(jìn)行通道壓縮與擴(kuò)展,計(jì)算效率更高。模塊結(jié)構(gòu)簡(jiǎn)單、參數(shù)量少,能夠無(wú)縫嵌入現(xiàn)有的網(wǎng)絡(luò)架構(gòu)(如faster?r-cnn、yolo、efficientvit等),在不顯著增加網(wǎng)絡(luò)復(fù)雜度的情況下,能夠方便地?cái)U(kuò)展至多尺度特征融合任務(wù),從而適應(yīng)各種視覺(jué)任務(wù)需求。
76、(4)經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,本模塊能夠在目標(biāo)檢測(cè)任務(wù)中取得一定的性能提升,融合后的特征能夠更清晰地表達(dá)目標(biāo)的位置和類(lèi)別信息。實(shí)驗(yàn)表明,將本模塊嵌入faster?r-cnn、yolo以及efficientvit這幾種網(wǎng)絡(luò)架構(gòu)后,在公開(kāi)的visdrone數(shù)據(jù)集上的檢測(cè)性能提升顯著,尤其在小目標(biāo)檢測(cè)場(chǎng)景中效果更加突出。在處理多樣化的輸入數(shù)據(jù)(如不同分辨率、復(fù)雜背景或遮擋場(chǎng)景)時(shí),融合后的特征更加穩(wěn)定,模型表現(xiàn)出更強(qiáng)的魯棒性。
77、綜上所述,本發(fā)明通過(guò)創(chuàng)新的自適應(yīng)加權(quán)機(jī)制和跨層級(jí)通道注意力機(jī)制,在實(shí)現(xiàn)跨層級(jí)特征高效融合的同時(shí),保持了輕量化的設(shè)計(jì),顯著提升了視覺(jué)任務(wù)的性能與適應(yīng)性。實(shí)驗(yàn)結(jié)果證明,本模塊在目標(biāo)檢測(cè)任務(wù)中展現(xiàn)了卓越的表現(xiàn),為多場(chǎng)景的目標(biāo)檢測(cè)應(yīng)用提供了一種優(yōu)異的解決方案。