本技術涉及計算機技術的領域,尤其是涉及基于大數(shù)據(jù)人工智能的數(shù)字主播虛擬形象生成方法及系統(tǒng)。
背景技術:
1、隨著人工智能、ai創(chuàng)作等技術的發(fā)展,在數(shù)字媒體領域通過虛擬形象、數(shù)字主播等進行新聞播報的應運而生,使得新聞播報不再需要由真人備稿出境進行播音主持,減少了人力成本以及播報出錯等。
2、但數(shù)字主播在進行新聞播報時,由于數(shù)字主播在新聞視頻中的位置通常由相關人員設定,但數(shù)字主播的形象會遮擋一部分新聞視頻,從而造成新聞視頻中信息展示的缺失,因此如何減少數(shù)字主播的遮擋導致的信息展示缺失成為一個問題。
技術實現(xiàn)思路
1、為了減少數(shù)字主播的遮擋導致的信息展示缺失,本技術提供基于大數(shù)據(jù)人工智能的數(shù)字主播虛擬形象生成方法及系統(tǒng)。
2、第一方面,本技術提供基于大數(shù)據(jù)人工智能的數(shù)字主播虛擬形象生成方法,采用如下的技術方案:
3、基于大數(shù)據(jù)人工智能的數(shù)字主播虛擬形象生成方法,包括:
4、獲取新聞的播報文字和播報視頻;
5、對所述播報文字進行分詞處理得到所述播報文字的多個第一詞語組合;
6、對所述播報視頻進行文字識別和特征識別得到所述播報視頻中的第二詞語組合以及特征;
7、基于所述第一詞語組合、第二詞語組合和特征確定所述新聞的所屬新聞領域;
8、基于所述所屬新聞領域確定基準數(shù)字主播的穿著并將所述穿著映射到所述基準數(shù)字主播上,得到目標數(shù)字主播;
9、基于所述播報視頻確定所述目標數(shù)字主播的位置,并將所述目標數(shù)字主播映射至所述播報視頻中的所述位置上。
10、通過采用上述技術方案,獲取播報文字和播報視頻便于后續(xù)進行分析,對播報文字進行分詞處理得到組成播報文字的多個第一詞語組合,對播報視頻進行文字識別和特征識別得到播報視頻中的第二詞語組合,第一詞語組合、第二詞語組合以及播報視頻中的特征都是反應新聞所屬新聞領域的關鍵因素,因此根據(jù)第一詞語組合、第二詞語組合以及特征能夠準確地確定出新聞的所屬新聞領域,確定出所需新聞領域后,確定出基準數(shù)字主播身上的穿著,從而使得數(shù)字主播的形象更貼合新聞領域,然后將穿著映射到基準數(shù)字主播上得到目標數(shù)字主播,由于播報視頻中各個位置的畫面變化不同,因此根據(jù)播報視頻確定出目標數(shù)字主播在播報視頻上的位置,即對新聞播報造成信息缺失最少得位置,并將目標數(shù)字主播映射到確定出的位置上,最終實現(xiàn)了減少數(shù)字主播的遮擋導致的信息展示缺失的效果。
11、在另一種可能實現(xiàn)的方式中,每個新聞領域對應一個預設詞語庫以及一個預設特征庫,所述基于所述第一詞語組合、第二詞語組合和特征確定所述新聞的所屬新聞領域,包括:
12、確定所述多個第一詞語組合以及第二詞語組合在每個預設詞語庫中的第一數(shù)量;
13、確定所述多個特征在每個預設特征庫中的第二數(shù)量;
14、確定多個目標數(shù)據(jù)集,每個目標數(shù)據(jù)集為每個第二詞語組合以及在播報視頻在每個第二詞語組合出現(xiàn)時間點的畫面中的特征;
15、確定每個目標數(shù)據(jù)集命中的新聞領域以及命中的每個新聞領域的次數(shù)的第三數(shù)量,并將第三數(shù)量最多的新聞領域確定每個目標數(shù)據(jù)集的偏好領域;
16、基于所第一數(shù)量、第二數(shù)量以及偏好領域確定所述新聞的所屬新聞領域。
17、在另一種可能實現(xiàn)的方式中,所述基于所第一數(shù)量、第二數(shù)量以及偏好領域確定所述新聞的所屬新聞領域,包括:
18、對所述第一數(shù)量進行排序得到第一數(shù)量最多的目標預設詞語庫;
19、對所述第二數(shù)量進行排序得到第二數(shù)量最多的目標預設特征庫;
20、將全部目標數(shù)據(jù)集的偏好領域進行歸納得到出現(xiàn)次數(shù)最多的目標偏好領域;
21、若所述目標預設詞語庫的新聞領域、目標預設特征庫的新聞領域以及目標偏好領域存在至少兩個相同,則將所述至少兩個相同的領域確定未所述新聞的所屬新聞領域。
22、在另一種可能實現(xiàn)的方式中,所述基于所述播報視頻確定所述目標數(shù)字主播的位置,包括:
23、對所述目標數(shù)字主播進行邊緣檢測得到所述目標數(shù)字主播的輪廓;
24、將所述輪廓映射到所述播報視頻中左下角的起始位置,并按照預設步長對所述輪廓進行橫向平移得到多個待選區(qū)域,所述待選區(qū)域包括所述輪廓位于起始位置時所在區(qū)域;
25、按照每個待選區(qū)域對所述播報視頻進行分割,得到每個待選區(qū)域的區(qū)域視頻;
26、確定每個區(qū)域視頻的每幀畫面,計算每幀畫面的第一信息熵以及相鄰畫面之間的相似度;
27、以所述輪廓為中心并按照預設寬度繪制目標區(qū)域,并按照所述目標區(qū)域對播報視頻的每幀畫面進行分割,得到每個待選區(qū)域的目標區(qū)域畫面;
28、確定相鄰兩幀畫面之間的相同位置的像素差值,得到絕對差分圖,并計算每個絕對差分圖的差異熵;
29、基于所述第一信息熵、差異熵以及相似度確定每個待選區(qū)域的第一重要度;
30、計算每個區(qū)域視頻的每個目標區(qū)域畫面的第二信息熵并確定所述輪廓兩側像素的灰度值;
31、基于所述第二信息熵以及灰度值確定每個待選區(qū)域的第二重要度;
32、基于所述第一重要度和第二重要度確定總重要度,并將總重要度最低的待選區(qū)域確定為所述目標數(shù)字主播的位置。
33、在另一種可能實現(xiàn)的方式中,所述基于所述第一信息熵、差異熵以及相似度確定每個待選區(qū)域的第一重要度,包括:
34、計算每個區(qū)域視頻的信息熵的第一平均值以及每個絕對差分圖的差異熵平均值;
35、計算每個區(qū)域視頻的相鄰畫面的相似度的第二平均值以及相似度方差;
36、基于所述第一平均值、差異熵平均值、第二平均值、相似度方差以及各自對應的系數(shù)確定第一重要度。
37、在另一種可能實現(xiàn)的方式中,所述基于所述第二信息熵以及灰度值確定每個待選區(qū)域的第二重要度,包括:
38、將每個區(qū)域視頻的每個目標區(qū)域畫面分隔成多個子區(qū)域畫面;
39、確定每個子區(qū)域畫面在輪廓兩側各自對應的灰度值的第三平均值并確定出第三平均值的差值;
40、對所述每個子區(qū)域畫面的差值進行求和得到每個目標區(qū)域畫面關于所述差值的總和值;
41、基于所述每個子區(qū)域畫面的總和值確定每個待選區(qū)域關于所述總和值的第四平均值,基于所述每個子區(qū)域畫面的第二信息熵確定出每個待選區(qū)域關于第二信息熵的第五平均值,基于所述第四平均值、第第五平均值以及各自對應的系數(shù)確定出所述每個待選區(qū)域的第二重要度。
42、在另一種可能實現(xiàn)的方式中,每個所屬新聞領域對應多個預設穿著組合,每個預設穿著組合對應有多個標簽,所述基于所述所屬新聞領域確定基準數(shù)字主播的穿著,包括:
43、確定所述第一詞語組合、第二詞語組合以及特征命中每個預設穿著組合的標簽的第四數(shù)量;
44、將第四數(shù)量最多的預設穿著組合確定為所述基準數(shù)字主播的穿著。
45、第二方面,本技術提供基于大數(shù)據(jù)人工智能的數(shù)字主播虛擬形象生成系統(tǒng),采用如下的技術方案:
46、基于大數(shù)據(jù)人工智能的數(shù)字主播虛擬形象生成系統(tǒng),包括:
47、獲取模塊,用于獲取新聞的播報文字和播報視頻;
48、第一處理模塊,用于對所述播報文字進行分詞處理得到所述播報文字的多個第一詞語組合;
49、第二處理模塊,用于對所述播報視頻進行文字識別和特征識別得到所述播報視頻中的第二詞語組合以及特征;
50、領域確定模塊,用于基于所述第一詞語組合、第二詞語組合和特征確定所述新聞的所屬新聞領域;
51、穿著映射模塊,用于基于所述所屬新聞領域確定基準數(shù)字主播的穿著并將所述穿著映射到所述基準數(shù)字主播上,得到目標數(shù)字主播;
52、位置映射模塊,用于基于所述播報視頻確定所述目標數(shù)字主播的位置,并將所述目標數(shù)字主播映射至所述播報視頻中的所述位置上。
53、通過采用上述技術方案,獲取模塊獲取播報文字和播報視頻便于后續(xù)進行分析,第一處理模塊對播報文字進行分詞處理得到組成播報文字的多個第一詞語組合,第二處理模塊對播報視頻進行文字識別和特征識別得到播報視頻中的第二詞語組合,第一詞語組合、第二詞語組合以及播報視頻中的特征都是反應新聞所屬新聞領域的關鍵因素,因此領域確定模塊根據(jù)第一詞語組合、第二詞語組合以及特征能夠準確地確定出新聞的所屬新聞領域,確定出所需新聞領域后,穿著映射模塊確定出基準數(shù)字主播身上的穿著,從而使得數(shù)字主播的形象更貼合新聞領域,然后將穿著映射到基準數(shù)字主播上得到目標數(shù)字主播,由于播報視頻中各個位置的畫面變化不同,因此位置映射模塊根據(jù)播報視頻確定出目標數(shù)字主播在播報視頻上的位置,即對新聞播報造成信息缺失最少得位置,并將目標數(shù)字主播映射到確定出的位置上,最終實現(xiàn)了減少數(shù)字主播的遮擋導致的信息展示缺失的效果。
54、在另一種可能的實現(xiàn)方式中,每個新聞領域對應一個預設詞語庫以及一個預設特征庫,所述領域確定模塊在基于所述詞語組合和特征確定所述新聞的所屬新聞領域時,具體用于:
55、確定所述多個第一詞語組合以及第二詞語組合在每個預設詞語庫中的第一數(shù)量;
56、確定所述多個特征在每個預設特征庫中的第二數(shù)量;
57、確定多個目標數(shù)據(jù)集,每個目標數(shù)據(jù)集為每個第二詞語組合以及在播報視頻在每個第二詞語組合出現(xiàn)時間點的畫面中的特征;
58、確定每個目標數(shù)據(jù)集命中的新聞領域以及命中的每個新聞領域的次數(shù)的第三數(shù)量,并將第三數(shù)量最多的新聞領域確定每個目標數(shù)據(jù)集的偏好領域;
59、基于所第一數(shù)量、第二數(shù)量以及偏好領域確定所述新聞的所屬新聞領域。
60、在另一種可能的實現(xiàn)方式中,所述領域確定模塊在基于所第一數(shù)量、第二數(shù)量以及偏好領域確定所述新聞的所屬新聞領域時,具體用于:
61、對所述第一數(shù)量進行排序得到第一數(shù)量最多的目標預設詞語庫;
62、對所述第二數(shù)量進行排序得到第二數(shù)量最多的目標預設特征庫;
63、將全部目標數(shù)據(jù)集的偏好領域進行歸納得到出現(xiàn)次數(shù)最多的目標偏好領域;
64、若所述目標預設詞語庫的新聞領域、目標預設特征庫的新聞領域以及目標偏好領域存在至少兩個相同,則將所述至少兩個相同的領域確定未所述新聞的所屬新聞領域。
65、在另一種可能的實現(xiàn)方式中,所述位置映射模塊在基于所述播報視頻確定所述目標數(shù)字主播的位置時,具體用于:
66、對所述目標數(shù)字主播進行邊緣檢測得到所述目標數(shù)字主播的輪廓;
67、將所述輪廓映射到所述播報視頻中左下角的起始位置,并按照預設步長對所述輪廓進行橫向平移得到多個待選區(qū)域,所述待選區(qū)域包括所述輪廓位于起始位置時所在區(qū)域;
68、按照每個待選區(qū)域對所述播報視頻進行分割,得到每個待選區(qū)域的區(qū)域視頻;
69、確定每個區(qū)域視頻的每幀畫面,計算每幀畫面的第一信息熵以及相鄰畫面之間的相似度;
70、以所述輪廓為中心并按照預設寬度繪制目標區(qū)域,并按照所述目標區(qū)域對播報視頻的每幀畫面進行分割,得到每個待選區(qū)域的目標區(qū)域畫面;
71、確定相鄰兩幀畫面之間的相同位置的像素差值,得到絕對差分圖,并計算每個絕對差分圖的差異熵;
72、基于所述第一信息熵、差異熵以及相似度確定每個待選區(qū)域的第一重要度;
73、計算每個區(qū)域視頻的每個目標區(qū)域畫面的第二信息熵并確定所述輪廓兩側像素的灰度值;
74、基于所述第二信息熵以及灰度值確定每個待選區(qū)域的第二重要度;
75、基于所述第一重要度和第二重要度確定總重要度,并將總重要度最低的待選區(qū)域確定為所述目標數(shù)字主播的位置。
76、在另一種可能的實現(xiàn)方式中,所述位置映射模塊在基于所述第一信息熵、差異熵以及相似度確定每個待選區(qū)域的第一重要度時,具體用于:
77、計算每個區(qū)域視頻的信息熵的第一平均值以及每個絕對差分圖的差異熵平均值;
78、計算每個區(qū)域視頻的相鄰畫面的相似度的第二平均值以及相似度方差;
79、基于所述第一平均值、差異熵平均值、第二平均值、相似度方差以及各自對應的系數(shù)確定第一重要度。
80、在另一種可能的實現(xiàn)方式中,所述位置映射模塊在基于所述第二信息熵以及灰度值確定每個待選區(qū)域的第二重要度時,具體用于:
81、將每個區(qū)域視頻的每個目標區(qū)域畫面分隔成多個子區(qū)域畫面;
82、確定每個子區(qū)域畫面在輪廓兩側各自對應的灰度值的第三平均值并確定出第三平均值的差值;
83、對所述每個子區(qū)域畫面的差值進行求和得到每個目標區(qū)域畫面關于所述差值的總和值;
84、基于所述每個子區(qū)域畫面的總和值確定每個待選區(qū)域關于所述總和值的第四平均值,基于所述每個子區(qū)域畫面的第二信息熵確定出每個待選區(qū)域關于第二信息熵的第五平均值,基于所述第四平均值、第第五平均值以及各自對應的系數(shù)確定出所述每個待選區(qū)域的第二重要度。
85、在另一種可能的實現(xiàn)方式中,每個所屬新聞領域對應多個預設穿著組合,每個預設穿著組合對應有多個標簽,所述穿著映射模塊在基于所述所屬新聞領域確定基準數(shù)字主播的穿著時,具體用于:
86、確定所述第一詞語組合、第二詞語組合以及特征命中每個預設穿著組合的標簽的第四數(shù)量;
87、將第四數(shù)量最多的預設穿著組合確定為所述基準數(shù)字主播的穿著。
88、第三方面,本技術提供一種電子設備,采用如下的技術方案:
89、一種電子設備,該電子設備包括:
90、至少一個處理器;
91、存儲器;
92、至少一個應用程序,其中至少一個應用程序被存儲在存儲器中并被配置為由至少一個處理器執(zhí)行,至少一個配置用于:執(zhí)行根據(jù)第一方面任一種可能的實現(xiàn)方式所示的基于大數(shù)據(jù)人工智能的數(shù)字主播虛擬形象生成方法。
93、第四方面,本技術提供一種計算機可讀存儲介質(zhì),采用如下的技術方案:
94、一種計算機可讀存儲介質(zhì),當所述計算機程序在計算機中執(zhí)行時,令所述計算機執(zhí)行第一方面任一項所述的基于大數(shù)據(jù)人工智能的數(shù)字主播虛擬形象生成方法。
95、綜上所述,本技術包括以下至少一種有益技術效果:
96、獲取播報文字和播報視頻便于后續(xù)進行分析,對播報文字進行分詞處理得到組成播報文字的多個第一詞語組合,對播報視頻進行文字識別和特征識別得到播報視頻中的第二詞語組合,第一詞語組合、第二詞語組合以及播報視頻中的特征都是反應新聞所屬新聞領域的關鍵因素,因此根據(jù)第一詞語組合、第二詞語組合以及特征能夠準確地確定出新聞的所屬新聞領域,確定出所需新聞領域后,確定出基準數(shù)字主播身上的穿著,從而使得數(shù)字主播的形象更貼合新聞領域,然后將穿著映射到基準數(shù)字主播上得到目標數(shù)字主播,由于播報視頻中各個位置的畫面變化不同,因此根據(jù)播報視頻確定出目標數(shù)字主播在播報視頻上的位置,即對新聞播報造成信息缺失最少得位置,并將目標數(shù)字主播映射到確定出的位置上,最終實現(xiàn)了減少數(shù)字主播的遮擋導致的信息展示缺失的效果。