本體支持的視頻語義概念探測

1 引言視頻語義內容分析的目標是抽取視頻包含的高層語義內容,為用户提供語義概念的視頻瀏覽、檢索服務,語義概念探測是實現這一目標的核心步驟,併成為近期視頻語義內容分析領域的重要研究方向。

本體支持的視頻語義概念探測

以往的視頻概念探測主要採用基於內容的方法,即通過抽取概念具有的低層特徵,學習某種關聯模型(基於規則的或是基於統計機器學習的),直接的、獨立的建立低層特徵與概念之間的關聯,探測視頻概念。

基於規則的方法是在抽取特徵的基礎上,對特徵進行簡單或者複雜的閾值判定。這種關聯模型的缺點是閾值確定難、算法不魯棒,並且簡單的閾值判斷難以有效的表徵概念具有的特徵多樣性。因此,目前採用較多的是基於統計機器學習的關聯模型,即通過某個機器學習模型學習標註的樣本數據中低層特徵與視頻概念之間的統計概率關聯模式,然後採用訓練好的機器學習模型對新的樣本進行識別,探測視頻概念。目前的研究表明,支持向量。

和最大熵模型(maximum entropy model,簡稱mem)是兩類較為有效的用於概念探測的機器學習模型。

但是,由於語義鴻溝的存在,低層特徵和高層語義的關聯並不是一一對應。不同的視頻概念可能具有相似的低層特徵,相同的視頻概念也可能具有完全不同的低層特徵,基於內容的獨立概念探測方法難以克服這個問題。另一方面,視頻中的概念並不是獨立出現的,不同的概念總是同時出現在視頻幀序列中。顯然,不同概念的共現性將增加低層特徵模式的複雜性,進而影響獨立的概念探測性能。但是,從另外一個角度思考,不同概念間的關係信息也為概念探測提供了重要的上下文信息,例如:包含“汽車”概念的視頻片段,具有很大的可能包含有“道路”概念。重要的是如何有效的建模和利用這些信息。

針對語義概念探測存在的困難,本文提出了本體支持的視頻語義概念探測方法。一方面通過定義中層語義以減小語義鴻溝,建立低層特徵與高層語義關聯的橋樑;另一方面利用概念間的關係和上下文語境,在概念探測中加入語義線索,提高概念探測器的語義識別能力。查看更多網絡營銷畢業論文

而本體作為合適的知識建模工具可以有效的描述視頻語義內容和建模領域知識,因此利用本體增強概念探測的語義表達和識別能力是必需的也是可行的。

2 本體支持的概念探測框架視頻內容跨越了低層感知特徵、感知特徵模式、簡單語義概念、複雜語義概念諸多層次,並不是簡單的特徵層和語義層就能表示的;更為重要的是,這種層次結構建立了視頻內容從低層特徵到高層語義的內在關聯過程,為跨越語義鴻溝提供了有效途徑。另一方面,視頻語義內容分析的本質就是各個層次內容的分析抽取和各個層次之間關聯的建立。

基於以上分析,定義感知概念和語義概念如下:

定義 1 感知概念 (perception concept)感知概念是視頻中特徵相似、反覆出現的感知特徵模式的抽象。這裏的低層感知特徵模式指視頻流中具有相同視覺或聽覺特徵模式的時序或空間分割,例如:具有相同顏色特徵的區域、具有相同音頻特徵的視頻片段等,是語義概念在低層感知特徵空間中最基本的表徵。

定義 2 語義概念 (semantic concept)語義概念對應視頻中的特定時間片段或空間區域。語義概念是用户分析視頻內容時關心的基本概念;從低層特徵上看,語義概念具有明顯的、容易區別的低層感知特徵模式,能夠表現為一個感知概念或多個感知概念和其關係的組合。

在上述概念定義的基礎上,提出視頻領域知識本體和視頻概念擴展本體建模上下文信息和視頻低層特徵與高層概念的關聯關係。

定義視頻領域知識本體(video knowledge ontology,簡稱vko)為一個二元組,表示視頻領域知識中的概念的集合和概念間關係的集合。概念表示為一個五元組:名稱、標籤、關係集、同義詞集、描述文本;概念間語義關係包括四類:kind ? of 關係、instance ? of關係、part ? of 關係、attribute ? of 關係。需要指出的是,在實際知識建模過程中,概念間的關係不限於上述定義幾種基本關係,可以根據目標領域的具體情況定義相應的關係。

其中,vlo (video linguistic ontology),表示視頻概念擴展本體中的語言層本體,即視頻內容中的語言級概念和概念間關係的集合。這裏的語言級概念對應於視頻內容層次結構模型中定義的視頻概念。

vpo(video perception ontology),表示視頻概念擴展本體中的感知概念層本體,即視頻內容中感知特徵層中藴含的感知特徵模式和其關係的集合。

語義概念的探測應該從兩個方面進行考慮。一方面是發現概念具有的低層特徵模型,稱為特徵匹配。感知概念的抽象和定義建立了低層特徵和視頻概念兩個層次之間的中間語義,避免直接建立低層特徵和視頻概念間的關聯,減小語義鴻溝問題帶來的影響。從低層特徵角度看感知概念是低層特徵模式的抽象,具有特徵穩定性和一致性;從高層語義角度看,視頻概念總是表現為若干感知概念的組合,因此感知概念也具有一定的語義。因此,首先抽取視頻概念關聯的感知概念,然後從感知概念中抽取低層特徵訓練統計機器學習模型,識別語義概念。

另一方面是建模並利用上下文信息增強概念探測方法的語義理解和識別能力,稱為上下文信息匹配。提出的視頻概念擴展本體的語言層定義了概念之間的關係,同時“概念描述”、“同義詞集”、“關聯概念”等概念描述屬性完整、準確的描述了概念包含的上下文信息。

同時,利用vocr 和語音識別技術可以從視頻片段中抽取文本信息,這些文本信息中出現的概念術語為語義概念探測提供了語義線索,能夠增強概念探測的準確率。本文提出的本體支持的概念探測方法。

視頻概念探測主要分為三個部分:上下文信息匹配、特徵匹配和匹配結果融合。在上下文信息匹配中,一方面通過vocr 和語音識別技術從視頻片段提取文本信息,另一方面通過視頻概念擴展本體的定義獲取待探測概念的描述和與其關聯的概念,則二者的相關程度暗示了待探測概念出現的可能,上下文信息匹配將定量計算這種相關程度。特徵匹配根據低層感知特徵相似性計算視頻片段中包含視頻概念的可能性,首先通過視頻概念擴展本體的定義獲取待探測概念包含的感知概念,然後抽取視覺對象特徵訓練概念分類器,計算視覺對象匹配程度,同時統計視頻片段包含其他感知概念的情況,計算其他感知概念匹配結果。最後,通過一種融和策略,對匹配結果進行融合,融合結果表示概念探測結果。

3 上下文信息匹配語義概念具有的上下文信息包括兩個方面,一是概念本身的描述所藴含的上下文信息。

本文在視頻概念擴展本體中定義概念描述包括兩個部分,一是對概念的內在性質、外在屬性的詳細闡述,可以幫助人們更好的理解概念;二是概念具有的同義詞集,即表達同一概念的不同語言術語。例如可以將概念“爆炸”描述為:在巨大響聲過後出現火光和濃煙。根據上述概念描述,如果在文本信息中探測到響聲、煙、火等術語,則表明很可能該段文本對應的視頻片段包含有“爆炸”概念。又如概念“美國總統”可以使用不同的語言術語表達,如“喬治.布什”、“美國國家元首”等等,如果在文本信息中探測到某個概念具有的同義詞術語,則表明該段文本對應的視頻可能包含有該概念,而且同義詞出現的數量和頻度在一定程度上反映出該概念出現的可能性大小。

另一方面的上下文信息表現為概念間的關係。視頻概念擴展本體中定義了兩類概念間關係,一類是語義關係,主要包括kind-of,instance-of 和part-of 三類父子層次關係;另一類是概念共現關係,定義為不同的概念在視頻中同時出現的概率大小。容易理解,具有強共現關係的概念趨向於同時出現,因此一個概念的出現可以作為另一個概念探測的有力線索;語義關係表徵的是概念間的語義相關性,而從自然語言的特點來看,語義相關的概念的出現具有集中性,因此概念語義關係為概念探測提供有用的上下文信息。

3.1 文本匹配文本匹配通過計算概念描述文本與視頻片段包含的文本之間的相似性來判斷視頻片段包含該概念的可能性大小。

視頻中包含的文本信息一方面來自於視頻伴隨音軌中的語音信息,另一方面來自於視頻中字幕、場景文字的識別,即vocr。本文采用scansoft 公司開發的nuance 系統[6](前身為ibm 公司開發的viavoice 引擎)作為語音識別工具和人工方法輔助視頻伴隨音軌文字標註視頻中的語音信息;新聞視頻中的字幕包含了對視頻內容的主要文本描述,因此在本文的研究中只考慮字幕文本的識別而不考慮場景文字的識別。本文采用郭金林等[7]提出的基於壓縮域特徵的字幕定位與文字識別作為字幕文本識別工具。通過語音識別和vocr 抽取的文本信息記作vt。採用中科院的開源分詞軟件ictclas[8]進行中文分詞,抽取vt 中包含的詞條集1 { }ni i nt nt = = 。對於英文分詞采用人工標註方法處理。

概念描述文本通過視頻概念擴展本體中的定義獲得,包括兩個部分:一是概念描述d,d ∈d,d 為本體中所有概念描述集合。另一個是概念同義詞集synonymslist 。對概念描述d 進行分詞,從中抽取詞條集,與同義詞集合並組成概念描述詞條集{ } 1mj j c d c d == 。