【摘 要】本文提出了一種基于改進卷積神經(jīng)網(wǎng)絡的人臉檢測算法,對傳統(tǒng)卷積神經(jīng)網(wǎng)絡的結構進行了改進,同時利用圖像的全局和局部特征來進行人臉檢測。仿真實驗表明,本文所提出的人臉檢測算法取得了良好的檢測效果。

【關鍵詞】人臉檢測 深度學習 卷積神經(jīng)網(wǎng)絡 局部特征 全局特征

基金項目:西安市科技計劃項目,項目名稱:公路視頻測速中的距離自動標定與測距關鍵技術研究,項目編號:CXY1701(5)。

文獻標識碼:A 中圖分類號:TP391.4

作為近年來最為流行的機器學習算法,深度學習可以從海量數(shù)據(jù)中自動學習出表達和區(qū)分能力更強的特征,能更準確地表征真實人臉外觀。卷積神經(jīng)網(wǎng)絡是深度學習算法的一種,其在圖像識別與分析等計算機視覺領域中獲得了最為廣泛的應用。本文提出了一種基于改進卷積神經(jīng)網(wǎng)絡的人臉檢測算法,對傳統(tǒng)卷積神經(jīng)網(wǎng)絡的結構進行了改進,并提取圖像的全局和局部特征進行人臉檢測。

基于改進卷積神經(jīng)網(wǎng)絡的人臉檢測

深度學習利用建立好的模擬人腦分析學習機制的神經(jīng)網(wǎng)絡來解釋圖像、聲音和文本等數(shù)據(jù),通過對低層特征進行組合形成更抽象的高層特征,從而得到數(shù)據(jù)的分布式特征。

卷積神經(jīng)網(wǎng)絡是在計算機視覺領域應用最為廣泛的深度學習模型,其基本結構包括卷積層和池化層,卷積層利用卷積核提取特征,卷積層通過局部感知和權值共享來減少權值參數(shù)數(shù)量,池化層利用池化核來對卷積層提取出的特征進行統(tǒng)計操作。

人類識別人臉時在考慮人臉的局部特征的同時,也會考慮人臉的全局特征。為此,本文對傳統(tǒng)卷積神經(jīng)網(wǎng)絡的結構進行了改進,改進后的網(wǎng)絡結構由3個卷積層、4個池化層、引入層和3個全連接層組成,各網(wǎng)絡層的具體參數(shù)如表1所示。

表1 改進卷積神經(jīng)網(wǎng)絡結構參數(shù)

改進后的卷積神經(jīng)網(wǎng)絡中有3個卷積層,卷積層的具體參數(shù)如表1所示,第一個卷積層參數(shù)中96×96×3為待處理圖像的尺寸,卷積核通過滑窗的方式對輸入圖進行卷積,每個卷積核對應一種特征提取的方式,卷積操作后得到一個特征圖,88×88×32中88×88為卷積操作后特征圖尺寸,32為卷積核個數(shù),9×9×3為卷積核尺寸。其他卷積層的參數(shù)與此類似。

卷積運算如下式所示:

(1)

其中,[xlj]為卷積神經(jīng)網(wǎng)絡第[l]層的第[j]個神經(jīng)元,[k]表示卷積核,本文所有卷積核的步長均為1×1,[Mj]為與神經(jīng)元[xlj]對應的神經(jīng)網(wǎng)絡第[l-1]層核尺寸區(qū)域內(nèi)的神經(jīng)元集合,[blj]為神經(jīng)元的偏置,[f]為激活函數(shù),本文采用防過擬合能力強的修正線性單元(ReLU)作為激活函數(shù)[1]。

(2)

改進的卷積神經(jīng)網(wǎng)絡共包含4個池化層,為有效提取圖像全局和局部特征,本文對前三個池化層和最后一個池化層分別采用最大池化和平均池化方法,最大池化方法適合用于提取圖像局部紋理信息,平均池化適合用于提取圖像全局信息,最大池化和平均池化方法如(3)和(4)式所示,所有池化核步長本文均設置為1×1。

(3) (4)

其中,[xlj]為卷積神經(jīng)網(wǎng)絡第[l]層的第[j]個神經(jīng)元,[Mjl-1]為神經(jīng)元[xlj]對應的神經(jīng)網(wǎng)絡第[l-1]層一個核尺寸區(qū)域內(nèi)的神經(jīng)元集合。

改進后的卷積神經(jīng)網(wǎng)絡中有3個全連接層,層中神經(jīng)元與上一層所有神經(jīng)元相連。全連接層的前面是引入層,引入層沒有信息處理能力,只是將對應圖像塊局部特征的最后一個卷積層和對應圖像全局特征的最后一個池化層神經(jīng)元引入全連接層。全連接層中前兩層中的神經(jīng)元的激活函數(shù)采用修正線性單元(ReLU),最后一層神經(jīng)元的激活函數(shù)采用logistic回歸函數(shù),輸出為人臉檢測標簽。

(5)

本文改進的卷積神經(jīng)網(wǎng)絡的學習算法采用隨機梯度下降算法,目標函數(shù)設置為:

(6)

其中,[N]為樣本個數(shù),[fi(W)]為卷積神經(jīng)網(wǎng)絡輸出,[di]為樣本的分類標簽,正負樣本分別為1和0。

仿真實驗及分析

本文分別采用AFLW數(shù)據(jù)集和FDDB數(shù)據(jù)集作為訓練圖像集和測試圖像集。AFLW數(shù)據(jù)集由32203圖片中的393703張人臉圖片組成,F(xiàn)DDB數(shù)據(jù)集由2845圖片中的5171張人臉圖片組成,是學術界評價人臉檢測和識別性能時應用非常廣泛的測試數(shù)據(jù)集。

在構造人臉正負樣本時,由于不同訓練圖片中人臉尺寸并不一致,本文將從訓練圖片中剪切并歸一化為96×96像素大小的人臉圖片作為正樣本,將從訓練圖像中隨機剪切出的同樣大小的圖像塊作為負樣本。

表2給出了本文算法和現(xiàn)有部分現(xiàn)有人臉檢測算法的檢測準確度比較結果。其中,“全局”表示僅利用圖片的全局特征時的人臉檢測算法;“局部”表示僅利用圖片的局部特征時的人臉檢測算法;“全局+局部”表示本文所提出的同時利用圖片全局和局部特征的人臉檢測算法。從表中可以看出,當僅利用圖像全局特征時,人臉檢測效果很低;當僅利用圖像局部特征時,人臉檢測效果提升并不明顯,而當同時利用圖像全局和局部特征時,人臉檢測效果得到了進一步的提升。

表2 人臉檢測檢測準確度比較

圖1給出了本文人臉檢測算法對FDDB數(shù)據(jù)集中幾幅測試圖片的檢測結果。從圖中可以看出,本文所提人臉檢測算法成功檢測出了背景和光照條件不同的圖片中的人臉,而且人臉的角度也不盡相同。

本文主要研究了如何利用深度學習進行人臉檢測,提出了一種基于改進卷積神經(jīng)網(wǎng)絡的人臉檢測算法,同時利用圖像全局和局部特征來檢測人臉。如何進一步改進卷積神經(jīng)網(wǎng)絡結構將是今后的研究內(nèi)容。

參考文獻:

[1]Glorot X,Bordes A,Bengio Y.,“Deep sparse rectifier neural networks”(2011 International Conference on Artificial Intelligence and Statistics, Lauderdale:IEEE Press,2011:315-326).

[2] Jain V Learned-Miller E.,“Online Domain Adaptation of a Pre-Trained Cascade of Classifiers”(2011 IEEE Conference on Computer Vision and Pattern Recognition. Washington:IEEE,2011:577-584).

[3]Yang S,Luo P,Loy C C, et al.,“From facial parts responses to face detection: a deep learning approach”(2015 IEEE International Conference on Computer Vision. Washington:IEEE,2015:3676-3684).