時間:2023-07-17 16:22:52
序論:在您撰寫神經網絡文本分類時,參考他人的優秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發您的創作熱情,引導您走向新的創作高度。
關鍵詞:Web文本分類;RBF網絡;高斯函數;梯度下降法
中圖分類號:TP18文獻標識碼:A文章編號:1009-3044(2011)13-3107-02
The Researching of Web Text Classification Based on RBF Neural Network
XU Chun-yu
(Information Engineering Department, Liaoning Provincial College of Communications, Shenyang 110122, China)
Abstract:Web text classification is the automatic classification for Web information and it makes the use of text classification technology. The technology makes user find resource that they want quickly. The data from the Web is divided into sample data set and test data set after feature extraction in the process of text classification. Sample data set is inputted to the RBF network and the RBF network is trained. Test data set is inputted the RBF to validate after training the network. Experimental results show that RBF network achieved better classification results.
Key words: web text classification; RBF network; gauss Function; gradient descent algorithm
近年來,web已經成為擁有數十億個異構的、半結構化的、動態的分布式信息空間,這些web信息源中有80%以上的信息是以web文本的形式出現的,如何從這些海量的web信息資源中尋找并獲取有價值的信息和知識模式,已經成為信息處理的一個關鍵問題,web文本分類有助于人們完成這個目標[1]。
1 web文本分類
文本分類就是先根據已有的樣例文本找出能描述并區分文本類別的分類器,然后利用該分類器對新的未分類的文本進行分類。根據機器學習的觀點,文本自動分類問題可以歸結為一個機器學習任務:假定全體文本空間為D,預定義的文本類別集合為C{c1,c2,…,c3}。待學習分類法稱為目標分類器,記作y,一般來說,y是從文本集到類別集的一個映射,即y:DC,通常情況下該映射存在,但沒有解析表達式。文本分類中機器學習的目的就是找到映射y的一個近似表達式或估計:y:DC,使對于D中所有文本d有h(d)=y(d),或使得h(d)≠y(d)的概率最小。其中h為分類器[3]。
隨著web上海量文本信息的增加,文本分類技術的處理對象從普通的文檔擴展到了web文本,即形成了web文本分類技術,顯然,文本分類技術是web文本分類技術的基礎。
2 RBF神經網絡
徑向基函數(Radial Basis Function,簡稱RBF)神經元網絡是在借鑒生物局部調節和交疊接受區域知識的基礎上提出的一種采用局部接受域來執行函數影射的人工神經元網絡。在人的大腦皮層區域中,局部調節及交疊的感受是人腦反映的特點。RBF網絡同BP網絡類似,也是一種三層前饋式神經網絡,輸入層節點傳遞輸入信號到隱含層,隱含層節點由像高斯函數那樣的輻射狀作用函數構成,而輸出層節點通常是簡單的線性函數。網絡模型如圖1所示。
從RBF的網絡模型圖可以看出,RBF網絡由兩部分組成,第一部分為非線性變換層,它的輸出公式如公式(1)所示:
(1)
其中X={x1,x2,…xn}為輸入向量,Ci={Ci(1),Ci(2),…Ci(N)}為第i個非線性變換單元的中心向量,Ct(q)表示第t個中心的第q個分量,σi為第i個非線性變換單元的寬度,||?||表示的是范數,通常情況下取2范數,g(?)表示的是非線性函數關系,一般取Gauss函數,Gauss函數的函數關系如公式(2)所示:
(2)
第二部分:線性合并層,它的作用是將變換層的輸出線性加權合并,公式如(3)所示,其中l為隱含層神經元的個數,m為輸出層神經元的個數。
(3)
RBF網絡通過徑向基函數能夠更確切的描述人類神經元的活動特性。在中心附近的區域內網絡的輸出最大,網絡的輸出隨著中心距離的增大,逐漸減小,而這個過程的快慢則是由σ參數來決定的,σ越大則函數輸出曲線越平緩,對輸入的變化就越不敏感,因此,可以通過調節σ來進一步模擬人類的神經元。RBF網絡最常用的算法是梯度下降法,常用的訓練就是選定某種性能指標,然后采用梯度下降的方法來校正網絡參數,使該網絡性能指標取得最優值,因此RBF網絡的學習實質上就是一個最優化問題。具體的訓練算法為:對于一般的RBF網絡結構,取性能指標如公式(4)所示。
(4)
其中,i為網絡的輸出,具體關系式如下面的(5)式、(6)式和(7)式所示:
(5)
(6)
(7)
由上面的三個公式可以看出, J是關于Cj,wjt和σj的函數。網絡的訓練過程就是調整以上三組參數,使J趨于最小。求取J對各網絡參數wts,ct(q),σt的偏導數,其中1≤t≤P(P是隱含層單元的個數),1≤s≤M(M是輸出層單元的個數),1≤q≤N(N是輸出層單元的個數),得到參數的校正方法。具體的校正方法為:權值wts的校正方向如公式(8)所示:
(8)
中心ct(q)的校正方向如公式(9)所示:
(9)
寬度σt的校正方向如公式(10)所示:
(10)
由此,可以得到RBF網絡的梯度下降法校正公式如(11)所示:
(11)
其中,1≤t≤P,1≤s≤M,1≤q≤N,P為隱含層單元個數,N為輸入層單元個數,M為輸出層單元個數,λ為步長,通常λ=0.05左右。
隱含層到輸出層之間的變換是線性變換,所以采用的是比較成熟的RLS算法。給定樣本輸入,則在當前的網絡隱含層單元中心Cj及寬度σj(1≤j≤P)參數下,隱含層單元輸出向量為HT=[h1,h2,…,hP],P為隱含層單元個數。
Y=HTW (12)
其中,Y=[y1,y2,…,yM],W=[w1,w2,…,wM],wi=[w1i,…,wpi],這樣,根據RLS算法有權值的修正遞推公式如公式(13)所示:
(13)
這樣,按照上面的公式對網絡參數不斷地進行循環校正,最終網絡性能將達到所要求的性能指標[5]。
3 實驗
實驗過程中,首先設計網絡拓撲結構,確定RBF網絡輸出層神經元個數,根據類別的個數來確定輸出層神經元的個數,實驗數據分別屬于10個類別,因此網絡輸出層神經元個數為10。輸入層神經元的個數為文檔在進行特征提取之后向量的維數,實驗中,經過降維以后的每篇文檔特征向量的維數為30,所以將網絡的輸入層神經元的個數選取為30。由于輸入樣本空間是確定的,可以預先給定一個隱含層節點數,只要與輸入樣本的實際類別數相差不是很大時,就可以使用梯度下降法來不斷修正網絡的中心值,使網絡的特性逼近于實際系統,這種方法比較簡單,也是一種比較常用的方法,因此,實驗中隱含層神經元的個數取值為9。
RBF網絡結構設計完成之后就可以對網絡進行訓練了,實驗數據來自中國期刊網上下載的600篇文檔,涵蓋了政治、經濟、教育、娛樂等10個類別,每個類別包含60篇文檔,選取其中的500篇文檔作為樣本訓練集,每個類別選擇50篇,另外100篇文檔作為網絡的測試集。首先需要對實驗數據進行文本特征提取、降維等過程。其次采用的是Matlab軟件進行編程以實現網絡的訓練,網絡訓練完成以后,輸入測試集中的數據,測試網絡能否正確地將相關的文檔區分到各個類別中。表1是RBF網絡的分類結果。
4 結論
從上面的訓練結果分析,RBF網絡能夠將大部分的文本正確地劃分到所屬類別,對于體育、娛樂、外語方面的文檔能夠取得較高的識別率,對于政治、經濟、軍事等方面的文檔的識別率較低,主要原因是這些類別的文檔中互相包含著相關的特征信息,這種類型的文檔在進行文本分類的時候,需要在文本特征提取的時候進行相應的處理,以使得在輸入神經網絡的時候能夠得到正確的分類結果。從實驗結果可以看出,RBF網絡完全可以應用到文本分類中來,并且能夠取得較好的分類效果。
參考文獻:
[1] 蒲筱哥.Web自動文本分類技術研究綜述[J].情報科學,2009:233.
[2] Crimmins F, Smeaton A, Dkaki T, et al.Information discovery on the internet[J].IEEE Intell.Syst.,1999(14):55-62.
[3] 王曉慶. 基于RBF網絡的文本自動分類的研究[D].南昌:江西師范大學,2003:9.
[4] Abhijit S, Rober B. 神經網絡模式識別及其實現[M].徐勇,荊濤,譯.北京:電子工業出版社,1999:30-32,57-114.
[5] 柯慧燕. Web文本分類研究及應用[D].武漢:武漢理工大學,2006:14-15,16-17.
[6] 飛思科技產品研發中心. 神經網絡理論與MATLAB7實現[M].北京:電子工業出版社,2005:17.
P鍵詞:深度學習;文本分類;多類型池化
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2016)35-0187-03
1 引言
為了進行分類,我們建立句子模型來分析和表示句子的語義內容。句子模型問題的關鍵在于一定程度上的自然語言理解。很多類型的任務需要采用句子模型,包括情感分析、語義檢測、對話分析、機器翻譯等。既然單獨的句子很少或基本不被采用,所以我們必須采用特征的方式來表述一個句子,而特征依賴于單詞和詞組。句子模型的核心是特征方程,特征方程定義了依據單詞和詞組提取特征的過程。求最大值的池化操作是一種非線性的二次抽樣方法,它返回集合元素中的最大值。
各種類型的模型已經被提出?;诔煞謽嫵傻姆椒ū粦糜谙蛄勘硎?,通過統計同時單詞同時出現的概率來獲取更長的詞組。在有些情況下,通過對詞向量進行代數操作生成句子層面的向量,從而構成成分。在另外一些情況下,特征方程和特定的句法或者單詞類型相關。
一種核心模型是建立在神經網絡的基礎上。這種模型包含了單詞包或者詞組包的模型、更結構化的遞歸神經網絡、延遲的基于卷積操作的神經網絡。神經網絡模型有很多優點。通過訓練可以獲得通用的詞向量來預測一段上下文中單詞是否會出現。通過有監督的訓練,神經網絡能夠根據具體的任務進行良好的調節。除了作為強大的分類器,神經網絡模型還能夠被用來生成句子[6]。
我們定義了一種卷積神經網絡結構并將它應用到句子語義模型中。這個網絡可以處理長度不同的句子。網絡中的一維卷積層和多類型動態池化層是相互交錯的。多類型動態池化是一種對求最大值池化操作的范化,它返回集合中元素的最大值、最小值、平均值的集合[1]。操作的范化體現在兩個方面。第一,多類型池化操作對一個線性的值序列進行操作,返回序列中的多個數值而不是單個最大的數值。第二,池化參數k可以被動態的選擇,通過網絡的其他參數來動態調整k的值。
卷積層的一維卷積窗口對句子特征矩陣的每一行進行卷積操作。相同的n-gram的卷積窗口在句子的每個位置進行卷積操作,這樣可以根據位置獨立地提取特征。一個卷積層后面是一個多類型動態池化層和一個非線性的特征映射表。和卷積神經網絡在圖像識別中的使用一樣,為豐富第一層的表述,通過不同的卷積窗口應用到句子上計算出多重特征映射表。后續的層也通過下一層的卷積窗口的卷積操作計算出多重特征映射表。最終的結構我們叫它多類型池化的卷積神經網絡。
在輸入句子上的多層的卷積和動態池化操作產生一張結構化的特征圖。高層的卷積窗口可以獲取非連續的相距較遠的詞組的句法和語義關系。特征圖會引導出一種層級結構,某種程度上類似于句法解析樹。這種結構不僅僅是和句法相關,它是神經網絡內部所有的。
我們將此網絡在四種場景下進行了嘗試。前兩組實驗是電影評論的情感預測[2],此網絡在二分和多種類別的分類實驗中的表現都優于其他方法。第三組實驗在TREC數據集(Li and Roth, 2002)上的6類問題的分類問題。此網絡的正確率和目前最好的方法的正確率持平。第四組實驗是推特的情感預測,此網絡將160萬條微博根據表情符號自動打標來進行訓練。在手工打標的測試數據集上,此網絡將預測錯誤率降低了25%。
本文的概要如下。第二段主要闡述MCNN的背景知識,包括核心概念和相關的神將網絡句子模型。第三章定義了相關的操作符和網絡的層。第四章闡述生成的特征圖的處理和網絡的其他特點。第五章討論實驗和回顧特征學習探測器。
2 背景
MCNN的每一層的卷積操作之后都伴隨一個池化操作。我們先回顧一下相關的神經網絡句子模型。然后我們來闡述一維的卷積操作和經典的延遲的神經網絡(TDNN)[3]。在加了一個最大池化層到網絡后,TDNN也是一種句子模型[5]。
2.1 相關的神經網絡句子模型
已經有很多的神經網絡句子模型被描述過了。 一種比較通用基本的模型是神經網絡詞包模型(NBoW)。其中包含了一個映射層將單詞、詞組等映射到更高的維度;然后會有一個比如求和之類的操作。結果向量通過一個或多個全連接層來進行分類。
有以外部的解析樹為基礎的遞歸神經網絡,還有在此基礎上更進一步的RNN網絡。
最后一種是以卷積操作和TDNN結構為基礎的神經網絡句子模型。相關的概念是動態卷積神經網絡的基礎,我們接下來介紹的就是它。
2.2 卷積
一維卷積操作便是將權重向量[m∈Rm]和輸入向量[s∈Rs]進行操作。向量m是卷積操作的過濾器。具體來說,我們將s作為輸入句子,[si∈R]是與句子中第i個單詞相關聯的單獨的特征值。一維卷積操作背后的思想是通過向量m和句子中的每個m-gram的點積來獲得另一個序列c:
[ci=mTsi-m+1:i (1)]
根據下標i的范圍的不同,等式1產生兩種不同類型的卷積。窄類型的卷積中s >= m并且會生成序列[c∈Rs-m+1],下標i的范圍從m到s。寬類型的卷積對m和s的大小沒有限制,生成的序列[c∈Rs+m-1],下標i的范圍從1到s+m-1。超出下標范圍的si窄(i < 1或者i > s)置為0。窄類型的卷積結果是寬類型的卷積結果的子序列。
寬類型的卷積相比于窄類型的卷積有一些優點。寬類型的卷積可以確保所有的權重應用到整個句子,包括句子收尾的單詞。當m被設為一個相對較大的值時,如8或者10,這一點尤其重要。另外,寬類型的卷積可以確保過濾器m應用于輸入句子s始終會生成一個有效的非空結果集c,與m的寬度和s句子的長度無關。接下來我們來闡述TDNN的卷積層。
4 驗與結果分析
我們對此網絡進行了4組不同的實驗。
4.1 電影評論的情感預測
前兩組實驗是關于電影評論的情感預測的,數據集是Stanford Sentiment Treebank.實驗輸出的結果在一個實驗中是分為2類,在另一種試驗中分為5類:消極、略微消極、中性、略微積極、積極。而實驗總的詞匯量為15448。
表示的是電影評論數據集情感預測準確率。NB和BINB分別表示一元和二元樸素貝葉斯分類器。SVM是一元和二元特征的支撐向量機。在三種神經網絡模型里――Max-TDNN、NBoW和DCNN――模型中的詞向量是隨機初始化的;它們的維度d被設為48。Max-TDNN在第一層中濾波窗口的大小為6。卷積層后面緊跟一個非線性化層、最大池化層和softmax分類層。NBoW會將詞向量相加,并對詞向量進行非線性化操作,最后用softmax進行分類。2類分類的MCNN的參數如下,卷積層之后折疊層、動態多類型池化層、非線性化層。濾波窗口的大小分別7和5。最頂層動態多類型池化層的k的值為4。網絡的最頂層是softmax層。5類分類的MCNN有相同的結構,但是濾波窗口的大小分別為10和7,k的值為5。
我們可以看到MCNN的分類效果遠超其他算法。NBoW的分類效果和非神經網絡算法差不多。而Max-TDNN的效果要比NBoW的差,可能是因為過度池化的原因,丟棄了句子太多重要的特征。除了RecNN需要依賴外部的解析樹來生成結構化特征,其他模型都不需要依賴外部資源。
4.2 問題分類
問題分類在問答系統中應用非常廣泛,一個問題可能屬于一個或者多個問題類別。所用的數據集是TREC數據集,TREC數據集包含6種不同類別的問題,比如一個問題是否關于地點、人或者數字信息。訓練集包含5452個打標的問題和500個測試集。
4.3 Twitter情感預測
在我們最后的實驗里,我們用tweets的大數據集進行訓練,我們根據tweet中出現的表情符號自動地給文本進行打標簽,積極的或是消極的。整個數據集包含160萬條根據表情符號打標的tweet以及400條手工標注的測試集。整個數據集包含76643個單詞。MCNN的結構和4.1節中結構相同。隨機初始化詞向量且維度d設為60。
我們發現MCNN的分類效果和其他非神經網絡的算法相比有極大的提高。MCNN和NBoW在分類效果上的差別顯示了MCNN有極強的特征提取能力。
5 結語
在本文中我們闡述了一種動態的卷積神經網絡,它使用動態的多類型池化操作作為非線性化取樣函數。此網絡在問題分類和情感預測方面取得了很好的效果,并且不依賴于外部特征如解析樹或其他外部資源。
參考文獻
[1]. Yann LeCun, Le ?on Bottou, Yoshua Bengio, and Patrick Haffner. 1998. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278-2324, November.
[2]. Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D. Manning, Andrew Y. Ng, and Christopher Potts. 2013b. Recursive deep mod- els for semantic compositionality over a sentiment treebank. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Process- ing, pages 1631C1642, Stroudsburg, PA, October. Association for Computational Linguistics.
[3]. Geoffrey E. Hinton. 1989. Connectionist learning procedures. Artif. Intell., 40(1-3):185C234.
[4]. Alexander Waibel, Toshiyuki Hanazawa, Geofrey Hinton, Kiyohiro Shikano, and Kevin J. Lang. 1990. Readings in speech recognition. chapter Phoneme Recognition Using Time-delay Neural Networks, pages 393C404. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA.
關鍵詞:個性化;信息檢索;文本分類
中圖分類號:TP311文獻標識碼:A 文章編號:1009-3044(2008)29-0265-02
Method of Text Categorization in Personalized Retrieval
PENG Ye-ping, XIAO Da-guang
(Information science and Engineering college,Central South University,Changsha 416000,China)
Abstract: Personalized retrieval is becoming a hot topic for research, this paper mainly discusses about the text categorization algorithm, its principles and scope of application.
Key words: personalized; retrieval; text categorization
1 引言
搜索引擎在信息檢索中起了重要作用,但是由于引擎的通用性,使其不能滿足不同目的,背景,時期的用戶查詢需求,因此需要針對擁護特征向用戶提供個性化服務。文本分類方法通過構造某種分類模型,并以此判斷樣本所屬的類別。文本分類對合理組織,存儲文本信息,提高信息檢索速度,提高個性化信息檢索效率的基礎。
2 分類方法
2.1 樸素貝葉斯方法
樸素貝葉斯方法是一種在已知先驗概率與條件的情況下的模式識別方法,假設詞條之間是相互獨立的。設d為一任意文本,它屬于文檔類C{c1,c2,…,ck}中的一類Cj,引用詞條和分類的聯合概率來計算給定文檔的分類概率的公式如下:
計算所有文本類在給定d情況下的概率,概率值最大的那個類就是文本d所屬的類,既:
2.2 貝葉斯網絡分類法
貝葉斯網絡分類法考慮了特征之間的依賴關系,該方法更能真實反映文本的情況,但是計算復雜度比樸素貝葉斯高的多。
2.3 決策樹方法
決策樹極強的學習反義表達能力使得其適合于文本分類,它是通過一組無序,無規則的實例推理出樹型的分類規則,采用自頂向下的遞歸方式,在決策樹的內部結點進行屬性值的比較并根據不同的屬性值進行判斷從該結點向下的分支,在決策樹的葉結點得到結論,決策樹的建立算法有很多,文獻[5]其中包括基于信息增益的啟發式計算ID3;基于信息增益率的解決聯系屬性的算法C4.5;基于Gini系數的算法CART和可并行性算法SPRINT算法。決策樹方法特點是使用者只要將訓練樣例能夠使用屬性-結合式的方法表達出來,就能夠用該方法來學習,但是這種算法生成的仍是多叉樹。
2.4 K-鄰近方法
K-鄰近方法,根據測試文本在訓練文本中與之最相近的K篇文本的類別來判定它的類別,其中,K是一個重要的參數,文獻[4]K值過大,則與待分類文本實際上并不相似的一些文本也被包含,造成噪音增加;K值太小,則不能充分體現待分類文本的特點.一般對K會選定一個初值,相似值的判定可取歐拉距離或余旋相似度等,若分類系統中相似值的計算采用余旋相似度,則公式如下:
Sim(x,di)為相似度公式,X為新文本的向量,y(di,cj)為類別屬性函數,若d∈cj,則y(di,cj)=1;否則y(di,cj)=0;將新文本分到權重最大的類別中去。
2.5 支持向量機
Vapnik提出在結構風險最小化準則理論上的支持向量機方法,能有效解決小樣本集的機器學習問題,向量機主要是針對兩類分類問題,在高維空間尋找一個滿足分類要求的最優超平作為兩類的分割,既保證分類精確度,又要使超平面兩側的空白區域最大化,以保證最小的分類錯誤率,文獻[1]對于大于兩類的多類文本分類,就對每個類構造一個超平面,將這一類與其余的類分開,有多個類就構造多個超平面,測試時就看哪個超平面最適合測試樣本。支持向量機方法避免了局部性問題,樣本中的支持向量數,能夠有效地用于解決高緯問題。
2.6 神經網絡方法
神經網絡是模仿人腦神經網絡的基本組織特性構成的新型信息處理系統,其性質取決于網絡拓撲結構,網絡的權值和工作規則.通常由等于樣本特征數的輸入層,輸出層,等于樣本類數的神經元組成。其中,每一個連接都有一定的權值,通過訓練類來訓練的過程就是調整這些權值的過程,從而使神經網絡與可以正確地預測類別。
3 幾種方法的比較
3.1 樸素貝葉斯與網絡貝葉斯
樸素貝葉斯方法使用概率去表示所有形式的不確定性,學習或其他形式的推理都用概率規則來實現,但是大部分情況是文本特征之間的依賴關系是相互存在的,所以特征獨立性會影響樸素貝葉斯分類的結果;網絡貝葉斯能夠考慮特征之間的依賴關系,但是計算復雜度比樸素貝葉斯高得多;
3.2 支持向量機方法
支持向量機方法的優點:首先,該方法是針對有限樣本情況的分類方法,其算法最終將轉化為一個二次型尋優萬惡提,理論上得到的將是全局最優點,避免了局部極值問題;其次,該方法計算的復雜度不再取決于空間維度,而是取決于樣本數,這可能有效地用于解決高維度問題;再次,該方法對稀疏數據不敏感,能更好地捕捉數據的內在特征。缺點是:該方法參數的調整比較困難,分類比較費時。
3.3 神經網絡方法
神經網絡方法的優點:首先,具有自適應功能,它能根據所提供的數據,通過學習找出輸出結果之間的內在聯系,從而球的問題的解答;其次,神經網絡善于聯想、概括、類比和推廣,任何局部的操作都不會影響整體效果;再次,具有高速尋找優化解的能力。缺點:該方法根據輸入輸出的關系訓練網絡,缺少解釋能力,受訓練樣本影響大,訓練過程較慢,不適應大量數據的學習。
3.4 決策樹方法
決策樹方法的優點是它在學習過程中不需要使用者了解很多背景知識,只要訓練樣例能夠使用屬性-結論式的方法表示出來,就能使用該方法。缺點是測試屬性的選擇對該方法影響較大。
3.5 K-鄰近方法
K-鄰近方法的優點是該方法訓練過程較快,且可隨時添加或更新訓練文本來調整;缺點是因為需要很大的空間來保存文本,所以它分類的開銷很大,K值確定較慢,分類效果較差.
4 文本分類方法效果評價
1) 精確度(查全率):是指通過分類系統正確分類的文本數與實際分類的文本數的比值,其公式如下:
精確度:=
2) 召回率(查全率):是指通過分類系統正確分類的文本數與人工分類中應有的文本數的比值,公式如下:
召回率:=
3) F1測試值:對查權率和查準綠的綜合測試
F1測試值:=
參考文獻:
[1] 史忠植.知識發現[M].北京:清華大學出版,2002.
[2] 朱明.數據挖掘[M].合肥:中國科技大學出版社,2002.
[3] 王繼成,潘金貴,張福炎.web文本挖掘技術研究[J].計算機研究與發展,2000,37(5):513-520.
關鍵詞:競爭型神經網絡;分類;訓練誤差;特征向量
文本分類數是據挖掘的一個重要研究領域,國內外的眾多學者已經進行了比較深入的研究,取得了不少研究成果。常見的文本分類技術有最小距離方法、樸素貝葉斯方法、KNN方法、支持向量機方法(SVM)、模糊c均值(FCM)算法和等,現在有很多學者把神經網絡的方法應用到分類算法中,在這些分類算法中,神經網絡的文本分類更具有優越的性能。袁飛云利用SOINN自動產生聚類數目和保留數據拓撲結構的兩項能力,尋找更有效的單詞和設計更有效的編碼方式,提出了基于自組織增量神經網絡(SOINN)的碼書產生方法;申明金利用自組織特征映射神經網絡(SOM)以無監督方式進行網絡訓練,具有自組織功能的特點,利用自組織特征映射神經網絡對不同產地金銀花進行分類;彭俊等將不同空氣質量等級下的各空氣指標作為原型模式,通過輸入樣本模式,利用競爭網絡的競爭特點得到勝者,以此得出空氣質量等級;郝曉麗等通過篩選基于輪廓系數的優秀樣木群,來尋找最佳初始聚類中心,并將該改進算法用于構造徑向基函數神經網絡分類器和快速有效地確定隱含層節點徑向基函數中心及函數的寬度,從而提高了分類精度;孫進進利用神經網絡技術中的自組織映射SOM)網絡對我國主要機場進行聚類分析評價,得出我國主要機場分為8層的主要結論;劉艷杰在非監督的自組織映射神經網絡的基礎上進行了一定的改進,構建了有監督的神經網絡分類模型;李楊將神經網絡與群體智能算法、云計算相結合的方法,實現對不同規模農業數據集的分類,提出基于神經網絡分類器的設計與優化方法。而競爭型神經網絡的自組織、自適應學習能力,進一步拓寬了神經網絡在模式分類和識別方面的應用。競爭型神經網絡依靠神經元之間的興奮、協調、抑制或競爭的作用來進行信息處理,可在訓練中無監督自組織學習,通過學習提取數據中的重要特征或內在規律,進而實現分類分析的功能。
1競爭型神經網絡的描述
1.1競爭型網絡的結構
競爭學習網絡的結構如圖1所示,該網絡具有R維輸入和s個輸出,由前饋層和競爭層組成。圖中的llndlstll模塊表示對輸入矢量P和神經元權值矢量w之間的距離取負。該網絡的輸出層是競爭層,圖中的模塊c表示競爭傳遞函數,其輸出矢量由競爭層各神經元的輸出組成,這些輸出指明了原型模式與輸入向量的相互關系。競爭過后只有一個神經元有非零輸出,獲勝的神經元指明輸入屬于哪類(每個原型向量代表一個類)。
1.2競爭型神經網絡的原理
競爭型神經網絡在結構上,既不同于階層型的各層神經元間非單向連接,也不同于全連接型。它有層次界限,一般是由輸入層和競爭層構成的兩層網絡。兩層之間各神經元實現雙向全連接,沒有隱含層,有時競爭層各神經元之間還存在橫向連接。在學習方法上,不是以網絡的誤差或能量函數的單調遞減作為算法準則。而是依靠神經元之間的興奮、協調、抑制、競爭的作用來進行信息處理,指導網絡的學習與工作。
網絡在剛開始建立的時候,輸入層和輸出層之間的連接權值已經開始了,如果與競爭層某一神經元對應的矢量子類別屬于線性層某個神經元所對應的目標類別,則這兩個神經元的連接權值為1,否則二者的連接權值為0,這樣的權值矩陣就實現了子類別到目標類別的合并。在建立競爭型網絡時,每類數據占數據總數的百分比是已知的,這也是競爭層神經元歸并到線性層的各個輸出時所依據的比例。
1.3存在的問題
競爭型神經網絡按Kohonen學習規則對獲勝神經元的權值進行調整,通過輸入向量進行神經元權值的調整,因此在模式識別的應用中是很有用的。通過學習,那些最靠近輸入向量的神經元權值向量得到修正,使之更靠近輸入向量,其結果是獲勝的神經元在下一次相似的輸入向量出現時,獲勝的可能性更大;而對于那些與輸入向量相差很遠的神經元權值向量,獲勝的可能性將變得很小。這樣,當經過越來越多的訓練樣本學習后,每一個網絡層中的神經元權值向量很快被調整為最接近某一類輸入向量的值。最終的結果是,如果神經元的數量足夠多,則具有相似輸入向量的各類模式作為輸入向量時,其對應的神經元輸出為1;而對于其他模式的輸入向量,其對應的神經元輸出為0。所以,競爭型神經網絡具有對輸入向量進行學習分類的能力。
例子:以競爭型神經網絡為工具,對下面的數據進行分類:
運用Matlab編程實現,發現網絡的訓練誤差能達到要求,最后也能實現很好的分類效果。運行結果如圖2所示。
有運行結果可以看到,訓練誤差達到要求,分類結果也很合理。
但是在實際應用過程中,我們發現,當對于訓練數據的數據特征十分明顯的時候,本文設計的網絡模型可以對訓練的數據進行合理有效的分類,但是,當訓練數據的特征不太明顯區分的時候,本文設計的訓練模型的分類效果就不是太有優勢,所得到的分類結果就不能達到我們預期的效果。
我們利用競爭型神經網絡對數據樣本進行分類,其中參數設置為學習效率0.1,網絡競爭層有4個神經元,運用Matlab編程實現,發現結果如下:
例子:我們利用本文設計的網絡分類模型進行對數據分類處理:進行分類處理數據的樣本數據如下所示:
通過運行學習發現訓練誤差較大,分類結果也達不到要求。
2改進的方法
2.1問題分析
通過比較分析我們發現,上面的數據樣本沒有明顯的分類特征,所以,以競爭型神經網絡進行分類,其輸入向量僅僅依靠數據本身的固有的特征時不夠的,但我們可以把數據樣本看作是二維數據,假設同符號的特征值為1,不同符號的特征值為2,于是一個新的訓練樣本就確定了,即成為三維數據模型。
2.2改進的算法
第一步:給定數據集X=[X1,X2……,Xi),對網絡進行初始化,隨機給定網絡競爭層與輸入層間的初始權向量wj(=wj[w1j w2j…wnj];j=1,2,…,m xp;wijE(0,1));給定輸出層與競爭層間的連接權值wjo=1/m,o=1,2,…P (P表示第二隱層和輸出層的連接權矢量)。
第二步:創建競爭型神經網絡,首先根據給定的問題確定訓練樣本的輸入向量,當學習模式樣本本身雜亂無章,沒有明顯的分類特征,網絡對輸入模式的響應呈現震蕩的現象,不足以區分各類模式時,在創建網絡之前,提取訓練樣本的特征值,設置輸入樣本的特征向量,然后再創建網絡模型,并根據模式分類數確定神經元的數目,最后任取一輸入模式Ak。
第三步:計算競爭層各神經元的輸入值si:
第四步:對本文建立的網絡進行訓練學習,網絡訓練最大次數的初始值設置為230,當訓練誤差大于預期的設定值的時候,可以嘗試增加訓練的最大次數,按“勝者為王”(Winner Takes All)原則,將訓練網絡中獲得最接近預期值的神經元作為勝者,輸出狀態設置為1,沒有獲勝的神經元的輸出狀態設置為0。如果有兩個以上神經元的sj相同,取左邊的為獲勝單元。
第五步:獲勝神經元連接權修正如下:
第六步:另選一學習模式,返回步驟3,直至所有學習模式提供一遍。
第七步:如果不滿足要求,則返回到最初的訓練狀態,反復訓練直至訓練網絡中神經元獲得最接近預期值,最終的訓練結束。
第八步:根據測試樣本利用Matlab編寫程序進行仿真實驗。
通過實例訓練,我們發現本算法和改進前的算法相比,改進后的算法訓練誤差卻大大降低,已經達到了訓練的精度要求,同時也很好地實現了分類要求。
法,并介紹了在TMS320C540
>> 一種新的基于改進的ADALINE神經網絡的DTHF解碼器方案 AVS解碼器流水線控制機制的一種改進設計 一種SoC架構的AVS硬件解碼器設計方案 一種基于BP神經網絡整定的PID控制器的算法改進 一種基于改進的BP神經網絡的入侵檢測方法 基于一種改進BP神經網絡算法的教學質量評價研究 一種基于ART2神經網絡的算法改進 一種基于改進BP神經網絡預測T/R組件溫度的方法 一種基于改進神經網絡的高效模糊聚類算法 一種基于模糊神經網絡的印刷品字符識別器 一種基于遺傳神經網絡文本分類器的研究 一種新的基于灰色關聯分析的BP神經網絡剪枝算法 一種新的基于神經網絡的IRT項目參數估計模型 一種基于短語統計機器翻譯的高效柱搜索解碼器 一種基于SOM神經網絡的污水處理工藝方案比選方法 一種基于BP神經網絡的數控機床伺服系統控制器 一種改進的BP神經網絡算法在入侵檢測中的應用 一種改進的BP神經網絡車牌識別算法的研究 一種改進的BP神經網絡算法分析 一種ART2神經網絡的改進算法 常見問題解答 當前所在位置:中國 > 科技 > 一種新的基于改進的ADALINE神經網絡的DTHF解碼器方案 一種新的基于改進的ADALINE神經網絡的DTHF解碼器方案 雜志之家、寫作服務和雜志訂閱支持對公帳戶付款!安全又可靠! document.write("作者:未知 如您是作者,請告知我們")
申明:本網站內容僅用于學術交流,如有侵犯您的權益,請及時告知我們,本站將立即刪除有關內容。 摘 要:本文提出了一種新的基于改進的AD址INE神經網絡DTMF信號檢測算
法,并介紹了在TMS320C5402和TLV320AICl0上采用此算法的DTMF
關鍵詞:極限學習機;稀疏自動編碼器;集成學習;文本分類
1 概述
隨著現代社會的發展,互聯網成為了人們獲取文本信息的重要手段。然而網上的信息雜亂無章,使得人們很難快速而準確的獲得所需要的文本信息。因此如何有效的對文本進行分類,幫助用戶找到所需的信息成為當代信息技術領域的一個重要課題[1]。
本文提出利用深度學習中的稀疏自動編碼器自動選取文本的特征,然后利用極限學習機作為基分類器進行文本的分類,最后結合Adaboost集成學習方法將極限學習機作為基分類器組合成一個效果更好的分類器。實驗結果表明,該算法在文本分類方面,可以有效地提高文本分類的準確性。
2 相關理論基礎
2.1 稀疏自動編碼器
稀疏自動編碼器(sparse auto encoder,SAE)是利用人工神經網絡的特點構造而成的網絡。稀疏自動編碼器的訓練過程分為兩個步:第一步是預訓練,即先利用無監督的方法將SAE的輸入層和隱含層全部初始化,然后再利用逐層貪心訓練算法確定網絡的參數。第二步是微調,其思想是整個網絡視為一個整體,用有監督學習的方法優化整個網絡的參數,由于SAE訓練過程的復雜性,具體過程可參考文獻[2]。
2.2 極限學習機
針對傳統神經網絡訓練過程時間漫長,優化困難等缺點,新加坡南洋理工大學的黃廣斌教授提出了一種全新的單隱層前饋神經網絡-極限學習機(Extreme Learning Machine,ELM)[3],該網絡能夠以極快的學習速度達到較好的泛化性能,從而解決了傳統神經網絡學習速度緩慢的限制。該網絡主要由輸入層,隱藏層和輸出層組成,其中隱藏層的神經元通過激活函數把輸入的數據進行變換,然后把變換后的數據輸出到輸出層,在網絡中輸入層和隱藏層的權值是隨機設置的,只有隱藏層到輸出層的權值需要求解,因此加快了網絡的學習速度。
2.3 Adaboost分類器
由于單個分類器通常無法滿足分類任務的要求,因此需要通過集成學習來構建并結合多個分類器來完成分類任務,這其中最著名的是在1995年由Freund等提出的Adaboost[4]算法。該算法的核心思想是先從初始訓練集訓練出一個基學習器,再根據基學習器的變現對訓練樣本分布進行調整,使得先前基學習器做錯的訓練樣本在后續收到更多關注,然后基于調整后的樣本分布來訓練下一個基學習器;如此重復進行,直到基學習器數目達到指定的值,最終將這幾個基學習器進行加權結合。Adaboost是一種迭代算法,具體訓練過程可參考南京大學周志華教授編寫的機器學習課本中關于Adaboost算法的章節。
3 SEA文本分類算法
在本文中,結合稀疏編碼器,極限學習機與Adaboost這三種機器學習方法提出SEA文本分類算法,該算法的工作流程如圖1所示。
該分類算法的第一步為輸入,輸入的是經過了向量化表示的文本,但沒有經過任何的手工特征提取。第二步是利用SAE算法對數據的重建能力自動選擇文本的特征,用SAE算法選擇的文本特征可以有效地復原原始文本信息。第三步是利用ELM分類器作為該算法的基分類器,ELM作為第四步中的基分類器參與訓練,最后一步是輸出該文本屬于哪一類。
4 實驗結果與分析
4.1 實驗數據集與評價指標
本文選用的分類文本數據來源于新聞數據集[5],該數據集復旦大學計算機信息與技術系李榮陸提供,數據集標注比較規范,規模適中,適合于進行文本分類的仿真實驗。
在文本分類中常用的評價指標有準確率P(Precision)和召回率R(Recall),公式如下:
P=M/(M+N),R=M/(M+T)
其中,M為正確分類到該類的文本數,N為錯分到該類中的文本數,T為屬于該類確誤分為別類的文本數。
4.2 實驗結果
為驗證本文提出的SEA文本分類模型,需要將文本數據集進行預處理,對于SEA模型來說,就是進行文本分詞。本實驗文本分詞采用的是NLPIR漢語分詞系統,其主要功能包括中文分詞,詞性標注,命名實體識別,用戶字典功能等,是國內比較成熟,用戶較多的中文文本分詞系統。經過文本預處理后,按照本文提出的SEA文本分模型進行實驗,并和幾種經典的分類算法做對比。在本實驗中Adaboost集成學習算法中基分類器的個數設置為10個,基分類器ELM中隱藏層的個數設置為輸入層的0.75倍,稀疏自動編碼器中隱藏層數設置為4,實驗結果如表1和表2所示。
從表1和表2可以看出隨著文本數量的增加,SEA模型的分類準確率和召回率逐漸提高,這是由于在訓練數據集較小時,稀疏編碼器對自動提取的文本特征變現地不是很理想,容易造成SEA分類模型產生過擬合現象,從而影響分類準確率和召回率。SVM算法在訓練數據集比較小時,變現良好,這是由于在訓練數據較少時,可以較容易地找到分類超平面,在數據量變大時,由于計算量的增大,使得計算量變大,導致計算得到的超平面效果不好,使得分類準確率和召回率不斷下降。BP和ELM算法都隨著訓練數據的增大,其分類準確率和召回率在不斷變大,這是由于隨著訓練數據的增大,BP和ELM可以更有效的提取輸入數據的特征,但ELM算法相比BP算法變現得更好,這是由于BP算法可能無法收斂到最優值,導致分類算法的準確率下降。
綜上所述,本文提出的SEA文本分類模型可以有效的提高文本分類的準確率和召回率,尤其是隨著訓練數據集的不斷增大。
5 結束語
文本分類在文本處理中占據著重要的地位,其分類的好壞直接影響著后續的文本處理,如何有效地對文本分類是一個重要的研究課題。本文結合稀疏自動編碼器,極限學習機與Adaboost集成學習方法提出SEA文本分類方法,實驗結果表明該分類方法可以有效將文本分類過程中的特征提取和分類器結合在一起,從而提高了分類結果的準確性。
參考文獻
[1]秦勝君,盧志平.稀疏自動編碼器在文本分類中的應用研究[J].科學技術與工程,2013,13(31):9422-9426.
[2]Baldi P, Guyon G, Dror V, et al. Autoencoders, Unsupervised Learning, and Deep Architectures Editor: I[J].Journal of Machine Learning Research,2012.
[3]Huang G B, Zhu Q Y, Siew C K. Extreme learning machine: Theory and applications[J]. Neurocomputing, 2006,70(1-3):489-501.
[4]Freund, Yoav, Schapire, Robert E. A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting[J]. Journal of Computer & System Sciences, 1999,55(1):119-139.
關鍵詞:卷積神經網絡;語言模型;分析
1 卷積神經網絡語言模型
CNN語言模型基本結構包括輸入層、卷積層、池化層及后續的分類層。輸入層是表示語言的矩陣,該矩陣可以是通過Google word2vec或GloVe預訓練得到的詞嵌入表示,也可以是從原始數據重新訓練的語言的向量表示。輸入層之后是通過線性濾波器對輸入矩陣進行卷積操作的卷積層。在NLP問題中,輸入矩陣總是帶有固定順序的結構,因為矩陣的每一行都表示離散的符號,例如單詞或者詞組等。因此,使用等寬的濾波器是非常合理的設置。在這種設置下,僅需要考慮濾波器的高度既可以實現不同尺寸的濾波器做卷積操作。由此可知,在處理NLP問題時,卷積神經網絡的濾波器尺寸一般都是指濾波器的高度。
然后,將卷積層輸出的特征映射輸入池化層,通過池化函數為特征映射進行降維并且減少了待估計參數規模。一般的,CNN池化操作采用1-max池化函數。該函數能夠將輸入的特征映射統一生成維度相同的新映射。通過池化操作,可以將卷積層生成的特征連接成更抽象的高級特征,所得到的高級特征尺寸與輸入的句子不再存在直接關系。
最后,將得到的高級特征輸入softmax分類層進行分類操作。在softmax層,可以選擇應用dropout策略作為正則化手段,該方法是隨機地將向量中的一些值設置為0。另外還可以選擇增加l2范數約束,l2范數約束是指當它超過該值時,將向量的l2范數縮放到指定閾值。在訓練期間,要最小化的目標是分類的交叉熵損失,要估計的參數包括濾波器的權重向量,激活函數中的偏置項以及softmax函數的權重向量。
2 卷積神經網絡語言模型應用分析
CNN語言模型已經廣泛應用于諸如文本分類,關系挖掘以及個性化推薦等NLP任務,下面將對這些應用進行具體的介紹與分析。
2.1 CNN在文本分類中的應用分析
kim提出了利用CNN進行句子分類的方法。該方法涉及了較小規模的參數,并采用靜態通道的CNN實現了效果很優異的句子分類方法。通過對輸入向量的調整,進一步提高了性能實現了包括情感極性分析以及話題分類的任務。在其基礎上為輸入的詞嵌入設計了兩種通道,一種是靜態通道,另一種是動態通道。在卷積層每一個濾波器都通過靜態與動態兩種通道進行計算,然后將計算結果進行拼接。在池化層采用dropout正則化策略,并對權值向量進行l2約束。最后將該算法應用于MR、SST-1與SST-2、Subj、TREC、CR以及MPQA等數據集。MR數據集為電影評論數據集,內容為一句話的電影評論,其分類包括積極情感極性與消極情感極性兩類。SST-1與SST-2數據集為斯坦福情感樹庫是MR數據集的擴展,但該數據集已經劃分好了訓練集、驗證集及測試集并給出了細粒度的標記,標記包括非常積極、積極、中性、消極、非常消極等情感極性。Subj數據集為主觀性數據集,其分類任務是將句子分為主觀句與客觀句兩類。TREC數據集為問題數據集,其分類任務是將所有問題分為六類,例如關于數字、人物或位置等信息的問題。CR數據集為評論數據集,包括客戶對MP3、照相機等數碼產品的評論,其分類任務是將其分為積極評價與消極評價兩類。MPQA數據集是意見極性檢測任務數據集。通過實驗證明,該方法在這幾個典型數據集上都能取得非常優異的效果。
2.2 CNN在關系挖掘中的應用分析
Shen等人提出了一種新的潛在語義模型,以詞序列作為輸入,利用卷積-池化結構為搜索查詢和Web文檔學習低維語義向量表示。為了在網絡查詢或網絡文本中捕捉上下文結構,通過輸入單詞序列上下文時間窗口中的每個單詞來獲取詞匯級的n-gram語法特征,將這些特征聚合成句子級特征向量。最后,應用非線性變換來提取高級語義信息以生成用于全文字符串的連續向量表示。該模型的不同之處在于,輸入層與卷積層之間加入了word-n-gram層與letter-trigram層,它們能夠將輸入的詞序列轉變為letter-trigram表示向量。在卷積層通過上下文特征窗口發現相鄰單詞的位置特征,并變現為n-gram形式。然后通過max池化將word-n-gram特征合并為句子級的高級特征。在池化層之后增加了語義層來提取更高級的語義表示向量。
2.3 CNN在個性化推薦中的應用分析
Weston等人提出了一種能夠利用標簽(hashtag)有監督的學習網絡帖子短文本特征表示的卷e嵌入模型(Convolutional Embedding Model)。該方法利用提出的CNN模型在55億詞的大數據文本上通過預標注的100,000標簽進行訓練。該方法除了標簽預測任務本身能取得好的效果外,學習到的特征對于其它的文本表示任務也能起到非常有效的作用。該模型與其它的詞嵌入模型類似,輸入層為表示文本的矩陣,但是,在用查找表表示輸入文本的同時將標簽也使用查找表來表示。對于給定的文檔利用10萬條最頻繁出現的標簽通過評分函數對任何給定的主題標簽進行排序。
其中,econv(w)表示CNN的輸入文檔,elt(t)是候選標簽t的詞嵌入表示。因此,通過對分數f(w,t)進行排序可以獲取所有候選主題標簽中排序第一的話題進行推薦。實驗數據集采用了兩個大規模語料集,均來自流行的社交網絡文本并帶有標簽。第一個數據集稱作people數據集,包括搜集自社交網絡的2億1000萬條文本,共含有55億單詞。第二個數據集被稱作pages,包括3530萬條社交網絡文本,共含有16億單詞,內容包括企業、名人、品牌或產品。
3 結束語
卷積神經網絡應用于語言模型已經取得了非常大的發展,對于自然語言處理中的各項任務均取得了優異的結果。本文通過對幾項典型工作的分析,探討了不同卷積神經網絡模型結構在不同任務中的表現。通過綜合分析可以得出以下結論。首先,CNN的輸入采用原始數據訓練的向量表示一般效果會優于預訓練的詞嵌入表示;其次,在卷積層濾波器的尺寸一般采用寬度與輸入矩陣寬度相等的設置;最后,為了優化結果可以采用dropout正則化處理。