時間:2023-03-17 18:05:50
序論:在您撰寫語音識別技術時,參考他人的優秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發您的創作熱情,引導您走向新的創作高度。
摘要:本文簡要介紹了語音識別技術理論基礎及分類方式,所采用的關鍵技術以及所面臨的困難與挑戰,最后討論了語音識別技術的發展前景和應用。
關鍵詞:語音識別;特征提取;模式匹配;模型訓練
Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.
Keywords:Speech identification;Character Pick-up;Mode matching;Model training
一、語音識別技術的理論基礎
語音識別技術:是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高級技術。語音識別以語音為研究對象,它是語音信號處理的一個重要研究方向,是模式識別的一個分支,涉及到生理學、心理學、語言學、計算機科學以及信號處理等諸多領域,甚至還涉及到人的體態語言(如人在說話時的表情、手勢等行為動作可幫助對方理解),其最終目標是實現人與機器進行自然語言通信。
不同的語音識別系統,雖然具體實現細節有所不同,但所采用的基本技術相似,一個典型語音識別系統主要包括特征提取技術、模式匹配準則及模型訓練技術三個方面。此外,還涉及到語音識別單元的選取。
(一) 語音識別單元的選取
選擇識別單元是語音識別研究的第一步。語音識別單元有單詞(句)、音節和音素三種,具體選擇哪一種,由具體的研究任務決定。
單詞(句)單元廣泛應用于中小詞匯語音識別系統,但不適合大詞匯系統,原因在于模型庫太龐大,訓練模型任務繁重,模型匹配算法復雜,難以滿足實時性要求。
音節單元多見于漢語語音識別,主要因為漢語是單音節結構的語言,而英語是多音節,并且漢語雖然有大約1300個音節,但若不考慮聲調,約有408個無調音節,數量相對較少。因此,對于中、大詞匯量漢語語音識別系統來說,以音節為識別單元基本是可行的。
音素單元以前多見于英語語音識別的研究中,但目前中、大詞匯量漢語語音識別系統也在越來越多地采用。原因在于漢語音節僅由聲母(包括零聲母有22個)和韻母(共有28個)構成,且聲韻母聲學特性相差很大。實際應用中常把聲母依后續韻母的不同而構成細化聲母,這樣雖然增加了模型數目,但提高了易混淆音節的區分能力。由于協同發音的影響,音素單元不穩定,所以如何獲得穩定的音素單元,還有待研究。
(二) 特征參數提取技術
語音信號中含有豐富的信息,但如何從中提取出對語音識別有用的信息呢?特征提取就是完成這項工作,它對語音信號進行分析處理,去除對語音識別無關緊要的冗余信息,獲得影響語音識別的重要信息。對于非特定人語音識別來講,希望特征參數盡可能多的反映語義信息,盡量減少說話人的個人信息(對特定人語音識別來講,則相反)。從信息論角度講,這是信息壓縮的過程。
線性預測(LP)分析技術是目前應用廣泛的特征參數提取技術,許多成功的應用系統都采用基于LP技術提取的倒譜參數。但線性預測模型是純數學模型,沒有考慮人類聽覺系統對語音的處理特點。
Mel參數和基于感知線性預測(PLP)分析提取的感知線性預測倒譜,在一定程度上模擬了人耳對語音的處理特點,應用了人耳聽覺感知方面的一些研究成果。實驗證明,采用這種技術,語音識別系統的性能有一定提高。
也有研究者嘗試把小波分析技術應用于特征提取,但目前性能難以與上述技術相比,有待進一步研究。
(三)模式匹配及模型訓練技術
模型訓練是指按照一定的準則,從大量已知模式中獲取表征該模式本質特征的模型參數,而模式匹配則是根據一定準則,使未知模式與模型庫中的某一個模型獲得最佳匹配。
語音識別所應用的模式匹配和模型訓練技術主要有動態時間歸正技術(DTW)、隱馬爾可夫模型(HMM)和人工神經元網絡(ANN)。
DTW是較早的一種模式匹配和模型訓練技術,它應用動態規劃方法成功解決了語音信號特征參數序列比較時時長不等的難題,在孤立詞語音識別中獲得了良好性能。但因其不適合連續語音大詞匯量語音識別系統,目前已被HMM模型和ANN替代。
HMM模型是語音信號時變特征的有參表示法。它由相互關聯的兩個隨機過程共同描述信號的統計特性,其中一個是隱蔽的(不可觀測的)具有有限狀態的Markor鏈,另一個是與Markor鏈的每一狀態相關聯的觀察矢量的隨機過程(可觀測的)。隱蔽Markor鏈的特征要靠可觀測到的信號特征揭示。這樣,語音等時變信號某一段的特征就由對應狀態觀察符號的隨機過程描述,而信號隨時間的變化由隱蔽Markor鏈的轉移概率描述。模型參數包括HMM拓撲結構、狀態轉移概率及描述觀察符號統計特性的一組隨機函數。按照隨機函數的特點,HMM模型可分為離散隱馬爾可夫模型(采用離散概率密度函數,簡稱DHMM)和連續隱馬爾可夫模型(采用連續概率密度函數,簡稱CHMM)以及半連續隱馬爾可夫模型(SCHMM,集DHMM和CHMM特點)。一般來講,在訓練數據足夠的,CHMM優于DHMM和SCHMM。HMM模型的訓練和識別都已研究出有效的算法,并不斷被完善,以增強HMM模型的魯棒性。
人工神經元網絡在語音識別中的應用是現在研究的又一熱點。ANN本質上是一個自適應非線性動力學系統,模擬了人類神經元活動的原理,具有自學、聯想、對比、推理和概括能力。這些能力是HMM模型不具備的,但ANN又不個有HMM模型的動態時間歸正性能。因此,現在已有人研究如何把二者的優點有機結合起來,從而提高整個模型的魯棒性。 二、語音識別的困難與對策
目前,語音識別方面的困難主要表現在:
(一)語音識別系統的適應性差,主要體現在對環境依賴性強,即在某種環境下采集到的語音訓練系統只能在這種環境下應用,否則系統性能將急劇下降;另外一個問題是對用戶的錯誤輸入不能正確響應,使用不方便。
(二)高噪聲環境下語音識別進展困難,因為此時人的發音變化很大,像聲音變高,語速變慢,音調及共振峰變化等等,這就是所謂Lombard效應,必須尋找新的信號分析處理方法。
(三)語言學、生理學、心理學方面的研究成果已有不少,但如何把這些知識量化、建模并用于語音識別,還需研究。而語言模型、語法及詞法模型在中、大詞匯量連續語音識別中是非常重要的。
(四)我們對人類的聽覺理解、知識積累和學習機制以及大腦神經系統的控制機理等分面的認識還很不清楚;其次,把這方面的現有成果用于語音識別,還有一個艱難的過程。
(五)語音識別系統從實驗室演示系統到商品的轉化過程中還有許多具體問題需要解決,識別速度、拒識問題以及關鍵詞(句)檢測技術等等技術細節要解決。
三、語音識別技術的前景和應用
語音識別技術發展到今天,特別是中小詞匯量非特定人語音識別系統識別精度已經大于98%,對特定人語音識別系統的識別精度就更高。這些技術已經能夠滿足通常應用的要求。由于大規模集成電路技術的發展,這些復雜的語音識別系統也已經完全可以制成專用芯片,大量生產。在西方經濟發達國家,大量的語音識別產品已經進入市場和服務領域。一些用戶交機、電話機、手機已經包含了語音識別撥號功能,還有語音記事本、語音智能玩具等產品也包括語音識別與語音合成功能。人們可以通過電話網絡用語音識別口語對話系統查詢有關的機票、旅游、銀行信息,并且取得很好的結果。
語音識別是一門交叉學科,語音識別正逐步成為信息技術中人機接口的關鍵技術,語音識別技術與語音合成技術結合使人們能夠甩掉鍵盤,通過語音命令進行操作。語音技術的應用已經成為一個具有競爭性的新興高技術產業。
參考文獻
[1]科大訊飛語音識別技術專欄. 語音識別產業的新發展.企業專欄.通訊世界,2007.2:(總l12期)
[2]任天平,門茂深.語音識別技術應用的進展.科技廣場.河南科技,2005.2:19-20
[3]俞鐵城.科大訊飛語音識別技術專欄.語音識別的發展現狀.企業專欄.通訊世界,2006.2 (總122期)
[4]陳尚勤等.近代語音識別.西安:電子科技大學出版社,1991
關鍵詞:語音識別 應用領域 熱點 難點
中圖分類號:TN912 文獻標識碼:A 文章編號:1007-3973 (2010) 03-062-02
1應用領域
如今,一些語音識別的應用已經應用到實際生活中,如IBM的Viavoice、Microsoft的Speech SDK、Dragon公司的Dragon Dictate系統等。語音識別的應用領域非常廣泛,幾乎涉及到日常生活的方方面面。如語音撥號系統、、家庭服務、訂票系統、聲控智能玩具、醫療服務、銀行服務、聽寫機、計算機控制、工業控制、語音通信系統等。預計在不遠的將來,語音識別技術將在工業、家電、通信、、醫療、家庭服務等各個領域深刻改變人類現有的日常生活方式。語音識別聽寫機在一些領域的應用被美國新聞界評為1997年計算機發展十件大事之一。很多專家都認為語音識別技術是2000年至2010年間信息技術領域十大重要的科技發展技術之一。
2發展歷史
語音識別的研究工作開始于50年代,Bell實驗室實現了第一個可識別十個英文數字的語音識別系統―Audry系統。但真正取得實質性進展,并將其作為一個重要的課題開展研究則是在60年代末70年代初。60年代,提出了動態規劃(DP)和線性預測分析技術(LP),其中后者較好地解決了語音信號產生模型的問題,極大地促進了語音識別的發展。70年代,動態時間歸正技術(DTW)解決了語音特征不等長匹配問題,對特定人孤立詞語音識別十分有效,在語音識別領域取得了突破。在此期間還提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。
80年代語音識別研究進一步深入,HMM模型和人工神經網絡(ANN)在語音識別中成功應用。1988年,FULEE Kai等用VQ/I-IMM方法實現了997個詞匯的非特定人連續語音識別系統SPHINX。這是世界上第1個高性能的非特定人、大詞匯量、連續語音識別系統。人們終于在實驗室突破了大詞匯量、連續語音和非特定人這三大障礙,并以此確定了統計方法和模型在語音識別和語言處理中的主流地位。使得借助人工智能中的啟發式搜索和語音模型自身的特點,高效、快捷的算法使得建立實時的連續語音識別系統成為可能。
90年代,人們開始進一步研究語音識別與自然語言處理的結合,逐步發展到基于自然口語識別和理解的人機對話系統。人工神經元網絡(ANN)也開始應用于語音識別,它和HMM模型建立的語音識別系統性能相當,在很多系統中還被結合在一起使用以提高識別率及系統的魯棒性。小波分析也開始用于特征提取,但目前性能不理想,其研究還在進一步深入中。
現在語音識別系統已經開始從實驗室走向實用,出現了比較成熟的已推向市場的產品。許多發達國家如美國、日本、韓國以及IBM、Apple、Microsoft、AT&T等著名公司都為語音識別系統的實用化開發研究投以巨資。
3研究的熱點與難點
目前語音識別領域的研究熱點包括:穩健語音識別(識別的魯棒性)、語音輸入設備研究 、聲學HMM模型的細化、說話人自適應技術、大詞匯量關鍵詞識別、高效的識別(搜索)算法研究 、可信度評測算法研究、ANN的應用、語言模型及深層次的自然語言理解。
目前研究的難點主要表現在:(1)語音識別系統的適應性差。主要體現在對環境依賴性強。(2)高噪聲環境下語音識別進展困難,因為此時人的發音變化很大,像聲音變高,語速變慢,音調及共振峰變化等等,必須尋找新的信號分析處理方法。(3)如何把語言學、生理學、心理學方面知識量化、建模并有效用于語音識別,目前也是一個難點。(4)由于我們對人類的聽覺理解、知識積累和學習機制以及大腦神經系統的控制機理等方面的認識還很不清楚,這必將阻礙語音識別的進一步發展。
4語音識別系統
一個典型的語音識別系統如圖所示:
輸入的語言信號首先要進行反混疊濾波、采樣、A/D轉換等過程進行數字化,之后要進行預處理,包括預加重、加窗和分幀、端點檢測等。我們稱之為對語音信號進行預處理。
語音信號的特征參數主要有:短時能量En,反映語音振幅或能量隨著時間緩慢變化的規律;短時平均過零率Zn,對于離散信號來講,簡單的說就是樣本改變符號的次數,可以粗略分辨清音和濁音;短時自相關函數;經過FFT或LPC運算得到的功率譜,再經過對數運算和傅里葉反變換以后得到的倒譜參數;根據人耳聽覺特性變換的美爾(MEL);線性預測系數等。通常識別參數可選擇上面的某一種或幾種的組合。
語音識別是語音識別系統最核心的部分。包括語音的聲學模型(訓練學習)與模式匹配(識別算法)以及相應的語言模型與語言處理2大部分。聲學模型用于參數匹配,通常在模型訓練階段按照一定的準則,由用語音特征參數表征的大量已知模式中通過學習算法來獲取代表該模式本質特征的模型參數而產生。在識別(模式匹配)時將輸入的語音特征同聲學模型(模式)根據一定準則進行匹配與比較,使未知模式與模型庫中的某一個模型獲得最佳匹配以得到最佳的識別結果。語言模型一般指在匹配搜索時用于字詞和路徑約束的語言規則,它包括由識別語音命令構成的語法網絡或由統計方法構成的語言模型,語言處理則可以進行語法、語義分析。
聲學模型是語音識別系統中最關鍵的一部分。目前最常用也最有效的幾種聲學識別模型包括動態時間歸整模型(DTW)、隱馬爾可夫模型(HMM)和人工神經網絡模型(ANN)等。
DTW是較早的一種模式匹配和模型訓練技術,它把整個單詞作為識別單元,在訓練階段將詞匯表中每個詞的特征矢量序列作為模板存入模板庫,在識別階段將待識別語音的特征矢量序列依次與庫中的每個模板進行相似度比較,將相似度最高者作為識別結果輸出。DTW應用動態規劃方法成功解決了語音信號特征參數序列比較時時長不等的難題,在小詞匯量、孤立詞語音識別中獲得了良好性能。但因其不適合連續語音大詞匯量語音識別系統,目前已逐漸被HMM和ANN模型替代。
HMM模型是語音信號時變特征的有參表示法。它由相互關聯的兩個隨機過程共同描述信號的統計特性,其中一個是隱蔽的(不可觀測的)具有有限狀態的Markor鏈,另一個是與Markor鏈的每一狀態相關聯的觀察矢量的隨機過程(可觀測的)。HMM很好的模擬了人得語言過程,目前應用十分廣泛。HMM模型的模型參數包括HMM拓撲結構(狀態數目N、狀態之間的轉移方向等)、每個狀態可以觀察到的符號數M(符號集合O)、狀態轉移概率A及描述觀察符號統計特性的一組隨機函數,包括觀察符號的概率分布B和初始狀態概率分布 ,因此一個HMM模型可以由{N,M,A,B, }來確定,對詞匯表中的每一個詞都要建立相應的HMM模型。
模型參數得到后可以用Viterbi算法來確定與觀察序列對應的最佳的狀態序列。建好模型后,在識別階段就是要計算每個模型產生觀察符號序列的輸出概率,輸出概率最大的模型所表示的詞就是我們的識別結果。這個過程計算量很大,有人提出了前向-后向算法,大大減少了計算量,已經被廣泛采用,關于它們的各種改進方法也被大量提出。
ANN在語音識別中的應用是現在研究的又一熱點。ANN本質上是一個自適應非線性動力學系統,是由結點互連組成的計算網絡,模擬了人類大腦神經元活動的基本原理,具有自學習能力、記憶、聯想、推理、概括能力和快速并行實現的特點,同時還具備自組織、自適應的功能。這些能力是HMM模型不具備的,可用于處理一些環境信息十分復雜,背景知識不清楚,推理規則不明確的問題,允許樣品有較大的缺損、畸變,因此對于噪聲環境下非特定人的語音識別問題來說是一種很好的解決方案。目前大部分應用神經網絡的語音識別系統都采用了BP網并取得了較好的識別效果。
將ANN與HMM結合分別利用各自優點進行識別將是今后的一條研究途徑。二者結合的混合語音識別方法的研究開始于上世紀90年代,目前已有一些方法將ANN輔助HMM進行計算和學習概率參數。
語言模型主要分為規則模型和統計模型兩種。統計語言模型是用概率統計的方法來揭示語言單位內在的統計規律,其中N-Gram簡單有效,被廣泛使用。N-Gram模型基于這樣一種假設:第n個詞的出現只與前面N-1個詞相關,而與其它任何詞都不相關,整句的概率就是各個詞出現概率的乘積。這些概率可以通過直接從語料庫中統計N個詞同時出現的次數得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
5總結
盡管語音識別技術已經取得了長足的進步,而語音識別系統也層出不窮,不斷的改變人類現有的生活方式,但其比較成功的應用也只是在某些特定的領域,談不上大規模廣泛的應用。只有建立從聲學、語音學到語言學的知識為基礎、以信息論、模式識別數理統計和人工智能為主要實現手段的語音處理機制,把整個語音識別過程從系統工程的高度進行分析構建,才有可能獲得能與人類相比的高性能的、完整的計算機語音識別系統。
參考文獻:
[1]易克初,田斌.付強.語音信號處理[M].國防工業出版社,2000.
[2]胡航.語音信號處理[M].哈爾濱工業大學出版社,2000.
[3]趙力.語音信號處理[M].機械工業出版社,2003.
【關鍵詞】語音識別 語言模型 聲學模型 人工智能
使用智能手機的朋友們都會對語音助手產生極大的興趣,不管是微軟的Cortana,還是蘋果的Siri,都是將語音識別融入現代技術的典范。Z音識別是解決機器“聽懂”人類語言的一項技術,也是人工智能重要部分。
語音識別技術(speech recognition),也被稱為自動語音識別 (ASR),其目標是將人類的語音中的詞匯內容轉換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。與說話人識別及說話人確認不同,后者嘗試識別或確認發出語音的說話人而前者的目標是語音中所包含的詞匯內容。
探究語音識別技術的框架、應用與發展有利于全面了解語音識別。本文將從語音識別簡介、主流語言識別框架以及語言識別近年來的發展三個方面探究語音識別。
1 語音識別簡介
1.1 傳統語言識別技術發展
對語音識別技術的研究可以追述到上世紀五十年代,1952年貝爾研究所Davis等人研究成功了世界上第一個能識別10個英文數字發音的實驗系統,開創了語音識別的先河。上世紀六十年代,人工神經網絡被引入了語音識別。上世紀七十年代以后,大規模的語音識別在小詞匯量、孤立詞的識別方面取得了實質性的進展。傳統語音識別技術最大突破是隱式馬爾可夫模型的應用,這一模型極大提高了語音識別的準確率[1]。
1.2 語言識別的應用
作為智能計算機研究的主導方向和人機語音通信的關鍵技術,語音識別一直受到各國科學界的廣泛關注。如今,隨著語音識別技術的研究的突破,其對計算機發展和社會生活的重要性日益凸現出來。在現實生活中,語音識別技術的應用相當廣泛,它改變了人與計算機交互的方式,使計算機更加智能。和鍵盤輸入相比,語音識別更符合人的日常習慣;使用語言控制系統,相比手動控制,語音識別更加方便快捷,可以用在工業控制、智能家電等設備;通過智能對話查詢系統,企業可以根據用戶的語音進行操作,為用戶提供自然、友好的數據檢索服務。
2 語音識別框架
目前主流的語音識別框架可以分為以下幾個模塊:信號處理,特征提取,聲學模型,語言模型,解碼器。
2.1 信號處理
信號處理模塊是對語音文件進行預處理。聲音是一種縱波,在識別語音時,輸入為WMV,MP3等格式的文件會被轉換成非壓縮的純波文件wav格式。然后在進行語音識別前,需要檢測該文件中的語音信號,該技術被稱之為語音活性檢測[2]。使用語言活性檢測技術可以有效降低噪音,去除非語音片段,提高語音識別的準確率。經典的語音活性檢測算法由如下步驟組成:
(1)使用spectral subtraction等方法對語言序列進行降噪。(2)將輸入信號的分成區塊并提取特征。(3)設計分類器判斷該區塊是否為語音信號。
2.2 特征提取
特征提取目的是提取出語音文件的特征,以一定的數學方式表達,從而可以參與到后續模塊處理中。在這一模塊,首先要將連續的聲音分成離散的幀。每一幀的時間既要足夠長,使得我們能夠判斷它屬于哪個聲韻母的信息,若過短則包含信息過少;每一幀時間也要盡量短,語音信號需要足夠平穩,能夠通過短時傅里葉分析進行特征提取,過長則會使信號不夠平穩。分幀時使用如下改進技術可以有效提高識別準確率:相鄰的兩幀有所重疊減少分割誤差,將與臨近幀之間的差分作為額外特征,將多個語音幀堆疊起來。通過分幀處理,連續的語音被分為離散的小段,但還缺乏數學上的描述能力,因此需要對波形作特征提取。常見的方法是根據人耳的生理特征,把每一幀波形變換成一個多維向量。因此,這些向量包含了這些語音的內容信息。該過程被稱為聲學特征提取,常見的聲學特征有MFCC、CPE、LPC等。
MFCC是目前最常用、最基本的聲學特征,提取MFCC特征可以分為如下四個步驟:首先對每一幀進行傅里葉變換,取得每一幀的頻譜。再把頻譜與圖1中每個三角形相乘并積分,求出頻譜在每一個三角形下的能量,這樣處理可以減少數據量,并模仿人耳在低頻處分辨率高的特性。然后取上一步得到結果的對數,這可以放大低能量處的能量差異。最后對得到的對數進行離散余弦變換,并保留前12~20個點進一步壓縮數據。通過特征提取,聲音序列就被轉換為有特征向量組成的矩陣。
2.3 聲學模型
聲學模型是語音識別中最重要的組成部分之一,其用于語音到音節概率的計算。目前主流的方法多數采用隱馬爾科夫模型,隱馬爾可夫模型的概念是一個離散時域有限狀態自動機。
隱馬爾可夫模型HMM如圖2所示,是指這一馬爾可夫模型的內部狀態x1,x2,x3外界不可見,外界只能看到各個時刻的輸出值y1,y2,y3。對語音識別系統,輸出值通常就是從各個幀計算而得的聲學特征,輸入是由特征提取模塊提取的特征。用HMM刻畫語音信號需作出兩個假設,一是內部狀態的轉移只與上一狀態有關,另一是輸出值Y只與當前狀態X(或當前的狀態轉移)有關,這兩個假設大大降低了模型的復雜度。HMM的打分、解碼和訓練相應的算法是前向算法、維特比算法和前向后向算法。
早期的聲學模型使用矢量量化(Vector Quantification)的方法,使其性能受到VQ算法的極大影響。對于連續取值的特征應當采用連續的概率分布如高斯混合模型或混合拉普拉斯模型等。為了解決模型參數過多的問題,可以使用某些聚類方法來減小模型中的參數數量,提高模型的可訓練性。聚類可以在模型層次,狀態層次乃至混合高斯模型中每個混合的層次進行。
2.4 語言模型
語言模型音節到字概率的計算。 語言模型主要分為規則模型和統計模型兩種。相比于統計模型,規則模型魯棒性較差,對非本質錯誤過于嚴苛,泛化能力較差,研究強度更大。因此主流語音識別技術多采用統計模型。統計模型采用概率統計的方法來揭示語言單位內在的統計規律,其中N-Gram簡單有效,被廣泛使用。
N-Gram基于如下假設:第N個詞的出現只與前面N-1個詞相關,而與其它任何詞都不相關,整句的概率即為各個詞出現概率的乘積。詞與詞之間的概率可以直接從語料中統計N個詞同時出現的次數得到??紤]計算量和效果之間的平衡,N取值一般較小,常用的是二元的Bi-Gram和三元的Tri-Gram。
2.5 解碼器
解碼器是語音識別系統的核心之一,其任務是對輸入信號,根據聲學、語言模型及詞典,尋找能夠以最大概率輸出該信號的詞串。在實踐中較多采用維特比算法[3]搜索根據聲學、語言模型得出的最優詞串。
基于動態規劃的維特比算法在每個時間點上的各個狀態,計算解碼狀態序列對觀察序列的后驗概率,保留概率最大的路徑,并在每個節點記錄下相應的狀態信息以便最后反向獲取詞解碼序列。維特比算法在不喪失最優解的條件下,同時解決了連續語音識別中HMM模型狀態序列與聲學觀察序列的非線性時間對準、詞邊界檢測和詞的識別,從而使這一算法成為語音識別搜索的基本策略。
維特比(Viterbi)算法的時齊特性使得同一時刻的各條路徑對應于同樣的觀察序列,因而具有可比性,Beam搜索在每一時刻只保留概率最大的前若干條路徑,大幅度的剪枝提高了搜索的效率。Viterbi-Beam算法是當前語音識別搜索中最有效的算法。
3 語音識別技術的發展
近幾年來,特別是2009年以來,借助機器學習領域深度學習研究的發展,以及大數據語料的積累,語音識別技術得到突飛猛進的發展。
在模型方面,傳統語音識別模型逐步被神經網絡替代,使用神經網絡可以更好地提取特征,擬合曲線。使用人工神經網絡來提高語音識別性能的概念最早在80年代就提出了,但當時高斯混合模型在大詞匯語音識別上表現得更好,因此人工神經網絡并沒有進行商業應用。隨著相關技術的進一步發展,微軟研究院利用深度神經網絡建立了數千個音素的模型,比傳統方法減少了16%的相對誤差。其在建立起有超過660萬神經聯系的網絡后,將總的語音識別錯誤率降低了30%,實現了語音識別巨大的突破[4]。
同時目前多數主流語言識別解碼器采用了基于有限狀態機的解碼網絡,該網絡將語音模型、詞典、聲學共享音字集統一為大的解碼網絡,大幅度提高了解碼速度。
在數據量上,由于移動互聯網的急速發展,從多個渠道獲取的海量語言原料為聲學模型和語言模型的訓練提供了豐富的資源,不斷提升語音識別的準確率。
4 結語
語音是人們工作生活中最自然的交流媒介,所以語音識別技術在人機交互中成為非常重要的方式,語音識別技術具有非常廣泛的應用領域和非常廣闊的市場前景。而隨著深度神經網絡發展,硬件計算能力的提高,以及海量數據積累,語音識別系統的準確率和實用性將得到持續提高。
參考文獻:
[1]S基百科編者.語音識別[G/OL].維基百科,2016(20160829)[2016-08-29].
[2]維基百科編者.語音活性檢測[G/OL].維基百科,2016(20160629)[2016-06-29].
[3]維基百科編者.維特比算法[G/OL].維基百科,2016(20160920)[2016-09-20].
[4] Dahl G E, Yu D, Deng L, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1):30-42.
【關鍵詞】 語音識別 通話 大數據 互聯網
該文主要致力于解決通話中的語音識別技術,長期可推廣至QQ語音聊天等即時聊天軟件中,相較于目前大多數語音識別軟件需要手動打開更為主動,讓用戶感覺不到軟件的存在,將該技術深度整合到系統或QQ服務中在通話結束后針對通話中涉及的電話號碼、地點、時間等關鍵信息進行信息的推送,大大提高了效率,并對聽力有障礙的人士有更為重要的意義。
一、語音識別基本原理
語音識別系統本質上是一種模式識別系統,包括特征提取、模式匹配、參考模式庫等三個基本單元,未知語音經過話筒變換成電信號后加在識別系統的輸入端,首先經過預處理,再根據人的語音特點建立語音模型,對輸入的語音信號進行分析,并抽取所需的特征,在此基礎上建立語音識別所需的模板,然后根據此模板的定義,通過查表就可以給出計算機的識別結果。 [1]
二、通話中語音識別技術
2.1技術原理:
1、基本架構:Smartalk通話系統基于“云之訊”開放平臺提供的語音視頻通話服務和“科大訊飛”開放平臺提供的語音識別服務,并加以對手機GPS位置、通訊錄、社交軟件信息的分析,在“云”的輔助下對之進行處理和交換。Smartalk架構分為4個部分:客戶端、語音視頻服務、語音識別服務、云數據處理分析。利用“云之訊”開放平臺提供的語音視頻通話服務和“科大訊飛”開放平臺提供的語音識別服務可將用戶在通話中涉及的地點、人名、電話號碼等關鍵詞提取出來并加以分析對行程和下一步操作提供幫助。
2、基本平臺:本系統基于APIcloud開發,兼容云端和第三方SDK,可跨平臺(Android、IOS、Windows等)使用,采用標準的c++語言實現。
2.2功能實現:
1、基于“云之訊”開放平臺的通話系統:云之訊融合通訊開放平臺為企業及個人開發者提供各種通訊服務,包括在線語音服務、短信服務、視頻服務、會議服務等,開發者通過嵌入云通訊API在應用中輕松實現各種通訊功能。
2、基于“科大訊飛”開放平臺的語音識別系統:。訊飛開放平臺使用戶可通過互聯網、移動互聯網,使用任何設備方便的介入訊飛開放平臺提供的“聽、說、讀、寫”等全方位的人工智能服務。目前開放平臺向開發者提供語音合成、語音識別、語音喚醒、語義理解、移動應用分析等多項服務。
3、語音識別與云端大數據結合分析:。利用基于“云之訊”通話系統和“科大訊飛”語音識別系統實現了實時的語音識別,加以云端大數據的結合,和實時的分析用戶當前的需求和問題,及時的跟用戶產生交流反饋,并根據用戶長期的使用時間分析智能提前推送相關信息。
2.3未來展望:
基于大數據和互聯網+技術的日益發展與完善,并隨著通信傳輸速度的逐漸提高,可在實時的條件下分析與推送更多豐富的內容,加以與即時聊天軟件的結合,將該技術深度整合到系統或QQ服務中在通話結束后針對通話中涉及的電話號碼、地點、時間等關鍵信息進行信息的推送,并對聽力有障礙的人士有更為重要的意義,未來的市場前景廣闊。
三、語音識別技術應用
3.1 語音指令控制在汽車上的應用:
語音控制人員只需要用嘴說出命令控制字,就可以實現對系統的控制。在汽車上,可用于汽車導航、控制車載設備。如車燈、音響、天窗、座椅、雨刮器等。
3.2語音識別技術在醫療系統中的應用:
醫療語音識別技術,已有廠商開發了基于云平臺的語音識別系統,可直接內嵌到醫院電子病歷系統中,讓醫生通過語音輸入病人信息,填寫醫療記錄,下達醫囑信息。
四、相關市場調研
1、國內外市場分析:2015年全球智能語音產業規模達到61.2億美元,較2014年增長34.2%。其中,中國智能語音產業規模達到40.3億元,較2014年增長增長41.0%,遠高于全球語音產業增長速度預計到2016年,中國語音產業規模預計達到59億元。[2]
2、相關應用發展:拉斯維加斯消費電子展(CES)上展示的MindMeld。在通話中,如果參與者點擊應用的一個按鈕,那么MindMeld將利用Nuance的語音識別技術,分析此前15至30秒對話。隨后,MindMeld將確定對話中的關鍵詞,以及其他多個信息來源,查找具有相關性的信息,并在屏幕上向用戶提供圖片和鏈接地址。[3]
參 考 文 獻
[1] 吳堅.基于web的salt語音識別技術應用研究[D].湖北工業大學, 2006
1.概況
語音識別技術成為21世紀“數字時代”的重要開發領域,在計算機的多媒體技術應用和工業自動化控制應用等方面,成果令人屬目。語音識別技術是指用電子裝置來識別某些人的某些特征語音,語音識別的手段一般分為二大類,一類利用在計算機上開發語音識別系統,通過編程軟件達到對語音的識別,另一類采用專門的語音識別芯片來進行簡單的語音識別。利用專門的語音識別芯片應用在地鐵車輛上,具有結構簡單、使用方便,并且語音識別器有較高的可靠性、穩定性的特點,是簡單語音識別在自動控制應用上的一種優先方案。
目前上海地鐵
一、
二、
三、
五、
六、八號線在車輛信息顯示系統的設計上缺少實用性和操作性,對乘客來講缺少在實時報站時的人性化。如:地鐵車廂內的乘客信息顯示系統和車廂外側的列車信息顯示系統。如果在每個車門的上方安裝車站站名動態顯示地圖,實時顯示與車廂廣播同步的信息,以及在每節車廂外側顯示列車的終點站,良好的工業設計不僅能給廣大的乘客帶來非常大的幫助,而且能夠提升上海地鐵服務的形象。由于在設計以上地鐵列車時,受科技發展的限制?,F在上海地鐵4號線在車輛信息顯示系統的設計上滿足了廣大的乘客的需求,
增加了車站站名動態顯示地圖。
如何在現有的地鐵車輛上增加地鐵車廂內的乘客信息顯示系統和車廂外側的列車信息顯示系統,如圖1、2,首先考慮其實用性和性價比,同時安裝、操作要方便,在不影響列車的性能的前提下,完成本乘客信息顯示系統的應用,設計方案的選擇極其重要,目前的乘客信息顯示系統比較復雜,例如:對于應用在某條線路上的聲音識別系統,不僅要修改原語音文件,而且聲音識別器不容易操縱,
對使用者來講仍然存在比較多的問題。對于應用在某條線路上數字傳輸顯示系統,其操作方法不僅給司機帶來了任務,每站需要手動操作二次,同時顯示的相關內容沒有實時性,總之乘客信息顯示系統比較落后。
設計一種符合現代化要求的乘客信息顯示系統是非常必要。
2.設計
地鐵車輛乘客信息顯示系統的設計,采用CMOS語音識別大規模集成電路,識別響應時間小于300ms。HM2007芯片采用單片結構,如圖3。將語音識別需要的全部電路:CPU、A/D、ROM、語音的AMP放大器、壓縮器、濾波器、震蕩器和接口界面等集中在一片芯片內,這樣電路就非常少,外接64K非易失性SRAM,最多能識別40個車站站名語音(字長0.9秒),或(字長1.92秒)但識別僅20個車站站名語音。按正常人的講話速度,0.9秒一般每秒吐字1到3個為宜。
針對目前上海地鐵列車在車廂內外無LED動態站名顯示而設計,通過將列車車廂廣播的模擬信號轉換成數字信號,自動控制LED發光二極管,在列車在車廂內使得廣播的內容(每個車站站名)與發光二極管顯示面板聲光同步,將顯示面板放置地鐵車輛的每扇車門上方,并且顯示面板以地鐵運營線路為背景,達到列車進站和出站時能分別指示。在列車車廂外讓乘客非常直觀地、一目了然地了解車輛的終點站方向,從而方便乘客的上下車,提高了地鐵服務水平。在國外的地鐵列車上應用已相當普遍。
語音識別顯示器①的輸入端與車載廣播功放器相連接,實現廣播模擬信號發出的語音進行車站名的自動識別。不需要編程技術和修改文件等方法,全部采用硬件方法設計。整個系統分為5部分:(1)輸入控制部分;(2)噪音濾波部分;(3)語言識別部分;(4)執行顯示部分;(5)錄音功能部分。
(1)輸入控制部分:
通過麥克風或(結合器)連接,如圖4所示,要求模擬語音輸入點的電壓必須控制在大約20mv左右,以確保后期語音識別的正確性。在輸入電路中增加了聲音控制部分的電路,即將模擬信號轉變成數字方波信號,對語音輸入進行開關量的控制,確保在T<0.9秒內的正確輸入語音字長。
(2)語音識別部分:
利用語音識別芯片HM2007和外接6264SRAM存儲器組成為主要部分,(HM2007中ROM已經固化了語音語法技術)對語音的存儲及語音語法算法進行控制。HM2007的詳細內容見產品說明書。
(3)噪音濾波部分:
濾波功能是自動識別(阻擋)我們在設計階段設計好的各個工況的語音情況,例如:司機的講話及車輛雜音等(在麥克風的工況下),以確保輸入語音的可靠性、穩定性,特采用UM3758串行編譯碼一體化進行濾波電路。如圖5。
(4)執行顯示部分:
將車廂廣播喇叭的模擬信息通過語音識別器轉變成數字信息,最終經過譯碼電路、4/16多路數據選擇器及RS485接口,去控制車廂內車門上十個LED顯示面板,如圖6。
(5)錄音功能部分:
在進行廣播內容更改時,本項目最大的特點是:不需要任何手段的手工軟件編程的修改,而是通過遠程音頻電路控制技術進行按動相關按鈕,選擇地址然后自動錄入內容,如圖6。
3.結論
語音識別器及LED顯示面板的設計,能應用到以前沒有LED顯示面功能的地鐵車輛上,與其他所設計的方式相比較,語音識別控制簡單、可靠性好、安裝方便、相對投資最小和不改動車廂內任何電器為特點,僅提供110VDC電源和音頻輸入接口。
本項目的開發具有一定社會效益,得到國內外乘客和殘疾人員的歡迎,提高了地鐵服務質量。
參考文獻:
1.HUALONMICRELECTRONICSCORPORATIONTIWANPRODUCTNUMBER:HM2007
2.555集成電路實用大全上海科技普及出版社
3.①獲得“2003年上海市優秀發明選拔賽三等獎”
4.①編入《中國科技發展精典文庫》第四輯
關鍵詞: 語音識別; 識別原理; 聲學建模方法; 多維模式識別系統
中圖分類號: TN912.3?34 文獻標識碼: A 文章編號: 1004?373X(2013)13?0043?03
Summary of speech recognition technology and its application
YU Lin?lin
(Naval Aviation Military Representative Office Stationed in Beijing, Beijing 100041, China)
Abstract: As a key technology of human?computer interface in information technology, speech recognition has great research significance and broad application value. the development history of speech recognition technology is introduced, the basic knowledge of speech recognition is expounded, such as concept, basic principle, the acoustic modeling approach. The application of speech recognition technology in various fields are briefly introduced.
Keywords: speech recognition; recognition principle; acoustic modeling approach; multi?dimension pattern recognition system
0 引 言
語言是人類相互交流最常用、最有效、最重要和最方便的通信形式,語音是語言的聲學表現,與機器進行語音交流是人類一直以來的夢想。隨著計算機技術的飛速發展,語音識別技術也取得突破性的成就,人與機器用自然語言進行對話的夢想逐步接近實現。語音識別技術的應用范圍極為廣泛,不僅涉及到日常生活的方方面面,在軍事領域也發揮著極其重要的作用。它是信息社會朝著智能化和自動化發展的關鍵技術,使人們對信息的處理和獲取更加便捷,從而提高人們的工作效率。
1 語音識別技術的發展
語音識別技術起始于20世紀50年代。這一時期,語音識別的研究主要集中在對元音、輔音、數字以及孤立詞的識別。
20世紀60年代,語音識別研究取得實質性進展。線性預測分析和動態規劃的提出較好地解決了語音信號模型的產生和語音信號不等長兩個問題,并通過語音信號的線性預測編碼,有效地解決了語音信號的特征提取。
20世紀70年代,語音識別技術取得突破性進展?;趧討B規劃的動態時間規整(Dynamic Time Warping, DTW)技術基本成熟,特別提出了矢量量化(Vector Quantization,VQ)和隱馬爾可夫模型(Hidden Markov Model,HMM)理論[1]。
20世紀80年代,語音識別任務開始從孤立詞、連接詞的識別轉向大詞匯量、非特定人、連續語音的識別,識別算法也從傳統的基于標準模板匹配的方法轉向基于統計模型的方法。在聲學模型方面,由于HMM能夠很好的描述語音時變性和平穩性,開始被廣泛應用于大詞匯量連續語音識別(Large Vocabulary Continous Speech Recognition, LVCSR)的聲學建模[2?3];在語言模型方面,以N元文法為代表的統計語言模型開始廣泛應用于語音識別系統[4]。在這一階段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神經網絡的語音建模方法開始廣泛應用于LVCSR系統,語音識別技術取得新突破。
20世紀90年代以后,伴隨著語音識別系統走向實用化,語音識別在細化模型的設計、參數提取和優化、系統的自適應方面取得較大進展[5]。同時,人們更多地關注話者自適應、聽覺模型、快速搜索識別算法以及進一步的語言模型的研究等課題[6]。此外,語音識別技術開始與其他領域相關技術進行結合,以提高識別的準確率,便于實現語音識別技術的產品化。
2 語音識別基礎
2.1 語音識別概念
語音識別是將人類的聲音信號轉化為文字或者指令的過程[7]。語音識別以語音為研究對象,它是語音信號處理的一個重要研究方向,是模式識別的一個分支。語音識別的研究涉及微機技術、人工智能、數字信號處理、模式識別、聲學、語言學和認知科學等許多學科領域,是一個多學科綜合性研究領域[8]。
根據在不同限制條件下的研究任務,產生了不同的研究領域。這些領域包括:根據對說話人說話方式的要求,可分為孤立字(詞)、連接詞和連續語音識別系統;根據對說話人的依賴程度,可分為特定人和非特定人語音識別系統;根據詞匯量的大小,可分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識別系統。
2.2 語音識別基本原理
從語音識別模型的角度講,主流的語音識別系統理論是建立在統計模式識別基礎之上的。語音識別的目標是利用語音學與語言學信息,把輸入的語音特征向量序列[X=x1,x2,…,xT]轉化成詞序列[W=w1,w2,…,wN]并輸出?;谧畲蠛篁灨怕实恼Z音識別模型如下式所示:
[W=argmaxW{P(W|X)}=argmaxWP(W|X)P(W)P(X)=argmaxW{P(X|W)P(W)}=argmaxW{logP(X|W)+λlogP(W)}]
上式表明,要尋找的最可能的詞序列[W],應該使[P(X|W)]與[P(W)]的乘積達到最大。其中,[P(X|W)]是特征矢量序列[X]在給定[W]條件下的條件概率,由聲學模型決定。[P(W)]是[W]獨立于語音特征矢量的先驗概率,由語言模型決定。由于將概率取對數不影響[W]的選取,第四個等式成立。[logP(X|W)]與[logP(W)]分別表示聲學得分與語言得分,且分別通過聲學模型與語言模型計算得到。[λ]是平衡聲學模型與語言模型的權重。從語音識別系統構成的角度講,一個完整的語音識別系統包括特征提取、聲學模型、語言模型、搜索算法等模塊。語音識別系統本質上是一種多維模式識別系統,對于不同的語音識別系統,人們所采用的具體識別方法及技術不同,但其基本原理都是相同的,即將采集到的語音信號送到特征提取模塊處理,將所得到的語音特征參數送入模型庫模塊,由聲音模式匹配模塊根據模型庫對該段語音進行識別,最后得出識別結果[9]。
語音識別系統基本原理框圖如圖1所示,其中:預處理模塊濾除原始語音信號中的次要信息及背景噪音等,包括抗混疊濾波、預加重、模/數轉換、自動增益控制等處理過程,將語音信號數字化;特征提取模塊對語音的聲學參數進行分析后提取出語音特征參數,形成特征矢量序列。語音識別系統常用的特征參數有短時平均幅度、短時平均能量、線性預測編碼系數、短時頻譜等。特征提取和選擇是構建系統的關鍵,對識別效果極為重要。
圖1 語音識別基本原理框圖
由于語音信號本質上屬于非平穩信號,目前對語音信號的分析是建立在短時平穩性假設之上的。在對語音信號作短時平穩假設后,通過對語音信號進行加窗,實現短時語音片段上的特征提取。這些短時片段被稱為幀,以幀為單位的特征序列構成語音識別系統的輸入。由于梅爾倒譜系數及感知線性預測系數能夠從人耳聽覺特性的角度準確刻畫語音信號,已經成為目前主流的語音特征。為補償幀間獨立性假設,人們在使用梅爾倒譜系數及感知線性預測系數時,通常加上它們的一階、二階差分,以引入信號特征的動態特征。
聲學模型是語音識別系統中最為重要的部分之一。聲學建模涉及建模單元選取、模型狀態聚類、模型參數估計等很多方面。在目前的LVCSR系統中,普遍采用上下文相關的模型作為基本建模單元,以刻畫連續語音的協同發音現象。在考慮了語境的影響后,聲學模型的數量急劇增加,LVCSR系統通常采用狀態聚類的方法壓縮聲學參數的數量,以簡化模型的訓練。在訓練過程中,系統對若干次訓練語音進行預處理,并通過特征提取得到特征矢量序列,然后由特征建模模塊建立訓練語音的參考模式庫。
搜索是在指定的空間當中,按照一定的優化準則,尋找最優詞序列的過程。搜索的本質是問題求解,廣泛應用于語音識別、機器翻譯等人工智能和模式識別的各個領域。它通過利用已掌握的知識(聲學知識、語音學知識、詞典知識、語言模型知識等),在狀態(從高層至底層依次為詞、聲學模型、HMM狀態)空間中找到最優的狀態序列。最終的詞序列是對輸入的語音信號在一定準則下的一個最優描述。在識別階段,將輸入語音的特征矢量參數同訓練得到的參考模板庫中的模式進行相似性度量比較,將相似度最高的模式所屬的類別作為識別中間候選結果輸出。為了提高識別的正確率,在后處理模塊中對上述得到的候選識別結果繼續處理,包括通過Lattice重打分融合更高元的語言模型、通過置信度度量得到識別結果的可靠程度等。最終通過增加約束,得到更可靠的識別結果。
2.3 聲學建模方法
常用的聲學建模方法包含以下三種:基于模式匹配的動態時間規整法(DTW);隱馬爾可夫模型法(HMM);基于人工神經網絡識別法(ANN)等。
DTW 是較早的一種模式匹配的方法。它基于動態規劃的思想,解決孤立詞語音識別中的語音信號特征參數序列比較時長度不一的模板匹配問題。在實際應用中,DTW通過計算已預處理和分幀的語音信號與參考模板之間的相似度,再按照某種距離測度計算出模板間的相似度并選擇最佳路徑。
HMM是對語音信號的時間序列結構所建立的統計模型,是在馬爾可夫鏈的基礎上發展起來的,它是一種基于參數模型的統計識別方法。HMM可模仿人的言語過程,可視作一個雙重隨機過程:一個是用具有有限狀態數的馬爾可夫鏈來模擬語音信號統計特性變化的隱含的隨機過程,另一個是與馬爾可夫鏈的每一個狀態相關聯的觀測序列的隨機過程[10]。
ANN以數學模型模擬神經元活動,將人工神經網絡中大量神經元并行分布運算的原理、高效的學習算法以及對人的認知系統的模仿能力充分運用到語音識別領域,并結合神經網絡和隱含馬爾可夫模型的識別算法,克服了ANN在描述語音信號時間動態特性方面的缺點,進一步提高了語音識別的魯棒性和準確率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估計音素或狀態的后驗概率。2011年,微軟以深度神經網絡替代多層感知機形成的混合模型系統大大提高了語音識別的準確率。
3 語音識別的應用
語音識別技術有著非常廣泛的應用領域和市場前景。在語音輸入控制系統中,它使得人們可以甩掉鍵盤,通過識別語音中的要求、請求、命令或詢問來作出正確的響應,這樣既可以克服人工鍵盤輸入速度慢,極易出差錯的缺點,又有利于縮短系統的反應時間,使人機交流變得簡便易行,比如用于聲控語音撥號系統、聲控智能玩具、智能家電等領域。在智能對話查詢系統中,人們通過語音命令,可以方便地從遠端的數據庫系統中查詢與提取有關信息,享受自然、友好的數據庫檢索服務,例如信息網絡查詢、醫療服務、銀行服務等。語音識別技術還可以應用于自動口語翻譯,即通過將口語識別技術、機器翻譯技術、語音合成技術等相結合,可將一種語言的語音輸入翻譯為另一種語言的語音輸出,實現跨語言交流[11]。
語音識別技術在軍事斗爭領域里也有著極為重要的應用價值和極其廣闊的應用空間。一些語音識別技術就是著眼于軍事活動而研發,并在軍事領域首先應用、首獲成效的,軍事應用對語音識別系統的識別精度、響應時間、惡劣環境下的頑健性都提出了更高的要求。目前,語音識別技術已在軍事指揮和控制自動化方面得以應用。比如,將語音識別技術應用于航空飛行控制,可快速提高作戰效率和減輕飛行員的工作負擔,飛行員利用語音輸入來代替傳統的手動操作和控制各種開關和設備,以及重新改編或排列顯示器上的顯示信息等,可使飛行員把時間和精力集中于對攻擊目標的判斷和完成其他操作上來,以便更快獲得信息來發揮戰術優勢。
4 結 語
語音識別的研究工作對于信息化社會的發展,人們生活水平的提高等方面有著深遠的意義。隨著計算機信息技術的不斷發展,語音識別技術將取得更多重大突破,語音識別系統的研究將會更加深入,有著更加廣闊的發展空間。
參考文獻
[1] 馬志欣,王宏,李鑫.語音識別技術綜述[J].昌吉學院學報,2006(3):93?97.
[2] RABINER L R, JUANG B H. An introduction to hidden Markov models [J]. IEEE ASSP Magazine, 1986, 3(1): 4?16.
[3] GALES M, YOUNG S. The application of hidden Markov models in speech recognition [J]. Foundations and Trends in Signal Processing, 2008, 1(3): 195?304.
[4] JELINEK F. Continuous speech recognition by statistical methods [J]. Proceedings of the IEEE, 1976, 64(4): 532?556.
[5] 倪崇嘉,劉文舉,徐波.漢語大詞匯量連續語音識別系統研究進展[J].中文信息學報,2009,23(1):112?123.
[6] 顧亞強.非特定人語音識別關鍵技術研究[D].長沙:國防科學技術大學,2009.
[7] 中華人民共和國國家質量監督檢驗檢疫總局.GB/T21023?2007 中文語音識別系統通用技術規范[S].北京:中國標準出版社,2007.
[8] 王文慧.基于ARM的嵌入式語音識別系統研究[D].天津:天津大學,2008.
[9] 何湘智.語音識別的研究與發展[J].計算機與現代化,2002(3):3?6.
【關鍵詞】語音識別技術;發展趨勢
語音識別是一門交叉學科。語音識別研究經歷了50多年的研究歷程,經過50多年的積累研究,獲得了巨大的進展。特別是近20年來,語音識別技術取得了顯著的進步,并逐步的走向市場。在未來的日子里,語音識別技術將應用更為廣泛。
一、語音識別技術概述
語音識別是解決機器“聽懂”人類語言的一項技術。作為智能計算機研究的主導方向和人機語音通信的關鍵技術,語音識別技術一直受到各國科學界的廣泛關注。如今,隨著語音識別技術研究的突破,其對計算機發展和社會生活的重要性日益凸現出來。以語音識別技術開發出的產品應用領域非常廣泛,如聲控電話交換、信息網絡查詢、家庭服務、賓館服務、醫療服務、銀行服務、工業控制、語音通信系統等,幾乎深入到社會的每個行業和每個方面。
廣泛意義上的語音識別按照任務的不同可以分為4個方向:說話人識別、關鍵詞檢出、語言辨識和語音識別。說話人識別技術是以話音對說話人進行區別,從而進行身份鑒別和認證的技術。關鍵詞檢出技術應用于一些具有特定要求的場合,只關注那些包含特定詞的句子,例如對一些特殊人名、地名的電話監聽等。語言辨識技術是通過分析處理一個語音片斷以判別其所屬語言種類的技術,本質上也是語音識別技術的一個方面。語音識別就是通常人們所說的以說話的內容作為識別對象的技術,它是4個方面中最重要和研究最廣泛的一個方向,也是本文討論的主要內容。
二、語音識別的研究歷史
語音識別的研究工作始于20世紀50年代,1952年Bell實驗室開發的Audry系統是第一個可以識別10個英文數字的語音識別系統。
1959年,Rorgie和Forge采用數字計算機識別英文元音和孤立詞,從此開始了計算機語音識別。
60年代,蘇聯的Matin等提出了語音結束點的端點檢測,使語音識別水平明顯上升;Vintsyuk提出了動態編程,這一提法在以后的識別中不可或缺。60年代末、70年代初的重要成果是提出了信號線性預測編碼(LPC)技術和動態時間規整(DTW)技術,有效地解決了語音信號的特征提取和不等長語音匹配問題;同時提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。
80年代語音識別研究進一步走向深入:HMM模型和人工神經網絡(ANN)在語音識別中成功應用。1988年,FULEE Kai等用VQ/I-IMM方法實現了997個詞匯的非特定人連續語音識別系統SPHINX。這是世界上第1個高性能的非特定人、大詞匯量、連續語音識別系統。
進入90年代后,語音識別技術進一步成熟,并開始向市場提品。許多發達國家如美國、日本、韓國以及IBM、Apple、AT&;T、Microsoft等公司都為語音識別系統的實用化開發研究投以巨資。同時漢語語音識別也越來越受到重視。IBM開發的ViaVoice和Microsoft開發的中文識別引擎都具有了相當高的漢語語音識別水平。
進入21世紀,隨著消費類電子產品的普及,嵌入式語音處理技術發展迅速[2]?;谡Z音識別芯片的嵌入式產品也越來越多,如Sensory公司的RSC系列語音識別芯片、Infineon公司的Unispeech和Unilite語音芯片等,這些芯片在嵌入式硬件開發中得到了廣泛的應用。在軟件上,目前比較成功的語音識別軟件有:Nuance、IBM的Viavoice和Microsoft的SAPI以及開源軟件HTK,這些軟件都是面向非特定人、大詞匯量的連續語音識別系統。
三、語音識別技術的發展現狀
語音識別技術通過全球科學家的共同努力,經歷半個多世紀的研究,目前已經發展到了接近實用的階段。在實驗室環境下,大詞匯量的朗讀式連續說話的寬帶語音信號的平均識別率可以達到90%以上。正式有了如此高的識別率之后,語音識別技術慢慢地從實驗室演示系統逐步走向實用化商品。以IBM Via Voice和Dragon Dictation為代表的兩個聽寫機系統的出現,使“語音識別”逐步進入大眾視線,引起了廣泛的社會關注。
由于校對和更正識別的錯誤很麻煩和浪費時間,這樣便降低語音識別的優勢。同時,由于使用的環境或講話口音習慣等因素的影響,語音識別的內容大大降低,識別的內容不能達到100%的正確,所以很多人認為目前的語音識別系統還無法滿足實用要求。
目前,AT&T和MIT等將語音識別技術應用在一些有限詞匯的特定任務上,如電話自動轉接、電話查詢、數字串識別的任務中,當講話的內容是系統所存儲的內容存在的,且使用環境的聲學特性與訓練數據的聲學特性相差不太大時,語音識別的正確識別率可以接近100%。但是,在實際使用中如果這些條件被破壞,則會對識別系統造成一定的影響。
我國的語音識別研究一直緊跟國際水平,國家也很重視。國內中科院的自動化所、聲學所以及清華大學等科研機構和高校都在從事語音識別領域的研究和開發。國家863智能計算機專家組為語音識別技術研究專門立項,并取得了高水平的科研成果。我國中科院自動化所研制的非特定人、連續語音聽寫系統和漢語語音人機對話系統,其準確率和系統響應率均可達90%以上。
四、語音識別技術發展趨勢
語音作為當前通信系統中最自然的通信媒介,語音識別技術是非常重要的人機交互技術。隨著計算機和語音處理技術的發展,語音識別系統的實用性將進一步提高。應用語音的自動理解和翻譯,可消除人類相互交往的語言障礙。國外已有多種基于語音識別產品的應用,如聲控撥號電話、語音記事本等,基于特定任務和環境的聽寫機也已經進入應用階段。這預示著語音識別技術有著非常廣泛的應用領域和市場前景。隨著語音技術的進步和通信技術的飛速發展,語音識別技術將為網上會議、商業管理、醫藥衛生、教育培訓等各個領域帶來極大的便利,其應用和經濟、社會效益前景非常良好.
雖然語音識別在過去的20年里有了很大的發展,但是,仍然存在很多的不足,有待于進一步的探索,具體可分為以下幾個方面:
1.提高可靠性。語音識別技術需要能排除各種聲學環境因素的影響。在比較嘈雜的公共環境中,人的意識會有意識的排除非需要的聲學環境因素,這對語音識別系統而言,是很難做到的。另外,在日常生活中,人類的語言常常具有較大的不確定性,比較隨意,并帶有明顯的言語習慣。這同樣會給語音識別系統很大的識別麻煩。目前,在提高語音系統在不同環境中的可靠性,同時要應用現代技術讓語音識別系統更加智能化,掌握人們語言隨意性的部分規律,以達到最佳的識別效果。
2.增加詞匯量。系統可以識別的詞匯的數量是系統能夠做什么事情的一個重要度量。一個語音識別系統使用的聲學模型和語音模型如果太過于局限,當用戶所講的詞匯超出系統已知的范圍時,則語音識別系統不能準確的識別出相應的內容,比如,當突然從中文轉為英文、法文、俄文時,計算機就會常常輸出混亂奇怪的結果。但是,隨著系統建模方法的不斷改進、搜索算法效率的提高以及硬件資源的發展,未來的語音識別系統可能會做到詞匯量無限制和多種語言混合,這樣用戶在使用的時候可以不必在語種之間來回切換,這樣就能大大減少詞匯量的對語音識別系統的限制。
3.應用拓展。語音識別技術可以用于把費腦、費力、費時的機器操作變成一件很容易很有趣味性的事,比如,當人們出現手忙、手不能及以及分身無術的場景時,通過語音識別系統的模型構造,則能夠在象駕駛室、危險的工業場合、遠距離信息獲取、家電控制等各個方面,語音識別技術可能帶動一系列嶄新或更便捷功能的設備出現,更加方便人的工作和生活。其應用的范圍和前景非常廣泛。不僅能夠應用于日常生活,更重要的會帶來生產方式的革命,是下一代智能化控制的基礎。