時間:2022-09-09 00:00:09
序論:在您撰寫語音識別系統時,參考他人的優秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發您的創作熱情,引導您走向新的創作高度。
【關鍵詞】語音識別 模式識別 過程 統功能
1、語音識別技術原理簡介
1.1語音識別技術的概念
語音識別技術(Auto Speech Recognize,簡稱ASR)所要解決的問題是讓計算機能夠“聽懂”人類的語音,將語音中包含的文字信息“提取”出來。ASR技術在“能聽會說”的智能計算機系統中扮演著重要角色,相當于給計算機系統安裝上“耳朵”,使其具備“能聽”的功能,進而實現信息時代利用“語音”這一最自然、最便捷的手段進行人機通信和交互。
1.2語音識別的系統組成
語音識別系統構建過程整體上包括兩大部分:訓練和識別。
1.2.1訓練
訓練通常是離線完成的,對預先收集好的海量語音、語言數據庫進行信號處理和知識挖掘,獲取語音識別系統所需要的“聲學模型”和“語言模型”。
1.2.2識別
識別過程通常是在線完成的,對用戶實時的語音進行自動識別,可以分為“前端”和“后端”兩大模塊:“前端”模塊主要的作用是進行端點檢測(去除多余的靜音和非說話聲)、降噪、特征提取等;“后端”模塊的作用是利用訓練好的“聲學模型”和“語言模型”對用戶說話的特征向量進行統計模式識別(又稱“解碼”),得到其包含的文字信息,此外,后端模塊還存在一個“自適應”的反饋模塊,可以對用戶的語音進行自學習,從而對“聲學模型”和“語音模型”進行必要的“校正”,進一步提高識別的準確率。
語音識別技術所面臨的問題是非常艱巨和困難的。盡管早在二十世紀五十年代,世界各國就開始了對這項技術孜孜不倦的研究,特別是最近二十年,國內外非常多的研究機構和企業都加入到語音識別技術的研究領域,投入了極大的努力,也取得了豐碩的成果,但是直到今天,距離該技術得到完美解決還存在著巨大的差距,不過這并不妨礙不斷進步的語音識別系統在許多相對受限的場合下獲得成功的應用。
如今,語音識別技術已經發展成為涉及聲學、語言學、數字信號處理、統計模式識別等多學科技術的一項綜合性技術?;谡Z音識別技術研發的現代語音識別系統在很多場景下獲得了成功的應用,不同任務條件下所采用的技術又會有所不同。
2、語音識別系統技術實現
語音識別系統選擇識別基元的要求是:有準確的定義,能得到足夠數據進行訓練,具有一般性。系統所需的訓練數據大小與模型復雜度有關,模型設計得過于復雜以至于超出了所提供的訓練數據的能力,會造成系統性能的急劇下降。
2.1聽寫機
2.1.1概念
大詞匯量、非特定人、連續語音識別系統通常稱為聽寫機。
2.1.2基本架構
聽寫機是建立在前述聲學模型和語言模型基礎上的HMM拓撲結構,訓練時對每個基元用前向后向算法獲得模型參數,識別時將基元串接成詞,詞間加上靜音模型并引入語言模型作為詞間轉移概率,形成循環結構,用Viterbi算法進行解碼。針對漢語易于分割的特點,先進行分割再對每一段進行解碼,是用以提高效率的一個簡化方法。
2.1.3對話系統
用于實現人機口語對話的系統稱為對話系統。目前,受技術所限,對話系統往往是面向一個狹窄領域、詞匯量有限的系統,其題材有旅游查詢、訂票、數據庫檢索等等。它的前端是一個語音識別器,識別產生的N-best候選或詞候選網格,由語法分析器進行分析獲取語義信息,再由對話管理器確定應答信息,由語音合成器輸出?;谀壳暗南到y往往詞匯量有限的情況,也可以用提取關鍵詞的方法來獲取語義信息。
3、語音識別系統特性
語音識別系統的性能受許多因素的影響,包括不同的說話人、說話方式、環境噪音、傳輸信道等等。具有自適應性與魯棒性。解決辦法可大致分為兩類:針對語音特征的方法(以下稱特征方法)和模型調整的方法(以下稱模型方法)。前者需要尋找更好的、高魯棒性的特征參數,或是在現有的特征參數基礎上,加入一些特定的處理方法。后者是利用少量的自適應語料來修正或變換原有的說話人無關(SI)模型,從而使其成為說話人自適應(SA)模型。
4、語音識別的應用
語音識別專用芯片的應用領域,主要包括以下幾個方面:
4.1電話通信的語音撥號。特別是在中、高檔移動電話上,現已普遍的具有語音撥號的功能。隨著語音識別芯片的價格降低,普通電話上也將具備語音撥號的功能。
4.2汽車的語音控制。由于在汽車的行駛過程中,駕駛員的手必須放在方向盤上,因此在汽車上撥打電話,需要使用具有語音撥號功能的免提電話通信方式。此外,對汽車的衛星導航定位系統(GPS)的操作,汽車空調、照明以及音響等設備的操作,同樣也可以由語音來方便的控制。
4.3工業控制及醫療領域。當操作人員的眼或手已經被占用的情況下,在增加控制操作時,最好的辦法就是增加人與機器的語音交互界面。由語音對機器發出命令,機器用語音做出應答。
4.4個人數字助理(Personal Digital Assistant,PDA)的語音交互界面。PDA的體積很小,人機界面一直是其應用和技術的瓶頸之一。由于在PDA上使用鍵盤非常不便,因此,現多采用手寫體識別的方法輸入和查詢信息。但是,這種方法仍然讓用戶感到很不方便?,F在業界一致認為,PDA的最佳人機交互界面是以語音作為傳輸介質的交互方法,并且已有少量應用。隨著語音識別技術的提高,可以預見,在不久的將來,語音將成為PDA主要的人機交互界面。
4.5智能玩具。通過語音識別技術,我們可以與智能娃娃對話,可以用語音對玩具發出命令,讓其完成一些簡單的任務,甚至可以制造具有語音鎖功能的電子看門狗。智能玩具有很大的市場潛力,而其關鍵在于降低語音芯片的價格。
4.6家電遙控。用語音可以控制電視機、VCD、空調、電扇、窗簾的操作,而且一個遙控器就可以把家中的電器皆用語音控起來,這樣,可以讓令人頭疼的各種電器的操作變得簡單易行。
參考文獻:
1語音識別系統設計的技術依據
近年來國內教育信息化趨勢更加明顯,英語教學活動建立信息化平臺是師生所需,改變了早期英語課堂模式的不足之處。語音識別是計算機翻譯軟件不可缺少的一部分,如圖1,主要針對不同語言進行識別處理,幫助學生快速地理解英語知識內涵。語音識別技術主要包括:特征提取技術、模式匹配技術、模型訓練技術等三大技術,也是系統設計需考慮的重點。
1)特征提取技術。一般來說,語音識別系統輔助功能涉及到收錄、處理、傳遞等三個環節,這也是語音識別系統設計的關鍵所在。計算機語言與自然語言之間存在極大的差異性,如何準確識別兩種語言的差異性,這是翻譯軟件識別時必須解決的問題。特征提取技術是語音識別系統的基本構成,主要負責對英語語言特征進行提取,向翻譯器及時提供準確的語言信號,提高計算機翻譯工作的準確系數。
2)模式匹配技術。語音識別系統要匹配對應的功能模塊,以輔助師生在短時間內翻譯出語言含義,避免人工翻譯語言失誤帶來的不便。模式匹配技術采用智能識別器,由翻譯器錄入語音之后自主化識別、分析,減小了人工翻譯語句的難度。例如,計算機軟件建立匹配模型,按照英語字、詞、句等結構形式,自動選擇相配套的翻譯模式,執行程序命令即可獲得最終的語言結果,給予學生語音識別方面的幫助。
3)模型訓練技術。設計語音識別系統是為了實現教育信息化,幫助教師解決英語課堂教學中遇到的翻譯難題,加深學生們對英語知識的理解能力。語音識別結束之后,翻譯器會自動執行模擬訓練操作,為學生創建虛擬化的語音訓練平臺,這也是軟件識別系統比較實用的功能。模擬訓練技術采用人機一體化設計思想,把翻譯器、語音識別器等組合起來執行訓練方式,快速地識別、判斷英語發聲水平,指導學生調整語音方式。
2英語翻譯器語音識別系統設計及應用
英語翻譯器是現代化教學必備的操作工具,教師與學生借助翻譯器功能可準確地理解英語含義,這對語音識別系統設計提出了更多要求。筆者認為,設計語音識別系統要考慮翻譯器具體的工作流程,事先編排一套符合翻譯軟件工作的方案,如圖2,從而提高人機語言轉換速率。語音識別系統設計及應用情況:
1)識別模塊。語音識別方法主要是模式匹配法,根據不同翻譯要求進行匹配處理,實現英語翻譯的精準性。一是在訓練階段,用戶將詞匯表中的每一詞依次說一遍,并且將其特征矢量作為模板存入模板庫;二是在識別階段,將輸入語音的特征矢量依次與模板庫中的每個模板進行相似度比較,將相似度最高者作為識別結果輸出。
2)前端模塊。前端處理是指在特征提取之前,先對原始語音進行處理,這是預處理操作的主要作用。語音識別系統常受到外界干擾而降低了翻譯的準確性,設計前段處理模塊可消除部分噪聲和不同說話人帶來的影響,使處理后的信號更能反映語音的本質特征。例如,比較常用的前端處理有端點檢測和語音增強。
3)聲學模塊。語音識別系統的模型通常由聲學模型和語言模型兩部分組成,分別對應于語音到音節概率的計算和音節到字概率的計算。聲學特征的提取與選擇是語音識別的一個重要環節,這一步驟直接關系到翻譯器的工作效能,對英語語音識別與學習有很大的影響。因此,聲學模塊要注重人性化設計,語音設定盡可能符合自然語言特點。
4)搜索模塊。英語語音識別中的搜索,就是尋找一個詞模型序列以描述輸入語音信號,從而得到詞解碼序列。本次所設計的搜索模塊中,其前端是一個語音識別器,識別產生的N-best候選或詞候選網格,由語法分析器進行分析獲取語義信息,再由對話管理器確定應答信息,由語音合成器輸出。由于目前的系統往往詞匯量有限,也可以用提取關鍵詞的方法來獲取語義信息。
5)執行模塊。實際應用中,語言識別系統憑借執行模塊完成操作,對英語語言識別方式進行優化擇取,以最佳狀態完成英語翻譯工作。目前,就英語教學中使用情況,聽寫及、對話系統等是語音識別執行的兩種方式,充分展現了翻譯器在語言轉換方面的應用功能。(1)聽寫機。大詞匯量、非特定人、連續語音識別系統通常稱為聽寫機。其架構就是建立在前述聲學模型和語言模型基礎上的HMM拓撲結構。訓練時對每個基元用前向后向算法獲得模型參數,識別時,將基元串接成詞,詞間加上靜音模型并引入語言模型作為詞間轉移概率,形成循環結構,用Viterbi算法進行解碼。(2)對話系統。用于實現人機口語對話的系統稱為對話系統,英語翻譯器中完成了人機對話、語言轉換等工作,全面提升了翻譯器操控的性能系數。受目前技術所限,對話系統往往是面向一個狹窄領域、詞匯量有限的系統,其題材有旅游查詢、訂票、數據庫檢索等,隨著語音數據庫資源的優化配置,對話系統功能將全面升級。
3翻譯器使用注意事項
語音識別系統就是讓機器通過識別和理解過程,把語音信號轉變為相應的文本或命令的高科技。隨著高校教學信息化建設時期到來,計算機軟件輔助教學活動是一種先進的模式,徹底改變了傳統人工教學模式的不足。翻譯軟件采用數字化元器件為硬件平臺,配合遠程互聯網建立多元化傳輸路徑,滿足了英語翻譯數據處理與傳輸的應用要求。但是,未來英語教學內容越來越復雜,翻譯器語音識別系統承載的數據范圍更廣,學校必須實施更新翻譯軟件產品,才能進一步提升英語智能化翻譯水平。
4結論
【關鍵詞】語音識別信號處理DTW
一、引言
根據語音識別系統所使用的環境和平臺不同,語音識別技術朝著兩個方向發展:一個方向是大詞匯量的連續語音識別,該方向所處理的語音較為復雜;另一個方向就是向著中小詞匯量的孤立詞匯語音識別,該方向所處理的語音相對較為簡單,應用范圍也有一定的限制,如玩具、語音導航等。雖然簡單語音識別系統對于能識別的詞匯量沒有太高的要求,但是目前的一些簡單語音識別系統的識別速度慢、識別率較低,導致用戶體驗較差。
二、語音識別系統原理
語音識別在本質上屬于模式識別的范疇,其系統結構與模式識別具有相似之處:根據相關的識別算法對語音信號進行特征參數的提取,然后先進行學習后再對語音信號進行識別。在學習階段,通過給出的訓練數據建立起參考模板庫;在識別階段,將待識別語音信號的特征參數與參考模板庫中的參數進行對比,得到與待識別語音信號最接近的模板,輸出該模板作為語音識別的結果。
三、簡單語音識別系統的改進與實現
DTW在簡單語音識別中已經可以達到較高的識別率,因此本文選擇DTW作為語音識別的模式匹配算法,并對端點檢測進行一定的改進來實現語音識別系統的設計。
3.1端點檢測的改進
在進行端點檢測前,為短時平均能量和短時過零率設定兩個門限值。在靜音段,當短時平均能量或短時過零率大于低門限值,則開始準備標記語音起點,由此進入過渡段。但是在過渡段中并不能確定是否真正進入語音段,當短時平均能量和短時過零率都小于低門限值時認為是噪音,并不記錄語音起點,恢復為靜音段;當短時平均能量或短時過零率大于高門限值,則認為是真正的語音片段,將狀態進入語音段。進入語音段后還要記錄語音段持續時間,若該段時間較短則認為是噪聲,繼續檢測后面的語音,如果滿足一定的時間長度則標記語音起點并將其記錄為一段語音。
3.2DTW的改進
DTW的核心思想是進行動態規劃,從而解決了語音識別中的發音長度不一致的匹配問題。在進行DTW時,通過動態匹配找到一個最佳路徑,把語音信號的特征參數通過這條最佳路徑映射到參考模板庫中,這條最佳路徑要求語音信號和參考模板之間的累積距離最小。
經典的DTW算法規定待識別語音信號和模板中信號的首尾必須完全一致,但是端點檢測確定的首尾與實際存在一定的誤差,造成識別率有所下降。為此,可以對DTW的端點的限制適當放寬。即允許起點在(0,0)、(0,m)或者(n,0)上,終點在(N,M)、(N,J)或者(I,M)上。端點要求放寬后對端點檢測精度的要求就降低了,提高了識別的速度和精度。
雖然語音的速度不同,但是語序是確定不變的,因此路徑中每一點的斜率必然大于0。而為了防止過度搜素浪費資源,可以對搜索路徑的斜率加以限制,由于語音信號的擴壓是有限的,因此可以舍去那些向X軸或者Y軸過度傾斜的路徑。具體做法是:將搜索路徑中每個點的最大斜率設為2,最小斜率設為0.5,這樣就可以大大降低搜索范圍,減少了計算量,提高了識別速度。
另外,還可以在進行相似度匹配時設定一個合理的閾值,如果計算出的某一部分的相似度與該閾值相差太遠,則立即認為待識別語音與當前模板不匹配,轉而進入與下一個模板的相似度計算,這樣就可以減少大量的計算量,從而提高簡單語音識別的速度。
3.3實驗及數據
在實驗室較安靜的環境下對男女聲識別進行了測試。發音內容為0~9的數字,采樣率為24KHz,幀長20ms,幀移10ms,識別正確率達到了95%以上,原DTW算法的孤立字識別時間是6~7s,而采用本文改進算法的識別時間減少到2~5s。因此,本文方法可以實現快速準確的簡單語音識別。
四、結束語
采用本文方法可以有效提高端點檢測的精度、語音識別的正確率和識別速度,該方法完全滿足簡單語音識別系統的應用。
參考文獻
[1]張振鋒.基于小詞匯量孤立詞語音識別系統的研究與設計[D].長安大學,2007.
【關鍵詞】隱馬爾可夫;語音識別;單片機
在這個高科技的信息時代,計算機占著極為重要的地位,人機通信是人與機器之間進行信息通訊,使機器按照人的意愿工作,傳統的人機通信是通過鍵盤、按鈕以及顯示器等機器設備實現的,在許多場合都不是很方便,其最理想的通信方式就是通過語音進行識別。實現人與機器通過自然語音的方式進行信息通訊,不僅可以簡化日常工作,更可以提高工作效率,帶給人們極大的方便。而實現這個理想最關鍵的部分就是語音識別技術。
1語音識別概述
1.1語音信號的產生
物體的振動產生聲音,正在發聲的物體叫做聲源,聲音在介質中以聲波的形式傳播。語音是指人的發聲器官振動所發出的負載一定語言意義的聲音,發音器官主要有肺部、氣管、喉部、咽、鼻腔、口腔和上下唇,每個人的聲道各不相同,從而各自發出的聲音也不相同。
語音信號主要有模擬信號和數字信號兩種表現形式。模擬信號是人直接通過耳朵聽到的信號,是時間和幅值均連續的物理量,由于其數據量過大、有較多的隨機因素等原因不能直接被作為計算機的識別信號。數字信號是時間和數值均離散的二進制數字量化的模擬信號,是計算機語音識別技術的基礎。數字信號相比模擬信號有以下優點:可以實現很多復雜的信號處理工作;具有可靠性高、價格低廉、反應迅速等特點;有利于區分出干擾信號等。所以要想使計算機按照人類的自然語言要求工作,關鍵的就是將模擬信號轉換為數字信號。
1.2語音信號的處理
根據討論,若要對語音信號進行處理必須先對此信號進行預處理,即將模擬信號轉換為數字信號,再整理、分析、理解轉換后的數字信號,并過濾掉多余的信息。主要包括數字化、預加重和加窗分幀三部分。
數字化就是把語音模擬信號轉換為數字信號的采樣與量化過程,采樣是在相同間隔的時間內抽取信號而得到離散的序列,并將其轉換為數字。量化則是在有限的區域內分布采樣后的信號。預加重是通過一個高通濾波器使頻譜變得平坦,防止衰減作用,不受有限字長效應的影響。以“幀”為單位對語音信號進行截取,使信號有短時平穩的特征,加窗則可以讓截取的信號波形更加平滑。
1.3語音信號的模塊處理
在語音識別中,常使用的基本算法有:動態時間規整技術(DTW)、隱馬爾可夫模型(HMM)和人工神經元網絡(ANN)。
1)隱馬爾可夫模型
隱馬爾可夫模型(HMM)在當前語音識別系統中占據主流地位。它是一種隨機概率模型,其使用大大降低了模型的復雜度。早在20世紀六七十年代就開始研究的統計信號模型。HMM是在Markov鏈的基礎上發展起來的,但實際問題要更為復雜,所觀察到的事件與一組概率分布相關。它是一個雙重隨機過程,一個是Markov鏈,這是基本隨機過程,它描述狀態的轉移;一個是隨機過程描述狀態和觀測值之間的統計對應關系,觀察者不能直接看到狀態,而是由感覺感知到的,因此稱之為“隱”Markov模型,即HMM。
2)人工神經網絡法
ANN現在已經成為了另一個熱點,是非線性系統,具有DTW和HMM沒有的對比、概括、推理能力。
3)動態時間規整技術
DTW是模板訓練和模式匹配中出現最早的技術,使用動態規劃技術在孤立詞語音識別中具有良好的成果,但是其計算量較大,很難被使用到現實中的語音識別。目前已經被其他的算法所替代。
2語音識別系統設計思路
語音識別技術正在不斷的發展中,在硬件平臺上實現語音識別以取代繁瑣的工作成為其發展的必然趨勢。本文就是對基于單片機的語音識別系統的研究。由于單片機本身存在著處理速度慢、存儲能力不強大的缺陷,所以此次設計是基于孤立詞的語音識別系統。
語音識別系統的模型庫訓練工作原理是:特定人的語音信號進入系統,系統對進入的語音信號濾波,目的是為了消除需要的語音頻率之外的其他雜音,進而數模轉換,將輸入的語音模擬信號數字化,有利于計算機進行識別。數字化后的語音信號再通過預處理、加窗分幀。對于剩下的語音信號送入HMM模板與模板庫進行訓練和匹配,再將最佳的結果傳輸給用戶。
3系統模塊設計及系統測試
此次設計是基于單片機的語音識別系統研究,有以下幾點要求:該系統必須使完整的語音識別系統,有簡單的顯示功能,提高系統的識別性能,體積盡量減小。
工作原理首先采集語音信號,輸入完成后通過濾波采集需要的語音信號,再通過數模轉換器進入控制器,再與標準語音庫中的語音信號進行對比,找出最接近該段信號的語音,再將識別出的語音通過LCD顯示模塊顯示給用戶。
系統檢測首先確認是否有按鍵按下,當檢測到有按鍵按下時,表示系統開始運行,如果沒有按下,則表示系統處于非工作狀態,只有當有按鍵時,才可以工作。進而開始接收語音信號,首先對語音信號進行濾波消除雜音,然后通過數模轉換電路,將模擬信號轉換為數字信號,預處理、端點檢測后,與事先存儲好的信號進行比對,得到最后的識別結果,將識別出來的結果,送往LCD液晶顯示器上顯示出來,展現給用戶。
此次設計通過MATLAB軟件實現對語音信號的調試。在接收語音信號時,有可能產生外界的干擾噪聲,這就需要我們通過一系列復雜的公式計算,對該信號進行處理,進而在送由單片機進行下一步的工作。
4結束語
語音識別技術是實現人與計算機進行直接對話,讓計算機自動對人所說的話進行識別、理解并執行的技術手段。語音識別技術的應用已經成為一個被受關注的新型技術產業,它的實現能夠簡化人們在以往工作中的繁瑣,未來語音識別還要向低成本、高性能方向不斷發展。
【參考文獻】
[關鍵詞]語音識別系統;差異性;指標需求
一、引言
語音作為語言的聲學體現,也是人類進行信息交流最自然、和諧的手段。與機械設各進行語音的溝通,讓機器可以明白人類在說什么,并理解這是人類長期的夢想。語音識別技術,也被稱為自動語音識別Automatic Speech Recognition,(ASR),其目標是將人類的語音中的詞匯內容轉換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。語音識別技術的應用包括語音撥號、語音導航、室內設備控制、語音文檔檢索、簡單的聽寫數據錄入等。語音識別技術與其他自然語言處理技術如機器翻譯及語音合成技術相結合,可以構建出更加復雜的應用,語音識別技術所涉及的領域包括:信號處理、模式識別、概率論和信息論、發聲機理和聽覺機理、人工智能等等。
二、語音信號分析與特征提取
1.基于發音模型的語音特征。(1)發音系統及其模型表征。其發聲過程就是由肺部進行收縮,并進行壓縮氣流由支氣管通過聲道和聲門引起的音頻振蕩所發生的。氣流通過聲門時使得聲帶的張力剛好使聲帶發生比較低的頻率的振蕩,從而形成準周期性的空氣脈沖,空氣脈沖激勵聲道便會產生一些濁音;聲道的某處面積比較小,氣流沖過時便會產生湍流,會得到一種相似噪聲的激勵,對應的則是摩擦音;聲道完全閉合并建立起相應的氣壓,突然進行釋放就是爆破音。(2)語音信號線性預測倒譜系數。被廣泛應用的特征參數提取技術的就是線性預測分析技術,很多成功的應用系統都是選用基于線性預測技術進而提取的LPC倒譜系數作為應用系統的特征。LPC倒譜就是復倒譜。復倒譜就是信號通過z進行變換以后再取其對數,求反z變換所得到的譜。線性預測分析方法其實就是一種譜的估計方法,所以其聲道模型系統函數H(z)反映的就是聲道頻率激勵和信號的譜包絡,對IHg(z)作反z變換就可以得出其復倒譜系數。改復倒譜系數是依據線性預測模型直接獲得的,而又被稱為LPC倒譜系數(LPCC)。
2.基于聽覺模型的語音特征。(1)聽覺系統模型。一是人類的聽覺系統對于聲音頻率高低和聲波實際的頻率高低不是線性的關系,它對不同聲音頻率信號的敏感度是不一樣的,也可看成是對數關系。二是關于掩蔽效應指的就是聲音A感知的閉值因為另外的身影的出現出現增大的現象。其生理依據主要是頻率群,對頻率群進行劃分會出現許多的很小的部分,每一個部分都會對應一個頻率群,掩蔽效應就發生在這些部分過程中。所以在進行相應的聲學測量時,頻率刻度一般取非線性刻度。語音識別方面,主要的非線性頻率刻度有Mel刻度、對數刻度和Kon~nig刻度。其中Mel刻度被廣泛的應用,其是最合理的頻率刻度。(2)語音信號Mcl頻率倒譜系數。Mel頻率倒譜系數利用人們耳朵的聽覺特性,在頻域將頻率軸變換為Mcl頻率刻度,再變換到倒譜域得到倒譜系數。MFCC參數的計算過程:
一是對語音信號進行相應的預加重,從而確定了每一幀的語音采樣的長度,語音信號通過離散FFT變換得到其頻譜。二是求頻譜幅度的平方,得到能量譜,并選用一組三角濾波器在頻譜域對能量進行帶通濾波。帶通濾波器中心頻率一般是按照Mcl頻率刻度排列的(間隔為150Mel,帶寬為300Mel),其每個三角形濾波器的兩個底點頻率和相鄰的兩個濾波器的中心頻率相等,頻率響應之和為l。濾波器的個數一般和臨界帶數比較相近,設濾波器數是M,濾波后得到的輸出為:X(k),k=1,2,…,M。
關鍵詞:語音識別;動態時間規整(DTW);數字信號處理器(DSP)
1 引言
語音識別按不同的角度有以下幾種分類方法:從所要識別的單位,有孤立詞識別、音素識別、音節識別、孤立句識別、連續語音識別和理解。目前已進入識別的語音識別系統是單詞識別。以幾百個單詞為限定識別對象。從識別的詞匯量來分。有小詞匯(10-50個)、中詞匯(50-200個)、大詞匯(200以上)等。從講話人的范圍來分。有單個特定講話人、多講話人和與講話者者無關。特定講話人比較簡單,能夠得到較高的識別率。后兩者難度較大,不容易得到高的識別率。 從識別的方法分。有模塊匹配法、隨機模型法和概率語法分析法。這三種都屬于統計模式識別方法。
2 系統硬件及組成
2.1 系統概述
語音識別系統的典型實現方案如圖1所示。輸入的模擬語音信號首先要進行預處理,語音信號經過預處理后,接下來重要的一環就是特征參數提取,其目的是從語音波形中提取出隨時間變化的語音特征序列。然后建立聲學模型,在識別的時候將輸入的語音特征同聲學模型進行比較,得到最佳的識別結果。
2.2 硬件構成
本文采用DSP芯片為核心(圖2所示),系統包括直接雙訪問快速SRAM、一路ADC/一路DAC及相應的模擬信號放大器和抗混疊濾波器。外部只需擴展FLASH存儲器、電源模塊等少量電路即可構成完整系統應用。
2.3 系統主要功能模塊構成
語音處理模塊采用TI TMS320VC5402, TMS320VC5402含4 KB的片內ROM和16 KB的雙存取RAM,一個HPI(HostPortInterface)接口,二個多通道緩沖單口MCBSP(Multi-Channel Buffered SerialPort),單周期指令執行時間10 ns,帶有符合IEEE1149.1標準的JTAG邊界掃描仿真邏輯。語音輸入、輸出的模擬前端采用TI公司的TLC320ADSOC,它是一款集成ADC和DAC于一體的模擬接口電路,并且與DSP接口簡單,性能高、功耗低,已成為當前語音處理的主流產品。16位數據結構,音頻采樣頻率為2~22.05 kHz,內含抗混疊濾波器和重構濾波器的模擬接口芯片,還有一個能與許多DSP芯片相連的同步串行通信接口。TLC320AD50C片內還包括一個定時器(調整采樣率和幀同步延時)和控制器(調整編程放大增益、鎖相環PLL、主從模式)。TLC320AD50C與TMS320VC5402的硬件連接,如圖3所示。
3 結論
本文以TMS320VC5402芯片為核心的系統硬件設計迸行了研究,通過TLC320AD50C對語音信號進行A/D轉換,通過TMS320VC5402對語音信號“0”、“1”、“2”進行訓練和識別,并由對于燈LED0、LED1、LED2亮來顯示結果是否正確;該系統核心識別算法采用動態時間規整(DTW)算法,主要流程包括預處理、端點檢測、提取特征值、模式匹配和模板訓練,取得了很好的識別效果。
參考文獻
[1] 朱銘鋯, 趙勇, 甘泉. DSP應用系統設計 [M].北京:電子工業出版社,2002.
[2] 郭華. 自適應濾波算法及應用研究[D].蘭州:西北師范大學,2007.
[3] 張雄偉..DSP芯片的原理與開發應用[M].北京:電子工業出版社,2009.
[4] 張德豐. 數字圖象處理(MATLAB版)[M].北京:人民郵電出版社,2009.
作者簡介
王宇,邵陽學院魏源國際學院電子科學與技術專業學生。
關鍵詞: 語音識別;DHMM;Viterbi;嵌入式系統;ARM
中圖分類號:TP399 文獻標識碼:A文章編號:1006-4311(2012)04-0126-020引言
隨著計算機技術的飛速發展,各種各樣的應用層出不窮,其中使用語音與計算機程序進行交互成為了最近熱門的研究方向。語音作為人類與計算機之間無形的連接方式,可以使人們方便、快捷地控制和使用計算機。語音識別技術是能夠讓原來非智能的計算設備理解人類思想的高科技技術,融合了信號處理、人工智能以及自動化等多學科、多領域的研究成果,是目前實現人工智慧的主要途徑之一。
根據不同的分類標準,語音識別可分為不同的種類,例如依據識別對象的不同,可分為特定人語音識別及非特定人語音識別;又根據人類的講話方式可分為孤立詞識別、連接詞識別以及連續語音識別。不同的識別系統雖然在語音識別過程中步驟相似,但根據不同系統的需求及特點其實現方式及具體細節是不同的[1]。
嵌入式技術的迅猛進步,使得語音識別技術的應用更加廣泛,不再局限于實驗室以及大型場合;其已經被嵌入各種移動設備,為人們對移動設備的操作方式提供了一種嶄新途徑和使用體驗。本文就針對移動設備的特點,設計了一種面向非特定人的孤立詞語音識別系統。
1語音識別的工作原理
原始的自然語音信號中不僅含有人體自身的聲音信號,同樣也包含了大量的雜音、噪聲等混雜在一起的隨機干擾信號,尤其作為移動、嵌入式設備被使用者隨身攜帶使用,會有更多的環境噪聲信號。針對大量噪聲的數據計算以及嵌入式設備有限的計算資源,為保證系統的對自然語言的正確識別率,并且有效減少處理原始語音信號的大量數據密集計算,有必要研究語音信號的預處理技術,以期高效提取語音特征參數,并選取合適的壓縮算法進行語音數據壓縮,之后再進行語音的模式匹配[2]。
如圖1所示,人本身的語音信號從語音錄入設備進入后,將進行預處理、端點檢測、特征提取,轉換為可以對比的信號參數,然后將特征參數通過選取的特征匹配方法與參考樣例庫中的模板樣例進行語言匹配,選擇符合度最大的語言樣例進行相應處理,得出識別結果。
2系統硬件設計
系統的硬件結構示意圖如圖2所示。
系統的處理核心采用了韓國三星公司的一款基于ARM 920T內核的S3C2440微處理器;此款處理器中的CMOS宏單元和存儲單元采用了0.18um電子工藝,內部總線采用Advanced Microcontroller Bus Architecture(AMBA)新型總線結構,具備出色的全靜態設計,利用了多項低功耗技術,系統架構精簡,特別為價格和功耗敏感的應用而精心打造。除此之外,它特別為各種外設準備了豐富的中斷處理資源,包括總計共有60個中斷源(其中包括5個定時器硬中斷,9個串口中斷,24個外部中斷,1個看門狗定時器,4個DMA,2個ADC,1個LCD,1個電池故障,1個IIC,2個SPI,1個SDI,2個USB,1個NAND FLASH口,2個視頻口和1個AC97音頻口),這些中斷既可以使用電平/邊沿觸發模式進行外部中斷的觸發,也可以使用軟件編程的方式改變邊沿/電平觸發極性,能夠為緊急中斷請求提供快速中斷(FIQ)服務[3]。
系統工作時,人的語音信號經過MIC輸入,并通過濾波、去噪等操作后,在S3C2440上執行語音特征提取、語音模式匹配算法,最終輸出結果;系統中的USB接口可以方便系統外擴各種標準USB外設,以便使用語音識別結果進行各種設備控制。
3系統軟件設計
3.1 Linux內核移植移植Linux內核一般分為幾個固定的步驟,目前較為流行快速開發方法通常先在內核的處理器架構目錄下,選擇與目標開發板硬件結構最接近的并且各種配置較為完善的開發板目錄作為移植模板。接著針對本開發板與目標開發板的硬件具體差別,進行對應的修改或使用前人的移植補丁進行升級。針對本開發板,我們使用了穩定的Linux-2.6.15內核進行移植,考慮到本系統的具體硬件配置,最后選擇了SMDK2440開發板模板作為移植的目標開發板模板。在編譯和配置內核前,建議使用menuconfig或其它配置工具對內核進行適當的裁剪,還可以進一步編寫配置腳本。嵌入式Linux內核的裁減類似于PC上Linux內核的裁減,主要的工作是根據硬件和系統需求增添需要支持的模塊,并除去無用的功能模塊,以使Linux內核與目標硬件系統緊密相依,但要注意嵌入式Linux內核的特征是小、精、有效。內核的編譯則通常是通過修改根目錄以及其它子目錄下的Makefile,以及在預編譯前設置編譯參數值時進行選定,或是使用編譯工具[4]。
最后,使用make工具生成U-boot可以識別的uImage引導程序鏡像文件。uImage鏡像文件通過U-Boot引導程序從FLASH中取出并解壓縮,裝入內存后,Linux內核便取得系統控制權。
Linux內核移植的整個過程如圖3所示。
3.2 系統軟件設計整個系統軟件結構如圖4所示。面向終端用戶的軟件形勢分為兩種:web插件和普通的軟件界面;web插件可以使用在瀏覽器中,方面用戶控制網頁瀏覽。下面是命令解析層Command layer,負責解釋兩種界面發送的命令,調用相應的程序接口并返回執行后的結果。功能模塊Function modules主要封裝軟件API,負責提供各種常用的功能服務??刂颇KControl modules負責管理和控制語音識別引擎,建立語音樣例庫以及調整語音設備引擎的內部參數,將來還可以加入新的語音模式匹配算法。再下面一層是統一APIs層,主要對核心語音識別引擎進行簡單的API封裝,同時預留了將來要擴展的功能接口,以便后續的功能升級和代碼維護;最下面的就是核心語音識別引擎,主要提供模式匹配算法以及對底層系統級的控制功能。
3.3 語音識別算法本語音識別系統的識別任務主要為針對設備持有者的小詞匯量孤立詞的語音識別,功能較為簡單,需要使用者進行一定量的訓練后,系統對應建立語音樣例庫,然后針對每次的聲音進行模式匹配即可,所以算法的重點在于模式匹配算法。綜合計算性能需要、存儲資源消耗以及價格成本考慮,目前流行的DHMM語言識別模型對本系統較為合適。DHMM模型是一種隨機統計過程,通過大量的模板訓練過程提取語音特征,可滿足語音實時變化且識別實時性要求較高的應用場合。
本系統采用了當前性價比較高的Viterbi算法實現DHMM模型。Viterbi算法可以由如下公式描述[5]:
?啄t(i)=■p(s1,s2,…,st=si,O1,O2,…,Ot|?姿)
其中,?啄t(i)為被識別語音序列t時刻的最大概率密度;其中t時刻前經過的語音狀態序列為s1,s2,...st,且t時刻狀態為si,對應輸出觀察符序列為O1,O2,...Ot。
4結束語
人類與計算機之間的交流的方式經過了按鍵輸入、鍵盤輸入、手寫輸入以及觸摸輸入的階段,但這已經不能滿足人們對于便捷、快速輸入的更高需求,而語音識別技術的發展和應用,使得人們看到了計算機輸入的未來趨勢。相信隨著電子技術和信號處理技術的進一步提高,語音輸入將會廣泛應用于各種計算機以及嵌入式設備中。
參考文獻:
[1]馬莉,黨幼云.特定人孤立詞語音識別系統的仿真與分析[J].西安工程科技學院學報,2007,(03).
[2]邢銘生,朱浩,王宏斌.語音識別技術綜述[J].科協論壇(下半月),2010,(03).
[3]涂剛,陽富民等.嵌入式操作系統綜述[J].計算機應用研究,2000,17(11):4-6.