777午夜精品视频在线播放_精品欧美一区免费观看α√_91精品国产综合久久精品麻豆_精品一区二区成人精品_av成人在线看_国产成人精品毛片_少妇伦子伦精品无吗_高清视频在线观看一区_8x8x8国产精品_最新国产拍偷乱拍精品

語音識別系統

時間:2022-11-25 09:32:25

導語:在語音識別系統的撰寫旅程中,學習并吸收他人佳作的精髓是一條寶貴的路徑,好期刊匯集了九篇優秀范文,愿這些內容能夠啟發您的創作靈感,引領您探索更多的創作可能。

語音識別系統

第1篇

關鍵詞:SAPI;C#;.NET;語音識別

1 引言

語音識別是信息處理領域的一個重要方向,語音識別通常又可以分為兩種工作方式:一種是連續語音聽寫,這種方式需要語音識別引擎對語音聽寫過程中上下文以及相同相似發音的詞語進行分析、做出判斷,實現難度較大。另一種是命令與控制方式(command and control),在此種方式下,語音識別引擎可以通過對簡短的命令語音進行識別,以便執行相應操作。

語音識別技術基礎是非常復雜的。正是如此,它獲得了世界上著名的公司與研究機構的青睞,語音識別技術正經歷著日新月異的改變,其中一些產品已經取得較好的效果,用戶可以在上述產品基礎之上進行二次開發。

2開發圖片語音識別系統的條件

語音識別技術的發展涉及人機交互,自然語言處理,人工智能。這使開發人員難以從底層進行應用開發,欣慰的是一些公司與研究機構已經推出他們的研究成果,并且提供了供開發人員使用的開發平臺與接口。其中影響比較大的有微軟的SAPI、劍橋大學的HTK,IBM的via voice開發平臺。本文采用微軟的Speech SDK5.1開發包,它不僅是一個免費的開發包,同時提供對中文的支持。

2.1微軟SAPI簡介

微軟的 Speech SDK是基于 C O M 的視窗操作系統開發工具包。這個 SDK中含有語音應用程序接口( SAPI )、微軟連續語音識別引擎(MCSR)以及串聯語音合成(又稱文本到語音)引擎(TTS)等等。SAPI 中還包括對于低層控制和高度適應性的直接語音管理、訓練向導、事件、 語法、 編譯、資源、語音識別管理以及文本到語音管理,其結構如圖 l 所示。

圖1 SAPI結構

SAPI API在應用程序和語音引擎之間提供一個高級別的接口。SAPI實現了所有必需的對各種語音引擎的實時的控制和管理等低級別的細節。

SAPI引擎的兩個基本類型是文本語音轉換系統(TTS)和語音識別系統。TTS系統使用合成語音合成文本字符串和文件到聲音音頻流。語音識別技術轉換人類的聲音語音流到可讀的文本字符串或者文件。

2.2 在.net應用程序中使用SAPI的準備

安裝SAPI 5.1語音開發包。

由于SAPI基于Windows平臺,通過COM接口供.net平臺調用,所以具體調用方法為:新建工程,在此工程的解決方案中單擊右鍵,在添加/引用中選擇 Microsoft Speech Object Library,并在程序中添加對SAPI命名空間的引用:using SpeechLib。

3 系統模型設計及實現

3.1 創立系統界面

 

圖2 系統界面一覽

3.2  使用SAPI語音識別核心類

ISpRecognizer類是支持語音識別的核心類,主要用于訪問MCSR實現語音識別。在進行語音識別時,微軟Speech SDK 5.1 支持兩種模式的語音識別引擎:共享(Share)和獨享(InProc)。在本系統中,我們使用共享型語音識別引擎,CLSID_SpSharedRecognizer。

SpSharedRecoContext類是語音識別上下文接口,它可以發送與接收消息通知,通過CreateGrammar方法創建語法規則。通過對它的兩個事件:_ISpeechRecoContextEvents_RecognitionEventHandler(ssrc_Recognition) ,_ISpeechRecoContextEvents_HypothesisEventHandler(Hypo_Event)的重寫,我們可以很輕松的得到當前語音識別結果。第一個事件對應的就是識別結果顯示:1、第二個事件對應的就是識別結果顯示;2、ISpeechRecoGrammar類是語法規則接口,定義語音識別引擎需要是別的語音類容。起語法規則可以分為聽寫型與命令控制型。聽寫型可以識別大詞匯量語音,但是別效率與識別準確率較低。命令控制型有針對性的對特定語音進行識別,在效率與準確率上都非常高。

當然一個ISpRecognizer不管是共享還是獨享,都可以有多個RecoContext與其關聯,而一個RecoContext也可以與多個ISpeechReco  Grammar關聯,每個ISpeechRecoGramma  r識別各自規定的內容。

 

圖3 語音識別類對應關系

3.3  編寫系統核心代碼

通過讀入外部Grammar配置語音識別引擎,外部Grammar文件以xml文件格式存儲。具體形式如下:

ManegePic.xml

玫瑰

大象

獅子

老虎

仙人掌

珠穆朗瑪峰

布達拉宮

貂蟬

十字軍

世界杯

阿里巴巴

乒乓球

五星紅旗

……

采用命令控制型Grammar是為了使語音識別結果準確有效,定義外部Grammar是為了保持以后系統的可擴展性。對于新輸入的圖片,只要將圖片名字加入到 圖片名字

中即可。

開始語音輸入事件:

private void btnStart_Click(object sender, EventArgs e)

{

ssrc = new SpSharedRecoContext();

srg = ssrc.CreateGrammar(1);

srg.CmdLoadFromFile(""ManegePic.xml"", SpeechLoadOption.SLODynamic);

//讀入規則

ssrc.Recognition += new _Ispeec hRecoC ontextEvents_RecognitionventHandler(ssrc_Recognition);

//添加識別最終事件 

ssrc.Hypothesis += new _IspeechRecoCon textEvents_HypothesisEventHandler(Hypo_Event);

//添加識別懷疑事件

srg.CmdSetRuleState(srg.Rules.Item(0).Name, SpeechRuleState.SGDSActive);

//激活規則 

}

其中識別最終事件是系統在完整處理輸入音頻之后得到的最后識別結果,懷疑事件則是因為系統在處理過程中的最相似識別結果。這兩個事件在一些環境之下得到的識別結果不同。

識別懷疑事件:

private void Hypo_Event(int StreamNumber, object StreamPosition, ISpeechRecoResult Result)

{

  textBox2.Text = Result.PhraseInfo.GetText(0, -1, true);

}

將系統在處理過程中的最相似結果顯示在textBox控件之中。

識別最終事件:

void ssrc_Recognition(int StreamNumber, object StreamPosition, SpeechRecognitionT ype RecognitionType, ISpeechRecoResult Result)

{

textBox1.Text = Result.PhraseInfo.GetT ext(0, -1, true);

// 將系統最終結果顯示在textBox控件之中。

try

{

Picturebox1.image = Result.PhraseInf o.GetText(0, -1, true).tostring()+”.jpg”;

//顯示識別結果的圖片

}

Catch (Exception e)

{}

}

由于篇幅有限,這里僅僅給出了構建語音識別引擎與圖片顯示部分的代碼。完 整的系統可以在Windows XP + vs2008環境中調試通過,實現基于.net和SAPI的圖片語音識別系統。

4 結語

通過制作圖片語音識別系統,對利用SAPI進行語音識別有了初步的研究和實踐,該系統具有一定的擴展性,也可以作為子系統嵌入到其他系統之中。該系統的功能可以擴展到語音控制文件操作,比如打開/關閉文件,添加文件,可以制作一個不需要鍵盤鼠標只利用語音就可進行操作的軟件系統。

參考文獻:

[1] Microsoft Speech 5.1 SDK Help .Microsoft Corporation

第2篇

【關鍵詞】 Mel倒譜 感知線性預測系數 MFCC PLP 語音識別 藏語

自動語音識別研究起始于上世紀50年代,80年代最大突破是隱馬爾科夫模型(HMM)的應用,語音識別研究重點從特定人、小詞表、孤立詞語音識別向非特定人、大詞表、連續語音識別轉移;90年代以來,語音識別在模型細化、參數提取和優化、系統自適應方面取得重大突破.進入本世紀,著名的研究機構和公司,如劍橋大學、IBM、CMU大學、微軟、貝爾實驗室等機構的大詞表連續語音識別系統對特定說話人的識別率達到95%左右.面對中國未來市場,國外IBM、APPLE、MOTOROLA等公司投入到漢語語音識別系統的開發.

我國語音識別研究雖然起步較晚,但發展發展迅速,中國科學院自動化研究所、聲學研究所及清華大學、北京交通大學等機構都開展了語音識別的研究,總體上,漢語連續語音識別的研究與國外先進技術相差不大。

實際環境對語音識別的聲學噪聲魯棒性要求越來越高,因此,提取具有魯棒性和較強區分能力的特征向量對語音識別系統具有重要的意義.目前常用的聲學特征參數有基于線性預測分析(LPC)的倒譜LPCC、基于Mel頻率彎折的倒譜MFCC及基于聽覺模型的感知線性預測(PLP)分析等.

由于考慮到人耳的聽覺特性,Mel倒譜系數或感知線性預測系數已經成為目前主流的語音特征向量提取方法之一,加上它們的一階、二階差分以及對特征向量進行歸一化處理以后,在大詞匯量連續語音識別問題上取得不錯的結果。為了使系統具有較好的魯棒性,通常要對語音識別系統的前端進行預處理.

雖然語音信號是非平穩信號,但在一個小的時段內具有相對的穩定性,因此在對語音信號進行分析時,我們總是假定語音信號在一個時間幀(frame)內是平穩信號,這就是語音信號的短時分析假設。通常一幀大約為20ms左右。對一幀信號通過加Hamming 窗、Hanning 窗或矩形窗后再進行特征分析就可以得到相應的一組特征,然后通過把分析窗移動一個偏移(稱為幀移,通常為一幀的1/2或1/3),然后進行下一幀的處理。

1.MFCC的計算

Mel頻率倒譜參數(MFCC),著眼于人耳的聽覺特性。人耳所聽到的聲音的高低與聲音的頻率并不成線性正比關系,從人類聽覺系統的研究成果來看,人耳分辨聲音頻率的過程猶如一種取對數的功能,而Mel頻率尺度則更符合人耳的聽覺特性。

類似于臨界頻帶的劃分,可以將語音頻率劃分成一系列三角形的濾波器序列,即Mel濾波器組。Mel頻率和頻率的關系如下:

Mel(f)=2595lg(1+f/700)

Mel頻率帶寬隨頻率的增長而變化,在1000Hz以下,大致呈線性分布,帶寬為100Hz左右,在1000Hz以上呈對數增長。將頻譜通過24個三角濾波器,其中中心頻率在1000Hz以上和以下的各12個。濾波器的中心頻率間隔特點是在1000Hz以下為線性分布,1000Hz以上為等比數列分布。

圖1 Mel三角濾波器

MFCC的具體計算過程如下:

1) 由原始信號計算其DFT,得到離散譜{S n n N} t ( ) = 1,2,..., ;

2) 三角濾波器的輸出則為此頻率帶寬內所有信號幅度譜加權和。

l = 1,2,....,24

3) 對所有濾波器輸出作對數運算

ln(y(l))l= 1,2,....,24

4) 作離散余弦變換(DCT)得到Mel頻率倒譜參數(MFCC)。

i = 1,2,...,P,P為MFCC參數的階數,取P=12.

2.PLP的計算

感知線性預測(PLP)技術涉及到聽力、心理、物理學的三個概念:(1)臨界波段頻譜分辨率;(2)等響度曲線;(3)強度-響度功率定律。使用一個自回歸全極點模型去逼近聽覺頻譜。5階的全極點模型能有效地抑制聽覺頻譜中與話者有關的細節信息。與傳統的線性預測(LP)分析相比,在強調聽覺這方面,PLP分析更為合理。

PLP分析流程:

(1)使用FFT用對原始信號從時域變換到頻域,得到功率譜 ;

(2)關鍵波段頻譜分析(Critical-band spectral resolution):以不同于Mel頻譜分析的新的臨界波段曲線進行分段離散卷積,產生臨界波段功率譜的樣點.

(3)等響度預加重(Equal-loudness pre-emphasis):樣值化的通過模擬的等響度曲線進行預加重

(4) 利用強度-響度冪律(Intensity-loudness power law)進行立方根幅度壓縮

(5) 自回歸建模(auto-regressive modeling):利用全極點頻譜建模的自相關方法由全極點模型的頻譜去逼近 。基本原理是:對Φ(Ω)進行逆DFT變換,產生自相關函數。前M+1個自相關值用于從Yule-Walker方程中解出M階全極點模型的自回歸系數。

3.實驗結果

分別提取12維PLP和MFCC特征參數,1維歸一化短時能量,并求其一階差分及二階差分,共39維MFCC和PLP特征參數.

以音素為聲學建模單元,采用5狀態的連續HMM模型(見圖2),其中1、5狀態只起連接作用,沒有觀測概率,第2、3、4狀態有GMM概率分布,假設特征參數是相互獨立的,所以規定協方差矩陣為對角陣。

圖2 五狀態HMM模型結構

聲學模型的訓練基于4007句朗讀式的特定人男聲語料,共2.84小時,結合藏語語言學和語音學的研究成果,對拉薩話中全部50個音素進行分類,共劃分了38個音素類別集,對全部72個聲韻母設計了72個類別集,根據其前后語境分別建立決策樹問題集,生成決策樹,生成三音子模型后逐步增加高斯混合度。

選擇50句短句作為測試集,測試集與訓練集為同一發音人,但發音文本完全獨立,同時,測試集語料與語言模型的訓練語料也完全獨立,測試集共有885個單音節,其中界外詞(OOV)25個,全部為緊縮音節。

當特征參數分別為PLP和MFCC時,實驗結果如下(三音子triphone模型的狀態數為584):

由藏語大詞表連續語音識別的實驗結果來看,PLP和MFCC的效果相差不大。

參考文獻

[1] Lawrence Rabiner, Biing-Hwang Juang. Fundamentals of Speech Recognition[M].北京:清華大學出版社.1993

[2] 鄭方,吳文虎,方棣棠. 連續無限制語音流中關鍵詞識別的研究現狀[C].第四屆全國人機語音通訊學術會議,北京,1996

[3] 高升,徐波,黃泰翼.基于決策樹的漢語三音子模型[J].聲學學報,2000,11(2):271-276

[4] Julian James Odell. The Use of Context in Large Vocabulary Speech Recognition[D]. Cambridge: University of Cambridge,1995

第3篇

關鍵詞:FPGA;語音識別;MPCC;HMM

中圖分類號:TP391文獻標識碼:A文章編號:1009-3044(2011)10-2339-02

Design and Implementation of FPGA-based Voice Recognition Dialing System

WANG Hong, HAN Fei, WANG Jian, MA Yan-ping, ZHONG Hui, LI He

(School of Computer Science, South-Central University For Nationalities, Wuhan 430074, China)

Abstract: This paper elaborates a much more efficent and more identifiable process of speech dialing system and crucial technology which based on Altera Cyclone Ⅲ 3C16 and Quartus Ⅱ, NiosⅡ9. 0IDE using improved speech processing and speech recognition algorithm.

Key words: FPGA; speech recognition; MPCC; HMM

1 系統的總體設計

系統由語音采集模塊、語音識別模塊和撥號模塊三部分組成。語音信號采集模塊由麥克風和音頻編解碼芯片TLV320AIC23B組成,它主要的功能是對外部語音進行采集并數字化;語音識別模塊由預處理、端點檢測、特征提取、訓練和模式匹配等算法模塊組成;匹配成功后,由撥號模塊找出對應的電話號碼,經DTMF發生器輸出到電話線路上,實現語音控制自動撥號功能。系統的算法流程如圖1所示。

2 語音采集模塊

系統采用音頻編解碼芯片TLV320AIC23B對語音信號進行采集,使用該芯片時只需配置相應端口,芯片自動將外界語音信號轉變成數字信號輸出。

3 語音識別模塊

語音識別模塊不僅要進行訓練和模式匹配,還要對采集到的語音信號進行諸如加窗、預加重、除噪處理,最后提取特征參數供匹配識別操作。該模塊(如圖2所示)所采用的語音識別算法全部用HDL描述,采用FPGA實現。

3.1 預處理

預處理包括預加重、分幀和加窗,它們的目的是去除噪聲,加強有用信息,對語音輸入測量儀器或其他因素造成的退化現象進行復原。

3.1.1 預加重

預加重的目的是提升高頻部分,使信號的頻譜變得平坦,保持在低頻到高頻的整個頻帶中能用同樣的信噪比求頻譜,以便于頻譜分析或聲道參數分析。

3.1.2 分幀加窗算法

語音信號是一種典型的非平穩信號,特性隨時間變化,但在很短的時間(大概15ms)內是平穩的,其特性保持不變,因此,可以采用分幀處理,用幀來描述語音信號的特征[1]。分幀算法用DSPBuilder描述,再轉換成對應的HDL[2]。其DSP Builder的實現如圖3所示。

加窗的目的是使主瓣更尖銳,旁瓣更低。本系統選用漢明窗,公式如(1):

(1)

3.2 端點檢測

系統用HDL描述端點檢測,并且采用基于能量狀態變遷的端點檢測方法,將整個端點檢測過程分為6個狀態,其狀態變遷取決于轉換條件。能量狀態變遷圖如圖4所示。

3.3 特征提取

經過端點檢測后的語音幀用MFCC進行特征提取,對于經過預加重和加窗處理的語音信號,可以直接從FFT開始計算。我們采用Alter公司提供的FFT IP核。一般框架如圖5所示。

3.4 HMM訓練與匹配

系統的HMM訓練采用經典的Baum-Welch算法,識別采用viterbi算法[4]。系統對原始的viterbi算法進行了改進,改進后的算法如下:

1)初始化 δ[1][1]= ∏[j]+b[j][O(1)],1QjQ4

2)遞歸 δ[t][j]=min[δ[t-1][i]+a[i][j]]+b[O(t)],2QtQT 1QjQ4

φ[j]=argmin[δ[t-1][i]+a[i][j]]2QtQT 1Qi jQ4

3)終止 p=δ[T][4]q[t]=4

4)路徑回溯q[t]= φ[t+1][q[t+1]],t=T-1,T-2,…,1

算法表明,下一狀態只停留在當前狀態轉移到它概率最大的那個狀態,直至最后一個狀態S4,如圖6。

4 撥號模塊

模式匹配成功后,找出與模板對應的電話號碼,經過DTMF發生器輸出到電話線路上實現語音控制自動撥號的功能。在撥號狀態下,語音識別模塊通過信號線和控制線將DTMF信號發送到電話機線路上,電話機讀取存放在相應位置的電話號碼并發送出去。

5 結束語

本文討論了基于FPGA的語音識別撥號系統的設計和實現,對非特定人、孤立詞等進行識別。系統實現的語音識別準確率高、效率加強,可應用于任何可編程邏輯器件中,為手機、座機及其它諸多應用中的語音撥號功能的實現提供了參考設計方案。

參考文獻:

[1] 馬志欣,王宏,李鑫.語音識別技術綜述[J].昌吉學院學報,2006(3):93-97.

[2] 懷,徐佩霞.基于DSP的嵌入式語音識別系統的實現[J].計算機工程,2005(16).

第4篇

關鍵字:普通話 語音識別 基本音素

一、普通話基本音素分析

1.音素的分類。普通話所有的發音,都可以將聲母和韻母相拼,再加入聲調而成。1958年批準的《漢語拼音方案》將漢語拼音分成21個聲母與35個韻母,以及五種音調。但因56個聲、韻母中,許多都是由基本音素所構成的復合音,計算機要識別單音特征就顯得有一定的難度,為了降低復雜性,先要對普通話的基本音素進行分析和篩選,給從基于音素的語音識別做好鋪墊。

2.音素分析。如果從發音特征來考察,普通話的音素包括元音和輔音兩大類。元音在發音的過程當中起到主導作用,輔音則輔助發音,漢語拼音的56個聲、韻母發音中,有10個漢語元音和22個漢語輔音。所以掌握好了這l0個漢語元音和22個輔音,就能將所有的漢語拼音的發音拼出。元音和輔音分別如下:

元音:a,o,e,i,u,n,侖,i(知),i(資), er;

輔音:b,P,m,f,d,t,n,l,g,k,h,j,q,x, zh,ch,sh,r,z,c,s,ng

需要說明一下的是:元音i(知)為zh、ch、sh發音的尾部部分;i(資)為z、c、s發音的尾部部分。在構成漢語拼音的時候,元音i(知)僅在zhi,chi,shi當中出現,它的作用只是為了延長原有發音的尾音。也就是說,i(知)的發音, zh,ch,sh的發音當中已經包含了。所以,在分析基本因素時,只需做好zh,ch,sh的發音,稍微將其尾部延長便可得到zhi,chi,shi的發音。同理,元音i(資)只使用在漢語拼音zi,ci,si中,而其也包含于輔音z ,s的發音中。另外,因為er的發音可由e和r的發音相拼而成,所以它可不作為一個獨立音素。根據上述分析,漢語元音音素的數目可由10個減為7個。

二、元音音素的可變性分析

1.研究音素變化的重要性。音節是普通話語音體系當中最基本的結構單位,而音節又是由音素按照一定的方式組成的,所以普通話里面最小的語音結構單位就是音素。可以這樣說,發音器官所產生的每次細微的變化,均可以發出不同的音素。因而,分析和探究這些音素在音節當中產生的相互間的變化和影響,對于準確把握普通話的音節或字音,起著非常重要的作用。

2.音素可變性分析。學習普通話時,準確地發出單元音韻母是學習的基礎,但是,這種韻母的發音特點是口形始終保持不變,舌位也不移動,但單元音韻母(元音音素)的變化,就是它們一旦進入復韻母和鼻韻母,或是和聲母拼合時,所產生的細微變化會被忽視。對于北方人而言,這種可變性在自然語言環境當中耳濡目染就能學會;但對南方人而言,這種變化是一大難點,所以,準確把握元音音素在音節中的可變性,對于語音識別非常重要。

3.以原音i為例的分析。元音i是一個前元音兼高元音,當i與e組合成ie音節時,i和e彼此影響的結果就是舌位會往兩者之間的中部稍有移動,因而元音i的實際舌位就已從高降到了次高;而當i與a組成ia時,因a是一個央元音兼低元音,與i之間的差異較大,融合時的影響也就更大,導致i的舌位從高降到了半高;當i與ou組成iou音節時,因o、u均為后元音,且o為半高元音,故i與ou后,其舌位不僅由前往后稍移,并且從高變成了次高并呈半高的趨向,因為只有這樣才能與半高元音o順暢地進行銜接,于是iou音節既有由前往后的舌位趨向,又表現出高(i)――半高(o)――高(u)的發音曲線;當i與n結合成in時,因為舌尖中音n的舌位也靠前偏高,二者的發音趨向一致,此時只要i的舌尖再往前伸,抵住上齒齦,n的韻尾就形成了,因此鼻輔音n幾乎不會影響到元音i;當i與ng組合時,因為鼻輔音ng的舌位靠后并偏低,會對i元音造成一定的影響,在發音時,i元音的舌位會形成由高往低、由前往后的趨向,因此前元音兼高元音i在發音之初就已變為次前元音兼次高元音了;i與ong的組合中, o和ng舌位都靠后,并且o是半高元音,ng舌位偏低,受兩者的共同影響,i的舌位明顯后縮,并且表現出由高往低的趨向,這使其變成了次前元音兼次高元音。

三、對y、w的音素性質分析

y、w是兩個較為特殊的因素,兼具元音和輔音的一些特點,下面將它們單獨提出來進行因素性質的分析。

1.從發音部位與方法上進行分析。從語音的發聲部位和方法來看,發元音時,氣流經聲門帶動聲帶的振動,通過咽喉、口腔、鼻腔時,沒有阻礙;輔音發聲時,呼出的氣流定會在經過某個發聲器官時受阻礙。發元音的時候,除了聲帶,其余發音器官均保持緊張,而發輔音時,只有形成阻礙的器官才緊張。例如:輔音[k]在發音時,舌根和軟腭會緊張。并且,發元音時呼出的氣流沒有發輔音時急促。由此可見,y、w的發音既接近元音,但又具有輔音的發聲特點。這里將y[j]、w[w]兩個音素看做輔音,因為“發聲時氣流有阻礙”是輔音的重要特征,就算它們發音部位接近元音,但滿足了這一條件,就該被看做是輔音。

2.從聲帶振動特點上進行分析。語音是由聲帶振動引起空氣振動產生音波而形成的,可看做是一種物理現象,所以語音又有樂音和噪音之分。從y、w的發聲來看,它們發音時只是引起聲帶稍微的振動,發出的聲音不如元音清晰,從這個角度看,我們可以把它們看做是樂音性的噪音。但在元音的分類中,元音被看做是非常純粹的樂音,所以,y、w也只能被看做輔音了。

3.從音節結構上進行分析。在原來的漢語拼音方案當中,[w]、[j]被認為是韻頭,是[u]、[j]的改寫,所以將其看做元音,但這樣分類顯然混淆了概念。因為從音節結構上來看,非常明顯[wA]與[jA]是音節,而[uA]、[iA]是韻母,如果進行改換,是非常不合理的。再從音位的角度來看,[jA]當中的[j]和[iA]當中的[i],[wA]當中的[w]和[uA]當中的[u]是不同的音位,因為[j]和[A]、[w]和[A]可以組成以[j]、[w]做為聲母的音節,它們與[i]與[a]、[u]與[a]組成的音節是不同的,只是作為音節的一個部分――韻母。這樣來看, [j]、[w]被看做是具有區別意義功能的語音單位,即音位是合理的,此時,y、w就該被歸到輔音當中去。

從以上情況的分析來看,y、w應該被看做是輔音而作為聲母來使用。

四、結語

漢語普通話當中易混淆的音素很多,要想讓語音識別更精準,就要對普通話的音素進行分析和研究,并充分了解音素的可變性,并進行正確的分類,只有在此基礎之上,才能提出更先進的識別技術。語

參考文獻

[1]王紅雨,廖逢釵,盧昌荊等.一種基于語音識別的普通話語音失誤判別方法[J].三明學院學報,2007(4):452-455.

[2]徐秉錚,邱偉.漢語普通話聲母的分類與識別[C].第五屆全國語音圖象通訊信號處理學術會議論文集.

[3]黃中偉,楊磊,徐明等.普通話語音識別中的基本音素分析[J].深圳大學學報(理工版),2006(4):356-357.

第5篇

關鍵詞:語音識別; 音頻數據;典型的語音識別系統; 特征參數

中圖分類號:TP391.42文獻標識碼:A

文章編號:1004-373X(2010)08-0138-03

Research on Speech Recognition Technology

LI Hong-mei, WU Xiao-qin

(Hainan University, Haikou 570228, China)

Abstract:The speech recognition is a technology which transfers the audio datainto the text or other information form convenient to be disposed bycomputer.The history and situation of development of the speech recognition technology is introduced. The principle of a typical speech recognition system is elaborated.The difficulties existing during the development of the speech recognition technologyare discussed and the solutions are given. The method and process of the speech recognition are analysed.

Keywords:speech recognition; audio data; typical speech recognition system; characteristic parameter

0 引 言

語言是人類獲取信息的主要來源之一,是人類與外界交流信息最方便、最有效、最自然的工具,隨著計算機技術的快速發展,語音技術的研究也越來越受到重視。人類對語音的研究主要包括語音編碼、語音合成、語音識別和說話人辨識等幾個方面。

語音識別以語音為研究對象,它是語音信號處理的一個重要研究方向,是模式識別的一個分支,設計到語言學、生理學、心理學、計算機科學以及信號處理等學科。語音識別的目的是為了使機器能夠準確地聽出人的語音及其內容,以便控制其他設備來滿足人類的各種需要,它是發展人機有聲通信和新一代智能計算機的重要組成部分。

1 概 述

語音識別[1-2]研究工作可以追溯到20世紀50年代AT&T貝爾實驗室的Audry系統,它是第一個可以識別英文數字的語音識別系統。但真正取得實質性進展,并將其作為一個重要的課題開展研究則是在20世紀60年代末70年代初。這是因為計算機的發展為語音識別的實現提供了硬件和軟件的可能,更重要的是語言信號線性預測編碼(LPC)技術和動態時間規整(DTW)技術的提出,有效地解決了語言信號的特征和不等長匹配問題。

實驗室語音識別研究的巨大突破產生于20世紀80代末。人們終于在實驗室突破了大詞匯量、連續語音和非特定人這三大障礙,第一次把這三個特征都集成在一個系統中,比較典型的是卡耐基美隆大學的Sphinx系統。

20世紀90年代前期,許多著名的大公司如IBM、蘋果、AT&T和NTT都對語音識別系統的實用化研究投以巨資。我國的語音識別研究的起步比先進國家晚一點,但是進步很快,成果突出。

2 語音識別系統原理

語音識別系統大體上可以劃分為:孤立語音和連續語音識別系統、大詞匯量和小詞匯量語音識別系統、特定人和非特定人語音識別系統。

不同的語音識別系統,盡管設計和實現細節不同,但所采用的基本技術是相似的。一個典型的語音識別系統基本原理框圖如圖1所示。

圖1 典型的語音識別系統基本原理框圖

從圖1可看出,語音識別系統包括預處理、特征提取、模型的訓練和匹配、后處理等幾個部分。下面分別介紹這幾個部分。

2.1 預處理

預處理對輸入的原始語音信號進行處理,濾除其中不必要的信息及噪聲等,并進行語音信號的端點檢測,即判定語音有效范圍的開始和結束位置,并進行語音分幀和預加重處理等工作[3]。

2.2 特征參數提取技術

特征提取負責計算語音聲學參數,提取出反映信號特征的關鍵特征參數。特征參數的提取是關系到語音識別系統性能好壞的一個關鍵技術,合理地選擇特征參數不僅對系統的識別率有很大的提高,同時對系統的實時性能也至關重要[4]。

特征提取的目的是對原始語音信號進行處理,計算語音信號對應的特征參數,主要包括以下幾個步驟:

(1) 采樣與量化。

首先將模擬語音信號s(t)以采樣周期T采樣,將其離散化為S(n)。采樣周期的選取應根據模擬語音信號的帶寬(根據奈奎斯特采樣定理確定),以避免信號的頻域混疊失真。對離散后的語音信號進行量化處理過程中會帶來一定的量化噪聲和失真。

(2) 預加重處理。

對輸入的原始語音信號進行預加重,其目的是為了對語音的高頻部分進行加重,增加語音的高頻分辨率。一般通過一個傳遞函數為H(z)=1-αz-1的濾波器對其加以濾波。其中:α為預加重系數且0.9

Иy(n)=x(n)-αx(n-1), 0.9

(3) 分幀與加窗。

語音具有短時平穩的特點,通過對語音進行分幀操作后,可以提取其短時特性,從而便于模型的建立。然后將每幀信號用某種窗相乘,以減少幀起始和結束處的信號不連續性。常用的加窗函數有漢明窗和漢寧窗。

(4) 特征參數計算。

實踐證明有效的特征參數有線性預測編碼(LPC)系數,線性預測編碼倒譜(LPCC)系數和Mel頻率倒譜系數(MFCC)。

第6篇

關鍵詞:語音識別 應用領域 熱點 難點

中圖分類號:TN912 文獻標識碼:A 文章編號:1007-3973 (2010) 03-062-02

1應用領域

如今,一些語音識別的應用已經應用到實際生活中,如IBM的Viavoice、Microsoft的Speech SDK、Dragon公司的Dragon Dictate系統等。語音識別的應用領域非常廣泛,幾乎涉及到日常生活的方方面面。如語音撥號系統、、家庭服務、訂票系統、聲控智能玩具、醫療服務、銀行服務、聽寫機、計算機控制、工業控制、語音通信系統等。預計在不遠的將來,語音識別技術將在工業、家電、通信、、醫療、家庭服務等各個領域深刻改變人類現有的日常生活方式。語音識別聽寫機在一些領域的應用被美國新聞界評為1997年計算機發展十件大事之一。很多專家都認為語音識別技術是2000年至2010年間信息技術領域十大重要的科技發展技術之一。

2發展歷史

語音識別的研究工作開始于50年代,Bell實驗室實現了第一個可識別十個英文數字的語音識別系統―Audry系統。但真正取得實質性進展,并將其作為一個重要的課題開展研究則是在60年代末70年代初。60年代,提出了動態規劃(DP)和線性預測分析技術(LP),其中后者較好地解決了語音信號產生模型的問題,極大地促進了語音識別的發展。70年代,動態時間歸正技術(DTW)解決了語音特征不等長匹配問題,對特定人孤立詞語音識別十分有效,在語音識別領域取得了突破。在此期間還提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。

80年代語音識別研究進一步深入,HMM模型和人工神經網絡(ANN)在語音識別中成功應用。1988年,FULEE Kai等用VQ/I-IMM方法實現了997個詞匯的非特定人連續語音識別系統SPHINX。這是世界上第1個高性能的非特定人、大詞匯量、連續語音識別系統。人們終于在實驗室突破了大詞匯量、連續語音和非特定人這三大障礙,并以此確定了統計方法和模型在語音識別和語言處理中的主流地位。使得借助人工智能中的啟發式搜索和語音模型自身的特點,高效、快捷的算法使得建立實時的連續語音識別系統成為可能。

90年代,人們開始進一步研究語音識別與自然語言處理的結合,逐步發展到基于自然口語識別和理解的人機對話系統。人工神經元網絡(ANN)也開始應用于語音識別,它和HMM模型建立的語音識別系統性能相當,在很多系統中還被結合在一起使用以提高識別率及系統的魯棒性。小波分析也開始用于特征提取,但目前性能不理想,其研究還在進一步深入中。

現在語音識別系統已經開始從實驗室走向實用,出現了比較成熟的已推向市場的產品。許多發達國家如美國、日本、韓國以及IBM、Apple、Microsoft、AT&T等著名公司都為語音識別系統的實用化開發研究投以巨資。

3研究的熱點與難點

目前語音識別領域的研究熱點包括:穩健語音識別(識別的魯棒性)、語音輸入設備研究 、聲學HMM模型的細化、說話人自適應技術、大詞匯量關鍵詞識別、高效的識別(搜索)算法研究 、可信度評測算法研究、ANN的應用、語言模型及深層次的自然語言理解。

目前研究的難點主要表現在:(1)語音識別系統的適應性差。主要體現在對環境依賴性強。(2)高噪聲環境下語音識別進展困難,因為此時人的發音變化很大,像聲音變高,語速變慢,音調及共振峰變化等等,必須尋找新的信號分析處理方法。(3)如何把語言學、生理學、心理學方面知識量化、建模并有效用于語音識別,目前也是一個難點。(4)由于我們對人類的聽覺理解、知識積累和學習機制以及大腦神經系統的控制機理等方面的認識還很不清楚,這必將阻礙語音識別的進一步發展。

4語音識別系統

一個典型的語音識別系統如圖所示:

輸入的語言信號首先要進行反混疊濾波、采樣、A/D轉換等過程進行數字化,之后要進行預處理,包括預加重、加窗和分幀、端點檢測等。我們稱之為對語音信號進行預處理。

語音信號的特征參數主要有:短時能量En,反映語音振幅或能量隨著時間緩慢變化的規律;短時平均過零率Zn,對于離散信號來講,簡單的說就是樣本改變符號的次數,可以粗略分辨清音和濁音;短時自相關函數;經過FFT或LPC運算得到的功率譜,再經過對數運算和傅里葉反變換以后得到的倒譜參數;根據人耳聽覺特性變換的美爾(MEL);線性預測系數等。通常識別參數可選擇上面的某一種或幾種的組合。

語音識別是語音識別系統最核心的部分。包括語音的聲學模型(訓練學習)與模式匹配(識別算法)以及相應的語言模型與語言處理2大部分。聲學模型用于參數匹配,通常在模型訓練階段按照一定的準則,由用語音特征參數表征的大量已知模式中通過學習算法來獲取代表該模式本質特征的模型參數而產生。在識別(模式匹配)時將輸入的語音特征同聲學模型(模式)根據一定準則進行匹配與比較,使未知模式與模型庫中的某一個模型獲得最佳匹配以得到最佳的識別結果。語言模型一般指在匹配搜索時用于字詞和路徑約束的語言規則,它包括由識別語音命令構成的語法網絡或由統計方法構成的語言模型,語言處理則可以進行語法、語義分析。

聲學模型是語音識別系統中最關鍵的一部分。目前最常用也最有效的幾種聲學識別模型包括動態時間歸整模型(DTW)、隱馬爾可夫模型(HMM)和人工神經網絡模型(ANN)等。

DTW是較早的一種模式匹配和模型訓練技術,它把整個單詞作為識別單元,在訓練階段將詞匯表中每個詞的特征矢量序列作為模板存入模板庫,在識別階段將待識別語音的特征矢量序列依次與庫中的每個模板進行相似度比較,將相似度最高者作為識別結果輸出。DTW應用動態規劃方法成功解決了語音信號特征參數序列比較時時長不等的難題,在小詞匯量、孤立詞語音識別中獲得了良好性能。但因其不適合連續語音大詞匯量語音識別系統,目前已逐漸被HMM和ANN模型替代。

HMM模型是語音信號時變特征的有參表示法。它由相互關聯的兩個隨機過程共同描述信號的統計特性,其中一個是隱蔽的(不可觀測的)具有有限狀態的Markor鏈,另一個是與Markor鏈的每一狀態相關聯的觀察矢量的隨機過程(可觀測的)。HMM很好的模擬了人得語言過程,目前應用十分廣泛。HMM模型的模型參數包括HMM拓撲結構(狀態數目N、狀態之間的轉移方向等)、每個狀態可以觀察到的符號數M(符號集合O)、狀態轉移概率A及描述觀察符號統計特性的一組隨機函數,包括觀察符號的概率分布B和初始狀態概率分布 ,因此一個HMM模型可以由{N,M,A,B, }來確定,對詞匯表中的每一個詞都要建立相應的HMM模型。

模型參數得到后可以用Viterbi算法來確定與觀察序列對應的最佳的狀態序列。建好模型后,在識別階段就是要計算每個模型產生觀察符號序列的輸出概率,輸出概率最大的模型所表示的詞就是我們的識別結果。這個過程計算量很大,有人提出了前向-后向算法,大大減少了計算量,已經被廣泛采用,關于它們的各種改進方法也被大量提出。

ANN在語音識別中的應用是現在研究的又一熱點。ANN本質上是一個自適應非線性動力學系統,是由結點互連組成的計算網絡,模擬了人類大腦神經元活動的基本原理,具有自學習能力、記憶、聯想、推理、概括能力和快速并行實現的特點,同時還具備自組織、自適應的功能。這些能力是HMM模型不具備的,可用于處理一些環境信息十分復雜,背景知識不清楚,推理規則不明確的問題,允許樣品有較大的缺損、畸變,因此對于噪聲環境下非特定人的語音識別問題來說是一種很好的解決方案。目前大部分應用神經網絡的語音識別系統都采用了BP網并取得了較好的識別效果。

將ANN與HMM結合分別利用各自優點進行識別將是今后的一條研究途徑。二者結合的混合語音識別方法的研究開始于上世紀90年代,目前已有一些方法將ANN輔助HMM進行計算和學習概率參數。

語言模型主要分為規則模型和統計模型兩種。統計語言模型是用概率統計的方法來揭示語言單位內在的統計規律,其中N-Gram簡單有效,被廣泛使用。N-Gram模型基于這樣一種假設:第n個詞的出現只與前面N-1個詞相關,而與其它任何詞都不相關,整句的概率就是各個詞出現概率的乘積。這些概率可以通過直接從語料庫中統計N個詞同時出現的次數得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

5總結

盡管語音識別技術已經取得了長足的進步,而語音識別系統也層出不窮,不斷的改變人類現有的生活方式,但其比較成功的應用也只是在某些特定的領域,談不上大規模廣泛的應用。只有建立從聲學、語音學到語言學的知識為基礎、以信息論、模式識別數理統計和人工智能為主要實現手段的語音處理機制,把整個語音識別過程從系統工程的高度進行分析構建,才有可能獲得能與人類相比的高性能的、完整的計算機語音識別系統。

參考文獻:

[1]易克初,田斌.付強.語音信號處理[M].國防工業出版社,2000.

[2]胡航.語音信號處理[M].哈爾濱工業大學出版社,2000.

[3]趙力.語音信號處理[M].機械工業出版社,2003.

第7篇

關鍵詞:語音識別;HMM;俄語聲學模型;俄語語言模型

中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2015)29-0155-04

Research Status and Development Trend of Russian Speech Recognition Technology

MA Yan-zhou

(PLA University of Foreign Languages, Luoyang 471003, China)

Abstract: Abstract: Technological advance of speech recognition facilitates intelligent human-computer interactions. And applications of speech recognition technology have made human communications easier and more instantaneous. Starting with a look at the past and the present of Russian speech recognition, this paper attempts to conduct a detailed analysis on fundamental principles of speech recognition, speech recognition technology based on Hammond theoretical groundwork for consecutive vast-vocabulary speech recognition. The paper also demonstrates steps for establishing models in Russian acoustics and speeches. As to technological barriers in speech recognition, it probes into possible way out strategies. Finally, it predicts future development direction and application prospects for Russian speech recognition technology.

Key words: speech recognition; hmm;russian acoustic models; russian language models

俄語(Русскийязык)[1]是俄羅斯和聯合國的官方語言,也是我國少數民族正式語言。在前蘇聯和俄羅斯使用,俄語在蘇聯時期具有很重要的地位,直到現在仍然有些獨聯體國家在廣泛使用,雖然這些國家已經開始強調本地語言的重要性,但在這些國家之間依然使用俄語進行交流。全球有超過一億四千萬把俄語作為母語使用,有近四千五百萬人以第二語言使用,使用俄語媒體的有3億多人。我國俄羅斯族使用俄語進行交流,聚集地分布在新疆地區的阿勒泰、伊犁、塔城及內蒙古呼倫貝爾市的額爾古納、滿洲里等地,

語音識別(Speech Recognition)[2]是指在各種情況下,識別出語音的內容,讓機器聽懂人說的話,根據其信息而執行人的不同意圖。它是一門交叉學科,涉及與計算機、語音語言學、通信、信號處理、數理統計、神經心理學人工智能、和神經生理學等學科。能夠能滿足不同需要的語音識別系統的實現已經成為可能,它的前提是模式識別、信號處理技術、計算機技術和聲學技術等的發展。近年來,軍事、交通等領域,尤其在計算機、人工智能等領域得到廣泛應用。

俄語語音識別是一個有巨大潛力的研究方向,不僅能夠為人們的生產生活、日常交往提供極大的便捷性和高效性,而且在政治、軍事、經濟等各個領域都有著重要的研究價值和應用前景。本文著重介紹語音識別發展歷程、闡述俄語語音識別關鍵技術、分析俄語語音識別未來的發展趨勢。

1 俄語語音識別的現狀

俄語連續語音識別取得快速發展,利益于技術的進步。隨著語音識別在技術層面的不斷突破與創新,對英語的識別慢慢成熟,然后逐漸擴展到其他語種如漢語、俄語等。

1.1語音識別技術的發展

20世紀50年代,語音識別的研究開始借助機器來實現。1952年,一個特定人獨立數字識別系統[3]由貝爾(Bell)實驗室的Davis、Diddulph和Balashelk首次研制,該系統成功識別10個英語數字。1959年,英格蘭的Fry和Denes利用譜分析技術和模板匹配技術,提高了音素的識別精度,建立了一個能夠識別9個輔音和4個元音的識別系統。20世紀60年代,經過Faut和Stevens的努力,語音生成理論初步形成。動態規劃方法[4]由蘇聯的Vintsyuk提出,并實現了對兩段語音進行對齊。70年代取得一系列重大突破,基本實現孤立詞識別。俄羅斯推進了模板匹配思想在語音識別中的應用;利用動態規劃方法實現語音識別也由日本的科學家實驗成功。20世紀80年代,語音識別研究的一個主要特點是由模板匹配方法向統計建模方法的轉變,特別是隱馬爾可夫模型[5-6]。盡管HMM眾所周知,但是直到20世紀80年代中期HMM模型才廣泛被世界各地的語音識別實驗室熟悉和采納。另一個新方向是利用神經網絡解決語音識別問題,促進了該技術在語音識別領域的應用[7-9]。20世紀80年代后期,在DAPRA的支持下,對大詞匯連續語音識別系統的研制也取得了顯著的成果,研究機構主要有CMU、BBN、林肯實驗室、MIT、AT&T貝爾實驗室。

20世紀90年代以來,語音識別開始實用化研究,并取得了突破性的進展。其中算法的研究取得了非常明顯的效果,并提升了系統的性能,如最大似然線性回歸(Maximum Likelihood Linear Regression, MLLR),最大后驗概率準則估計(MaximumA-Posteriori Estimation, MAP),以及用于模型參數綁定的決策樹狀態聚類等算法,這些算法的不斷優化,也使得應用于實際的語音識別不斷出現。最具有有代表性的系統有:Dragon System公司的NaturallySpeaking,Nuance公司的Nuance Voice Platform語音平臺,IBM公司推出的ViaVoice, Sun的VoiceTone,Microsoft的Whisper,等。在美國國家標準和技術研究所(Nationa lInstitute of standardsand Technology,NIST) 和DARPA的不斷推動下,各個研究機構不斷嘗試語音識別任務,目的是不斷提高識別的性能。進入21世紀,在向廣度和深度兩方面,自動語音識別得到了更為廣泛的研究。魯棒性語音識別,進行了了細致的調研,特別是在置信度和句子確認方面非常有效,尤其對處理病句。在21世紀的前10年,信息技術領域最重要的十大科技發展技術之一就有語音識別技術的一席之地,人機接口關鍵的語音識別技術,已經成為一個具有競爭性的新興高技術產業,它的實用化研究將成為未來的方向。

1.2俄語語音識別技術的發展

語音技術的研究主要集中在幾個主要的語言,如英語,法語,西班牙語,漢語和西班牙語,一些其他語言尤其是東歐語言很少受到注意。但是近幾年在俄羅斯,捷克,波蘭,塞爾維亞,克羅地亞等俄語區對俄語語音技術的研究活動正在穩步上升。

俄羅斯科學院緊跟世界語音識別技術的發展,結合俄語自身的獨有發音特點進行了卓有成效的研究并取得了一系列的成果。在開發聲學,詞匯和語言模型時采取特別重視俄語的細節,對于聲學模型,采用知識和基于統計的方法來創建幾個不同的音素集10。對于語言模型(LM),從不同網站自動收集新聞文本語料,用統計分析的方法將訓練文本數據和語法相結合,計算不同情況下n-gram中單詞的頻率,優化n-gram模型,以建立更好的n-gram模型[11]。在基本語音識別單元的問題上采用距離最小信息不匹配的原則,建立語素級單元,顯著減少誤差概率[12]。

語料庫是語音識別最基本的支撐,文本語料和口語語料都是一個語料庫不可或缺的組成部分,任缺其一則語料庫就不能反映該語言的完整信息,也沒有辦法在此基礎上進行大詞匯、非特定人連續俄語語音識別的研究[13]。俄羅斯對語料庫的研究起步比較晚,在20世紀一直落后于世界語料庫的發展,缺乏系統的理論研究和先進的實踐成果。但近十年來,隨著俄羅斯國家語料庫建立和不斷完善,俄語語音技術的研究正在慢慢興起并取得了一些矚目的成就。

國內對俄語語音的研究主要集中在教學方面。使用統計的方法,基于HMM對俄語語音進行建模和識別研究,目前還沒有發現相關的文獻記錄。

2 語音識別技術

語音識別系統根據角度、范圍、性能等差別,有以下的分類。

根據詞匯量的大小分可為小詞匯量(10至100)、中詞匯量(100至500)和大詞匯量(大于500)。根據發音方式可分為孤立詞(isolated word)識別、連接詞(connected word)識別、連續語音(continuous word)識別等。根據說話人特征可分為特定(speaker-dependent)說話人和非特定(speaker-independent)說話人。根據語音識別的方法不同進行了模板匹配、隨機模型和概率語法分析等分類方法。

2.1 語音識別基本原理

通過計算機的輔助功能把輸入的語音信號變換為對應的文本和命令,并且能夠接受人類的語音、理解人類的意圖,是語音識別技術研究的根本目的。語音識別系統核心是一套語音取樣、識別、匹配的模式匹配系統[2],基本原理如圖1所示。

語音識別系統由三個基本單元組成,它包含特征提取、模式匹配和參考模式庫,雖然它是模式識別系統,但它的結構要比普通的模式識別系統要復雜,因為語音所包含的信息是復雜多樣的語言信息,結構也是多變的。首先對輸入的語音信號進行預處理,預處理包括適當放大信號功率并對增益進行有效控制,之后進行反混疊濾波以消除信號的干擾;然后將模擬信號轉化為數字信號即數字化處理,便于存儲和處理;然后進行特征提取,并使用一些參數來表示的語音信號的特性;最后對其進行識別。語音識別又分為兩階段:訓練和識別。在訓練階段,利用特征參數表示語音信號的相應特征,得到標準數據即模板,將模板構建成一個數據庫即模板庫;在識別階段,將語音特征與模板庫中的每一個模板進行比較,找到了最相似的參考模板,這就是識別的結果。

2.2 HMM模型技術

語音識別早期采用的有矢量量化(Vector quantization, VQ)技術、動態時間規整(dynamic time warping, DTW)技術等,從處理難度上看,最簡單的是小詞匯量、特定人、孤立詞的語音識別,最難解決的是大詞匯量、非特定人、連續語音識別。當今語音識別系統采用的主流算法是HMM模型技術。

HMM模型的狀態不能被直接觀察到,但可以通過觀測向量序列來觀察到,這些向量都是通過某些特定的概率密度分布來表現為各種狀態的,每個觀測向量都是由一個狀態序列產生的,這些狀態序列具有相應的概率密度分布。HMM是一個雙重隨機過程:具有一定狀態數量的隱馬爾可夫鏈和顯示隨機函數集。HMM的基本問題及解決算法6-9

1)評估問題(前向算法)。

現有觀測序列O=O1O2O3…Ot以及模型參數λ=(π,A,B),如何計算觀測序列的概率,進一步可對該HMM做出相關評估。利用forward算法分別以每個HMM產生給定觀測序列O的概率進行計算,然后從其中選出最優秀的HMM模型。

經典應用例子就是語音識別。在HMM的語音識別描述中,每個單詞對應一個HMM,每個觀測序列全部由一個單詞的語音來構成,單詞的識別可以通過評估而選出最可能的HMM,此HMM由產生觀測序列所代表的讀音實現。

2)解碼問題(Viterbi算法)

現有觀測序列O=O1O2O3…Ot以及模型參數λ=(π,A,B),如何尋找最優的隱含狀態序列。此類問題比較關注馬爾科夫模型中的隱含狀態,在這些狀態中雖然不能直接觀測,但價值更大,可以利用Viterbi算法來解決。

實際例子是進行分詞,分詞問題可以用HMM來解決。這句話的分割方法可以看做是一個隱式的狀態,而這句話可以被視為一個給定的條件,從而找出基于HMM的可能正確的分割方法。

3)訓練問題(Baum-Welch算法即前向后向算法)

此時HMM的模型參數λ=(π,A,B)未知,對這些參數進行調整,使得觀測序列O=O1O2O3…Ot的概率最大,使用Reversed Viterbi算法以及Baum-Welch算法可以解決。

2.3 大詞匯量連續語言識別

在語音識別研究中難度和挑戰性最大為課題應該是基于大詞匯量的、非特定人的連續語音識別[13]。在詞匯量大于1000詞的時候,比較容易混淆的詞數量增加,誤識率約為基于小詞匯量的、特定人的孤立詞識別系統的50倍左右。而且還帶來兩個重要的、不易解決的問題:語流的切分和連續語音的發音變化。此時采用統一框架可以有效解決這個問題。大詞匯量連續語音識別總體框架[14]如圖2所示。

俄語語音信號分析后,形成特征向量,并通過字典識別模型,然后,根據語言模型的語法,將輸入的語音與模板匹配,在句子層面進行組合。從俄語聲學模型、俄語語言模型敘述大詞匯量連續語音識別的過程。

2.3.1聲學模型

設計俄語語音識別系統底層相應的HMM子詞單元模型,需要充分考慮俄語聲學和語音學的特征。俄語基本聲學單元的選擇是聲學建模過程中一個基本而重要的問題。在俄語連續語音識別中,可供選擇的基本單元包括詞、音節、元輔音等。識別基本單元的選擇一般基于語音學知識。

俄語字母是語音的書面形式,每個俄語字母都有自己的字母名稱。元音字母的名稱和讀音相同,輔音字母的名稱是在該輔音后加一個元音[15-16]。如字母с的名稱為эс,字母б的名稱為бэ等。字母名稱通常用于讀某些縮寫詞。俄語字母共有33個字母如表1所示。

根據俄語詞的發音特征、音節的發音特征和字母的發音特征,選擇音素作為子詞單元,然后就可以進行HMM訓練,首先用一種很粗糙的方法進行初始分段,然后向前向后算法或K-均值算法用于多次迭代,自動收斂到一個最佳的模型,并實現了一個合理的子詞分割。這樣就可以初步完成俄語的聲學建模,建設一個俄語語音參考模式庫。

2.3.2 統計語言模型

自然語言處理問題必然要乃至統計語言模型[17],如語音識別、機器翻譯、分詞、詞性標注等等。統計語言模型是計算概率的模型,即。使用語言模型,可以確定一個單詞序列的概率,或給定一個單詞的數目,它可以預測下一個最有可能的單詞。

那么如何計算一個句子的概率呢?給定句子(詞語序列),它的概率可以表示為:

由于上式中的參數過多,因此需要近似的計算方法。下面介紹適用于俄語的n-gram統計語言模型。

n-gram模型即n-1階馬爾科夫模型,首先假設:當前詞的出現概率僅僅與前面n-1個詞相關。因此(1)式可以近似為:

當n值為1、2、3時,n-gram模型分別稱為unigram、bigram和trigram語言模型。n-gram模型的參數就是條件概率。N取值越大,模型越準確但計算越復雜計算量越大。在俄語語言模型的建立過程中,采用最多是二元模型和三元模型。

2.3.3 連續語音識別系統的性能評測

評定連續語音識別系統的優劣,觀測系統的性能,一般都是針對不同的識別任務,不同的任務單詞庫和任務語句庫,需要不同的評價標準。如果要想粗略地評估某個系統,可以從兩個方面去考慮,一是系統識別任務的難易程度即復雜性;另一個是采用該系統的識別系統的識別方法對該難度的識別任務的識別效果即識別率。在連續語音識別系統中,通過對音素、音節或詞的識別率進行識別性能評價,常用的系統參數是正確率(正確率),錯誤率和識別準確率。

其中的正確數、轉換數、插入數和脫落數,采用主觀的方法來目測,馬可以通過統計的方法來得到。

2.4 HTK工具

語音識別過程涉及的算法復雜,其中最為著名的HTK由劍橋大學研發,主要用來建立基于HMM的大規模連續語音識別系統。該軟件集為開放源代碼,可以在UNIX/Linux和Windows環境下運行。HTK提供了一系列命令函數用于語音識別,包括一系列的運行庫和工具,使用基于ASNIC模塊化設計,可以實現語音錄制、分析、標示、HMM的訓練、測試和結果分析。整個HTK的工作過程包括數據準備、模型訓練和識別過程。

3 語音識別的應用

隨著計算機技術的進步、算法的不斷優化、信息處理技術的智能化,俄語語音識別技術的發展會越來越光明。應用的范圍也會越來越廣,可能會出現一些新的應用。

1)俄語語音信息檢索

網絡技術和多媒體技術的迅速發展,數據量急劇增多,如何在海量數據中挑選出有用的信息,并進行相應的分類和檢索,對合理地利用信息資源具有重要的意義。多媒體檢索技術應運而生。

2)俄語發音自學技術

非母語語言學習成為目前教育領域的一個熱點,而自學是語言學習的一個有效途徑,它具有不受時間和空間限制、靈活方便的特點,一種稱為計算機輔助語言學習的技術誕生了。有幾個普通問題和關鍵技術是必須要考慮和解決的:標準發音語料庫和非標準發音語料庫、學習者發音的分級標準、語音對齊、衡量發音質量的評判標準和發音矯正。

3)基于俄語語音情感處理

人與人的交流,除了語言信息外,非語言信息也起著非常重要的作用,包含在語音信號中的情感因素[18],也反映了信息的一個方面。情感的分析和識別也是一個非常困難的研究方向。

4)嵌入式俄語語音識別技術

后PC時代智能終端的飛速發展,為人機之間的自然、快捷交互提供了可能。當前嵌入式語音識別的應用領域還比較有限,未來應用可能會更加廣泛。

4 總結

語音識別技術的實用研究是一項極具挑戰性的工作,雖然經歷了近半個世紀的發展,取得了一些突破性的進展。語音識別技術在俄語方面的應用更是如此,不僅要解決語音識別技術本身的問題,還要解決高質量的俄語語音語料庫和文本語料庫的問題,同時還要解決各種算法與俄語適應和匹配等其他問題,如俄語自然語言的識別與理解、俄語語音信息的變化范圍與幅度、俄語語音的清晰度、俄語語音發音與環境噪聲及上下文的影響等等。雖然面臨諸多困難,但是隨著人類文明的不斷發展與科技的不斷進步,相信這些問題會在不久的將來逐一得到解決,展現在人們面前的是更加流暢、更加智能的人機交互界面。

參考文獻

[1] 趙力.語音信號處理 [M].北京:機械工業出版社,2011:191-215.

[2] 韓紀慶,張磊,鄭鐵然.語音信號處理[M].北京:清華大學出版社,2013:241-255.

[3] Karpov,K. Markov,I. Kipyatkova, et al.Large Vocabulary Russian Speech Recognition Using Syntactico-statistical Language Modeling[J].Speech Communication,2014,56(1):213-228.

[4] Alex Waibel,ToshiyukiHanazawa,Geoffrey Hinton, et al.Phoneme Recognition Using Time-delay Neural Networks[J].Acoustics, Speech and Signal Processing, IEEE Transactions on,1989,37(3):328-339.

[5] KH Davis,RBiddulph,SBalashek.Automatic Recognition of Spoken Digits[J].The Journal of the Acoustical Society of America,1952,24(6):637-642.

[6] Lawrence Rabiner.A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition [J].Proceedings of the IEEE, 1989, 77(2):257-286.

[7] Leonard E Baum,JAEagon.An Inequality with Applications to Statistical Estimation for Probabilistic Functions of Markov Processes and to a Model for Ecology[J].Bull. Amer. Math. Soc, 1967, 73(3):360-363.

[8] Leonard E Baum,TedPetrie,GeorgeSoules, et al.A Maximization Technique Occurring in the Statistical Analysis of Probabilistic Functions of Markov Chains[J].The Annals of Mathematical Statistics,1970(1):164-171.

[9] Leonard E Baum.An Equality and Associated Maximization Technique in Statistical Estimation for Probabilistic Functions of Markov Processes [J].Inequalities, 1972, 3(1):1-8.

[10] ВВ Пилипенко.Распознавание дискретной и слитной речи из сверхбольших словарей на основе выборки информации из баз данных[J].Искусственный интеллект,2006(3):548-557.

[11] ВВ Савченко,ДЮ Акатьев,НВ Карпов.Автоматическое распознавание элементарных речевых единиц методом обеляющего фильтра[J].Изв. вузов России. Радиоэлектр оника,2007(4):35-42.

[12] ВВ Савченко.Автоматическое распознавание речи на основе кластерной модели минимальных речевых единиц в метрике Кульбака-Лейблера[J].Известия ВУЗов России.CРадиоэлектроника,2011(3):9-19.

[13] ВВ Савченко.Фонема как элемент информационной тео рии восприятия речи[J].Известия ВУЗов России.CРадиоэ лектроника,2008(4):3-11.

[14] ВЛ Розалиев.Построение модели эмоций по речи человека[J].Г л а в н ы й р е д а к т о р с б о р н и к а" Известия ВолгГТУ" д-р хим. наук проф. член-корр. РАН ИА Новаков, 2007(1):65.

[15] ВЯ Чучупал,КА Маковкин,АВ Чичагов.К вопросу об оптимальном выборе алфавита моделей звуков русской речи для распознавания речи[J].Искусственный интеллект,2002,4(1):575-579.

[16] ДН Бабин,ИЛ Мазуренко,АБ Холоденко.О перспектив ах создания системы автоматического распознавания сли тной устной русской речи[J].Интеллектуальные системы,2004,8(1):45-70.

第8篇

關鍵詞:語音識別;神經網絡;遺傳算法;遺傳神經網絡

中圖分類號:TP183文獻標識碼:A文章編號:1009-3044(2008)22-774-03

Research of Speech Recognition Based on Genetic Neural Network

ZHAO Feng

(Computer School of Wuhan University,Wuhan 430081,China)

Abstract:This Paper mainly studies the application of the BP neural network in the research of speech recognition. BP neural network can get higher identification precision, but its training speed is very low. a new recognizing algorithm based on BP algorithm by combining with the good effect method in ANN which named genetic algorithm(GA) was proposed and used to improve the BP neural network . Experiment results show that the training speed can be accelerated by the method and the recognition performance is also promoted.

Key words: speech recognition; neural network; genetic algorithm; genetic neural network

1 引言

語音識別SR(Speech Recognition)是指讓機器聽懂人說的話,即在各種情況下,準確地識別出語音的內容,從而根據其信息,執行人的各種意圖[1]。現代語音識別技術以神經網絡為主要發展趨勢,進入20世紀90年代以來,神經網絡已經成為語音識別的一條重要途徑。由于神經網絡反映了人腦功能的基本特征,故具有自組織性、自適應性和連續學習能力等特點,特別適合于解決像語音識別這類模擬人的認知過程和智能處理能力,難以用算法來描述而又有大量樣本可供學習的問題[2]。

人工神經網絡(ANN)是采用大量的簡單處理單元廣泛連接起來構成的一種復雜信息處理網絡。網絡的訓練學習是應用一系列輸入矢量,通過已確定的算法逐步調整網絡的權值,最終達到期望的目標。BP神經網絡是神經網絡中前向神經網絡的核心部分,BP算法的學習過程由信號的正向傳播和誤差的反向傳播組成。隨著誤差逆傳播修正的不斷進行,網絡對輸入模式響應的正確率不斷上升。然而BP算法是一種梯度下降算法,梯度下降存在多極值問題,且BP網絡學習訓練速度慢,容易陷入局部最小或振蕩。因此,參數的選擇非常重要。為克服標準BP算法存在的各種缺點,本文研究用BP算法結合人工智能領域較為有效的方法――遺傳(GA)算法來訓練網絡進行語音識別,仿真實驗表明,GABP算法使BP網絡在收斂速度上有了很大提高,尤其是克服了容易陷入局部最小值的缺點,基于GABP的語音識別系統的最高識別率和平均識別率都有了很大的提高。

2 語音識別的基本原理

大部分基于神經網絡的語音識別系統實現識別功能都要經過從特征參數提取到應用識別算法進行識別的過程,該過程如下圖1所示:

圖1 語音識別系統原理框圖

該文主要面向孤立數字識別系統作一些改進研究,其基本識別過程也符合上圖1描述:輸入的語音信號首先進行預處理,包括抗混疊濾波、聲音的預加重、加窗分癥處理與端點檢測等。預加重的目的是在于濾出低頻干擾,尤其是50Hz或60Hz的工頻干擾,將對于語音識別更為有用的高頻部分的頻譜進行提升,以便于語音參數分析。

預加重濾波器傳遞函數為: H(Z)=1-0.9375Z-1(1)

若S(n)為預加重前語音信號,則經過預加重濾波器后得到的信號■(n)為:

■(n)= S(n)-0.9375 S(n-1)(2)

該文主要完成孤立數字識別,所要求識別的字數不多,對環境的噪聲的適應能力的要求也并不高,因此采用了目前比較流行的雙門限端點檢測算法,借助于語音信號短時平均能量和短時過零率來判定語音有效范圍的開始和結束。

語音信號經過預處理后,接下來很重要的一環就是進行特征提取,常用的特征包括短時平均能量和幅度、短時平均過零率、線性預測系數(LPC)、短時傅里葉變換和Mel頻率倒譜系數(MFCC)。語音特征參數的時間序列構成了語音的模式,將其與通過應用一系列已知信號訓練提取的參考模式逐一進行比較,獲得最佳匹配的參考模式便是識別結果。本文中對于預處理的每個有效語音信號段,都要提取其12個一階MFCC系數,提取過程為:用漢明窗將語音切割成長短一致的語音幀,對每幀語音進行正反傅里葉變換,經對數和離散余弦變換后取前12個數作為MFCC系數來描述每一個幀。最后將每個語音信號對應的MFCC系數序列用K-means聚類算法進行聚類,分為4個聚類,使得每個語音信號都得到相應的12個4維一階MFCC系數,即可作為語音的特征參數成為神經網絡的輸入信號。

3 語音識別中的BP網絡構造

語音識別中的BP網絡構造主要包括輸入層、隱層、輸出層、初始權值、學習速率與期望誤差的選取幾個方面的問題。

1) 網絡層數:理論上,在不限制隱層節點數的情況下,兩層(只有一個隱層)的BP網絡可以實現任意非線性映射。當模式樣本很多時,減小網絡規模,增加一個隱層是必要的,但BP網絡隱層數一般不超過兩層。本文所要求識別的模式樣本不多,因此一個隱層已經足夠。

2) 輸入層節點數:在BP網絡語音識別系統中,輸入層節點數與選取的語音信號特征參數的維度和階數有關。本文中每個語音信號都得到相應的12個4維一階MFCC系數,故輸入層的節點數為12×4=48。

3) 輸出層節點數:輸出層的節點數取決于輸出數據的類型和表示該類型所需的數據大小。當BP網絡用于語音識別時,以二進制形式來表示不同的識別結果,則輸出層的節點數可根據訓練模板的語音數來確定。本文設定輸出節點數為10,分別對應于0~9這10個數字。

4) 隱層節點數:通過采用一個隱層,增加其神經元數的方法來達到網絡訓練精度的提高,這在結構上,要比增加更多的隱層簡單的多。但究竟選取多少個隱層節點才合適?在理論上并沒有個明確的規定。在具體設計時,比較實際的做法是通過對不同神經元數進行訓練對比,然后適當的加上一點余量[4]。一般可利用下面式子決定:

n1=■+a(3)

其中n1為隱層節數;m為輸入節點數;n為輸出節點數;a為取1~10的常數。本實驗中輸入節點數為48,輸出節點數為10,a選取為常數4,因此隱層節點數n1=12。

5) 初始權值:由于系統是非線性的,初始值對于學習是否達到局部最小、是否能收斂以及訓練時間的長短關系很大。一般總是希望經過初始加權后的每個神經元的輸出值都接近于零。所以,一般取初始值在(-1,1)之間的隨機數。

6) 學習速率與期望誤差的選取:學習速率決定每一次循環訓練中所產生的權值變化量。小的學習速率雖然會導致收斂速度慢,不過能保證網絡的誤差值不跳出誤差表面的低谷而最終趨于最小值。所以,一般情況下,學習速率的選取范圍在0.01~0.8之間。期望誤差0.000001。

解決了上述幾個方面的問題后,本文采用三層結構神經網絡,如圖2所示:輸入層各節點將輸入信號經權重藕合到隱層的每個節點,隱層各節點對來自前一層的信號加權,經激發函數轉換后再藕合到輸出層。

4 基于遺傳神經網絡的語音識別

本文研究引用遺傳算法對網絡的初始連接權值進行優化處理,用BP算法完成給定精度的學習。

4.1 個體編碼方案

編碼對于網絡進化過程的性能和效率影響很大,因此,編碼技術是連接權值進化過程中學解決的首要問題和關鍵步驟。本文中考慮到BP網絡的節點數和結構已經固定,可以采用實數編碼方案,將網絡的權值和各節點的閥值依此排列得到一個向量。

假設一個具有m個節點的n層BP網絡,如果第i個節點對應的權值分別為vi(vi[-1,+1]),則一個個體用實數向量表示為X=(v1,v2,…vm)。

4.2 適應度函數的選擇

一個網絡連接權值優劣的標準,是根據網絡對一組輸入得到的實際輸出與期望輸出之間的誤差大小來制定的。BP網絡中誤差平分和小,則表示該網絡性能比較好。本文中適應度函數為:

f(x)=■(4)

其中,E為神經網絡的輸出誤差,即:

■(5)

其中n為學習樣本總數,yk,■k為第k個個體的期望輸出和實際輸出向量。

4.3 進化參數

連接權的進化過程中所涉及到的主要進化參數有:種群規模、交叉率、變異率和進化代數等等。交叉是最主要的進化操作,交叉率是指各代中交叉產生的后代數與種群規模之比。常用的交叉率取值范圍為0.6~1.0。變異率是指種群中變異的基因數占總基因數的比例,其值控制了新基因引入的比例。常用變異率的數量級范圍為0.1~0.001。 種群規模是連接權進化過程首先需要確定的參數,是算法會否陷入局部解的主要影響因素。綜合考慮BP網絡的初始連接權值和交叉率、變異率的選擇,這里選擇種群規模為50。

5 仿真實驗結果

仿真實驗為針對非特定人的孤立數字詞語音識別。語音數據由二男二女(0到9共10個數字的普通話發音)通過PC話筒輸入,每個音每人發20遍,共計1000次發音,其中以每人每個音的前10次作訓練樣本,后10次作測試樣本,錄音環境為安靜實驗室,采樣頻率為11.025kHz。

經過反復實驗,不斷改善實驗環境,基于演化神經網絡的識別得到了相對較高的識別率。對實驗結果分析可知,結合了GA算法的BP網絡通過GA全局搜索得到一個權值最優解,只迭代了151次便使得誤差值為0.000001 ,而普通BP算法要迭代517才能勉強達到期望誤差,由此可知,結合了GA算法的BP網絡避免了局部極小,減低了學習速率,提高了收斂速度。

表1 基于遺傳神經網絡與普通BP網絡語音識別系統對比表

通過表1對比可知,基于演化神經網絡識別算法的語音識別系統無論是在訓練時的收斂速度還是在最后的識別率上,都要優于普通的BP網絡語音識別系統。

6 結論

語音信號處理和神經網絡均是目前研究的熱點,文章主要針對語音識別的特點,結合人工智能領域兩種比較有效的方法――BP網絡和GA算法,構建了一種基于遺傳神經網絡的語音識別算法。仿真實驗結果表明,該算法避免了傳統BP算法容易陷入局部極小的缺點,減低了訓練時間,有效的提高了系統識別率。

參考文獻:

[1] 趙力.語音信號處理[M].北京:機械工業出版社,2003.

[2] 蔡蓮紅,黃德智,蔡銳.現代語音技術基礎于應用[M].北京:清華大學出版社,2003.

[3] 易克初.語音信號處理[M].北京:國防工業出版社,2000.

[4] 孫寧,孫勁光,孫宇.基于神經網絡的語音識別技術研究[J].計算機與數字工程,2005,34(3):58-61.

[5] 何英.Matlab擴展編程[M].北京:清華大學出版社,2002.

第9篇

摘要:介紹了一種基于HTK的語音撥號系統設計方案。方案中以HMM實驗工具包HTK3.3為工具,通過對撥號語音提取39維MFCC特征參數,采用基于模板匹配的訓練方法,完成了撥號語音識別系統的構建,并對該系統進行了性能分析。

關鍵詞:語音撥號;模式識別;隱馬爾科夫模型;隱馬爾科夫工具箱;Mel頻率倒譜系數

中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2009)28-7932-02

Design and Analysis of A Voice Dialing System Based on HTK

CHEN Xin-rui1, JIANG Zheng-feng2, LU Shi-peng1

(1.Electronic Engineering Institute of Guangxi Normal University, Guilin 541004, China; puter Science and Information Engineering Institute of Guangxi Normal University, Guilin 541004, China)

Abstract: Introduced a HTK-based voice dialing system design.Used HTK3.3 as a tool and used training method based on template matching,by extracted 39-dimensional MFCC feature parameters of the dial-up voice, has completed the digit dialing speech recognition system's construction, and has carried on the performance analysis to this system.

Key words: voice dialing; pattern recognition; HMM; HTK; MFCC

信息科技的快速發展,使得數字語音撥號系統的推廣應用日益廣泛。語音撥號的實用化會在眾多場合給人們帶來便捷,如司機開車、黑夜或盲人撥打電話時,用手指撥電話號碼是很不方便或不安全的,而最自然的方式就是采用語音撥號,因此具有語音識別能力,能夠進行聲音撥號的系統,有著較好的市場前景,對于高性能低成本的數字語音識別系統的研究具有很強的應用價值。HTK(HMM tools kit)是劍橋大學開發的一個專門用于建立和處理HMM的實驗工具包,主要應用于語音識別領域,也可以應用于語音合成、字符識別和DNA排序等領域,它有著源代碼開放以及基于ANSI C的模塊化設計等特點,可以方便地嵌入到用戶系統中。

1 基于HTK的語音撥號系統的構建

隱馬爾可夫模型(Hidden Markov Model)即HMM是現今語音識別的主流技術,目前大多數的語音識別系統都是基于它的。要把HMM應用于實際,必須解決的三個基本關鍵問題是[1]:1)輸出概率的計算問題:給定觀察序列O=O1,O2,…,OT和HMM模型λ=(π,A,B),如何計算觀察序列對HMM模型的輸出概率P(O|λ)。2)狀態序列解碼問題:給定觀察序列O=O1,O2,…,OT和HMM模型λ=(π,A,B),如何確定一個最優的狀態轉移序列q=(q1,q2,…,qT)。3)模型參數的估計問題:如何調整λ=(π,A,B)的參數,使P(O|λ)最大。針對上述問題,前人分別提出了三種解決方法即前向-后向算法、Viterbi算法、Baum-Welch算法。本文在把HMM應用于語音識別時采用連續混合密度HMM模型,以摒棄離散HMM模型因矢量量化而造成的語音信號丟失的不足,并選擇了從左到右、有跳變的HMM結構。連續HMM語音識別具體實施方案:1)端點檢測;2)提取MFCC參數和一階差分MFCC參數;3)對數形式Viterbi算法;4)將訓練所得的HMM模型用于對訓練集和測試集的識別,得到識別結果并保存。其征參數的選擇與提取是語音識別的關鍵任務。Mel頻率倒譜系數(MFCC) 將人耳的聽覺感知特性和語音的產生機制相結合, 是將頻譜轉換為基于Mel頻標的非線性頻譜,然后轉換到倒譜域上,因而被目前大多數語音識別系統所采用。Mel頻率倒譜系數(MFCC)的提取過程如圖1所示。圖中s(n)為原始語音信號,x(n)為分幀后的時域信號,預加重是將語音信號 s(n) 通過一個高通濾波器H(z)=1-a*z-1,文中取預加重系數a=0.9375,加漢明窗,用工具Hsigp可完成預加重和分幀。分幀時幀長和幀移的大小由信號的采樣頻率決定。X(k)為線性頻譜,s(m)為Mel能量譜取對數,c(n)為Mel頻率倒譜系數,c^(n)為所求的MFCC特征參數。

HTK工具箱中比較重要的兩個文件夾是HTKLib和HTKTools。HTKLib里面包含了語音信號處理所用到的資源文件,如內存分配(HMem)、信號處理(HSigP)、參數產生(HParm)、數學計算((HMath)等,這些模塊構成了HTK的主體結構;HTKTools作為入口程序,利用上述文件夾里面的庫文件,通過對源文件進行調用,鏈接生成一些可以執行的程序。根據HTK語音識別原理,搭建一個語音識別系統一般分為四步: 數據準備,模型訓練,模式識別和模型分析。其語音識別系統框圖如圖2所示。也可理解為包括語音信號預處理、特征提取、特征建模(建立參考模板庫)及模式匹配等幾個功能模塊,即訓練和識別兩個階段。

漢語普通話是以字為單元的,從聲學角度看,漢語中一個字就對應一個音節。音節結構的顯著特點是聲、韻母結構,一般每一個音節都有韻母,因而音節劃分成聲韻母音素作為識別單元符合漢語特點,也將推動漢語語音識別向大詞匯量連續語音識別的方向不斷發展。在本系統中分別采用了不同的識別單元,并建立了不同字典。對于語音撥號電話類的系統,它要求能夠識別用戶的語音輸入,主要是人名和電話號碼的語音識別。

系統所用語音數據由CoolEdit2.1軟件錄制,數據采樣率為16000Hz,量化精度為16bit,是一個人的200個語音樣本,其中100樣本作為訓練集,另外100樣本作為測試集,包含有14個不同的電話號碼以及6個人名,錄制環境為實驗室。系統用工具Hcopy對撥號語音提取39維的梅爾倒頻譜參MFCC包括12階的頻譜值加上能量值,并取其一階差分作為語音特征參數,聲學模型狀態數目分別為:音節狀態數6個、聲母狀態數3個、韻母狀態數6個、靜音狀態數3個、間隔符狀態數1個。系統的概要構建步驟是:在定義任務語法后通過HParse轉成HTK可用的底層表示。使用任務語法產生真值文本,再進行字典定義,用工具HLEd通過一個轉換規則文件,將詞級的mlf文件轉換為音節級的mlf文件,用工具HCopy進行特征提取,用工具HCompV計算訓練數據的均值與方差,采用工具HERest對HMM模型進行訓練,再進行重復估算,建立一個識別結果輸出的目錄,執行HVite進行Viterbi校準,將所有用到過的字,全部列表到wordlist文件中進行識別得到最終識別結果。

2 語音撥號系統性能分析

在系統測試中,分別采用三種不同的語音識別單元進行識別實驗,并且增加高斯分量個數以測試其對識別的影響情況,得到的實驗結果如表1所示。本文用到的識別率有三種,分別為句識別率(SRR)、詞識別率(WRR-WC)和考慮插入錯誤的詞識別率(WRR-WA)。

從表1中的識別結果可以得出這樣的結論:不含間隔的音節作為聲學模型識別效果是最好的,而有間隔的音節要比聲、韻母效果要好。[2]高斯混合分量個數的增加加大了語音擬合效果從而使對應識別單元的識別率有所提高。因而對于漢語連續數字和連續詞結合的語音識別,可以選擇音節作為聲學模型,以提高系統的識別率。對于特定人的語音識別,當訓練語音集越大時,識別率就越高。該系統的識別包括兩部分語音的識別,電話號碼的識別和人名的識別,兩者的組合識別要比單獨識別的識別率低。由于待識別語音的漢字或者數字在排序上存在著相互重合的現象,因此有必要建立一個最優的語音識別網絡,從而提高系統的識別率。

參考文獻:

[1] Rabiner L R,Fellow.IEEE A Tutorrial on Hidden Markov Models and Selected Applications in Speech Recognition[C].Proceedings of the IEEE,1989,77(2).

[2] 蔣正鋒.基于HTK的漢語連續數字語音識別研究[D].廣西師范大學碩士研究生學位論文,2008

[3] Flandrin P,Gabriel Rilling G,Goncalves P.Empirical mode decompositon as a filter bank[C].IEEE Signal Processing Letters 2004,11(2):112-114.

[4] Benjamin J S,Kuldip K P.Feature extraction form higher-lag autocorrelation Coefficients for robust speeeh recognition[J].Speech Communication,2006(48):1458-1485.

[5] 趙力.語音信號處理[M].北京:機械工業出版社,2003.

[6] 侯周國.基于HMM的漢語數字語音識別系統研究[D].湖南師范大學碩士研究生學位論文,2006.

[7] 胡航.語音信號處理[M].哈爾濱:哈爾濱工業大學出版社,2000:20-24

[8] 蔡蓮紅,黃德智,蔡銳,等.現代語音技術基礎與應用[M].北京:清華大學出版社,2003.

国产精品123区| 欧美日韩成人激情| 久久蜜桃精品| 日韩毛片视频| 国产精品极品在线观看| 亚洲性受xxx喷奶水| √新版天堂资源在线资源| 亚洲国产精品无码久久| 日韩精品久久久久久久| 极品蜜桃臀肥臀-x88av| 久久久国产精品久久久| caopor在线视频| 国产精品无码电影在线观看| 精品国产乱码久久久久久蜜柚| 欧美一级高清免费| 欧美成人一区在线| 亚洲国产精彩中文乱码av在线播放| 色噜噜狠狠成人中文综合| 中文字幕一区二| 26uuu欧美| 国产乱码一区二区三区| 亚洲综合欧美| 精品999日本| 欧美a级一区| 五月亚洲婷婷| 9999精品免费视频| 99久久久国产精品免费调教网站 | 美女脱光内衣内裤视频久久网站| 欧美日韩国产高清| 欧美成人激情| 色综合久久一区二区三区| 婷婷精品在线| 亚洲影院天堂中文av色| 伊人久久大香伊蕉在人线观看热v| 黄色aa久久| 嗯啊主人调教在线播放视频 | 毛片一区二区三区四区| bt天堂新版中文在线地址| 亚洲av首页在线| 黄色a级在线观看| 香蕉精品视频在线| 亚洲欧美日韩精品在线| 亚洲看片网站| 天天爱天天做天天操| 激情五月五月婷婷| av电影一区二区三区| 女同性恋一区二区| 久久99中文字幕| 久久婷婷五月综合色国产香蕉| 日本一道本久久| 北条麻妃在线一区| 日本免费色视频| 四川一级毛毛片| 中文字幕精品久久久| a视频免费观看| 久久久久无码精品国产sm果冻| 精品无人区无码乱码毛片国产| 性欧美一区二区| 国产又粗又硬又长又爽| 欧美成人精品欧美一级| 欧美日韩一级大片| 69亚洲精品久久久蜜桃小说| 亚洲天天综合网| 亚洲av无码乱码在线观看性色| 日本成人动漫在线观看| 视频在线不卡| dy888亚洲精品一区二区三区| 黄页在线观看免费| 中文在线手机av| 日韩欧美另类一区二区| 国产一区二区色噜噜| 99久久香蕉| sdde在线播放一区二区| 亚洲经典在线| 国产在线视频不卡二| 成人永久aaa| 中文字幕国产精品一区二区| 亚洲午夜精品网| 精品视频在线免费看| 精品国产在天天线2019| 中文字幕亚洲第一| 欧美在线影院在线视频| 国产成人高清激情视频在线观看 | 久久大大胆人体| 国产精品com| 国产精品久久久久av福利动漫| 欧美日韩国产综合在线| 日韩在线视频在线| www.精品在线| 少妇被狂c下部羞羞漫画| 一区二区视频免费看| 中文字幕一区二区在线视频| 啊灬啊灬啊灬啊灬高潮在线看| av基地在线| 色综合一本到久久亚洲91| 中日韩免视频上线全都免费| 香蕉久久a毛片| 日本一区二区高清| 欧美日韩国产影片| 日韩在线观看网站| 2014亚洲精品| 免费在线观看视频a| 精品人妻一区二区三区日产乱码卜| 久久久国产高清| 在线中文字幕av| 日韩不卡在线| 中文字幕人成人乱码| 成人福利视频网站| 91国偷自产一区二区开放时间| 综合国产在线视频| 91成人免费在线观看| 黄色免费视频大全| 亚洲综合久久av一区二区三区| 亚洲国产精品国自产拍久久| 欧美伦理91| 亚洲成人二区| 国产亚洲精品免费| 亚洲第一网中文字幕| 国产精品激情av电影在线观看| 欧美精品一区二区性色a+v| 国产午夜在线一区二区三区| www.久久视频| 成人在线观看亚洲| 精品视频亚洲| 91视频com| 精品欧美一区二区久久| 国产精品旅馆在线| 欧美 国产 日本| 国产探花在线免费观看| 亚洲第一成年免费网站| 精品一区二区三区中文字幕视频 | 三级不卡在线观看| 午夜成人免费视频| 欧美精品免费看| 欧美日韩亚洲国产成人| 中文字幕欧美激情极品| 一二三四社区在线视频| 国产日本亚洲| 久久99精品国产麻豆婷婷| 色综合久久久久综合| 欧美精品久久久久久久久久| 视频一区二区视频| 黄色录像一级片| 国产一级免费在线观看| 亚洲小说图片视频| 久久综合久久综合久久| 亚洲精品福利免费在线观看| 国产精品免费一区二区| 美女又黄又免费的视频| 精品国产九九九| 精品176极品一区| 久久激情综合网| 欧美理论片在线| 91网站免费看| 亚洲欧美高清在线| 超碰在线人人| 久久国产精品美女| 成人av综合在线| 亚洲福利小视频| 精品久久一区二区三区蜜桃| 右手影院亚洲欧美| 在线观看黄色| 欧美色女视频| 亚洲桃色在线一区| 欧美精品久久久久久久久久| 少妇高潮毛片色欲ava片| 欧美啪啪小视频| 伊人成综合网站| 热久久免费视频| 日韩女优毛片在线| 久99久视频| 精品亚洲乱码一区二区| 成人a在线视频免费观看| 欧美精品网站| 色激情天天射综合网| 成人h视频在线观看播放| 精品国产免费久久久久久婷婷| 五月婷婷六月色| 狠狠做六月爱婷婷综合aⅴ| 国产精品初高中害羞小美女文| 欧美成人免费大片| 日韩av片在线看| 国产特级黄色片| 成人精品毛片| 国产精品高清亚洲| 欧美一区二区色| 国产男女无遮挡猛进猛出| 最新四虎影在线在永久观看www| 国产一区二区三区四区五区| 亚洲一区二区三区精品在线| 国产精品27p| 久久人妻少妇嫩草av蜜桃| 亚洲欧洲成人| 影音先锋国产精品| 欧美精品在线观看一区二区| 热舞福利精品大尺度视频| 破处女黄色一级片| 欧美aa视频| 99久久综合国产精品| 久久国产精品99国产精| 天堂中文视频在线| 污视频网站免费观看| 精品日本12videosex| 欧美日韩一区二区精品| 97超级碰碰| 欧美偷拍第一页| 日韩中文影院| 国产视频一区二区在线观看| 55夜色66夜色国产精品视频| 看全色黄大色黄女片18| 浪潮av一区| 国产在线国偷精品产拍免费yy| 中文字幕最新精品| 91极品视频在线观看| 日产精品久久久久久久性色| 午夜在线观看免费一区| 日韩久久精品成人| 虎白女粉嫩尤物福利视频| 在线国产网址| 久久亚洲图片| 最近2019中文字幕第三页视频 | 久久综合色鬼综合色| 欧美专区国产专区| 丰腴饱满的极品熟妇| 最新日韩精品| 中文字幕一区二区三区不卡 | 欧美日韩一区二区国产| 欧美va亚洲va在线观看蝴蝶网| youjizz.com在线观看| jizz中国少妇| 国产精品红桃| 一区二区亚洲欧洲国产日韩| 欧美精品色视频| 午夜激情在线| 久久久久久综合| 成人午夜激情免费视频| 久久久精品视频免费| 久久综合社区| 欧美日韩中字一区| 日韩精品xxxx| freemovies性欧美| www.欧美色图| 国产有码一区二区| 毛片基地在线观看| 欧美精选一区二区三区| 欧美一区在线视频| 国产精品专区在线| 亚洲欧美强伦一区二区| 成人综合一区| 日韩精品一区二区三区中文精品| 日韩不卡一二区| 国产香蕉视频在线观看| 国产亚洲亚洲| 色综合视频一区中文字幕| www.美色吧.com| 草美女在线观看| 亚洲视频在线观看一区| 国产女主播一区二区| 久草手机在线视频| 国产精品99久久精品| 亚洲第一精品久久忘忧草社区| 国内自拍在线观看| www视频在线看| 久久亚区不卡日本| 91久久大香伊蕉在人线| 黄瓜视频在线免费观看| 影音先锋日韩在线| 亚洲欧美激情在线视频| 免费国偷自产拍精品视频| 成人性生交大片免费网站| 一区二区三区在线播放| 色综合视频二区偷拍在线| 九草视频在线观看| 精品夜夜嗨av一区二区三区| 国产成人免费av| 精品无码人妻一区二区三区| 四季av一区二区三区免费观看| 亚洲激情视频在线观看| 亚洲精品成人无码毛片| 香蕉久久一区| 欧美视频三区在线播放| 日本黄色三级大片| 国产三级在线| 久久久久久久精| 精品视频高清无人区区二区三区| 熟妇人妻系列aⅴ无码专区友真希| 美女免费视频一区| 国产成人激情小视频| 中文字幕在线观看免费| 一本久道久久综合婷婷鲸鱼| 欧美日韩国产成人| 日韩乱码在线观看| 在线精品国产| 久久亚洲精品一区| 国产一级视频在线| 欧美91大片| 欧美精品videossex88| 黄色一级片免费看| 欧美激情四色| 两个人的视频www国产精品| 在线看成人av| 欧美一区二区| 久久久久久久久久久av| 亚洲精品77777| 很黄很黄激情成人| 午夜精品视频网站| 亚洲 小说区 图片区| 免费欧美日韩| 久久久久久久久91| 日韩欧美一级大片| 日本不卡视频一二三区| 日本高清不卡在线| 中文字幕一区二区三区免费看 | 免费在线成人网| 国产精品果冻传媒潘| 97福利网站在线观看视频| 成人小视频免费观看| 午夜精品区一区二区三| aⅴ在线视频男人的天堂| 中文字幕中文字幕在线一区| 亚洲色成人www永久在线观看| 日本三级韩国三级欧美三级| 亚洲成人免费视频| 亚洲精品乱码久久久久久动漫| 国产极品嫩模在线观看91精品| 欧美日韩一二区| 性久久久久久久久久| 激情婷婷综合| 色综合视频网站| 国产不卡av在线播放| 成人黄色国产精品网站大全在线免费观看 | 一区二区小视频| 国产一区二区在线视频| 91亚洲精品久久久久久久久久久久| 婷婷在线免费观看| 亚洲国产激情av| 北条麻妃在线视频观看| 欧美暴力调教| 精品国产a毛片| 国产亚洲精久久久久久无码77777| 亚洲精品欧美| 91在线色戒在线| jyzzz在线观看视频| 黑人巨大精品欧美一区二区免费| 国产91视频一区| www 久久久| 亚洲视频专区在线| 国产九色91回来了| 成人久久久精品乱码一区二区三区| 视频在线观看成人| 自拍偷拍亚洲视频| 亚洲国产成人精品一区二区| 中文字幕另类日韩欧美亚洲嫩草| 日本成人超碰在线观看| 久久久婷婷一区二区三区不卡| 久cao在线| 欧美午夜电影网| 最新中文字幕av| 日本怡春院一区二区| 日韩欧美视频一区二区三区四区| av毛片在线| 日韩精品视频在线观看网址| 日本在线免费观看| 成人黄色av网站在线| 日韩欧美国产综合在线| 一本一道久久a久久| 欧美一区二区三区…… | 视频一区二区不卡| 中文字幕成人一区| www.成人在线视频| 欧美—级a级欧美特级ar全黄| av加勒比在线| 中文字幕一区二区三区在线观看| 韩国三级丰满少妇高潮| 久久在线电影| 国产精品一区=区| 欧美猛烈性xbxbxbxb| 欧美成人伊人久久综合网| 久久综合色综合| 91小视频在线免费看| 日韩一级在线免费观看| 欧美视频免费| 亚洲a级在线播放观看| 免费在线观看黄色网| 日韩精品免费在线| 日韩乱码一区二区三区| 亚洲欧美福利一区二区| 美国黄色一级视频| 亚洲第一黄色| 国产精品美女诱惑| av资源网在线播放| 中文字幕精品在线视频| 亚洲精品久久久久久久久久| 精品欧美一区二区三区| 亚洲精品国产精品国自| 国产成人午夜99999| 男人的天堂日韩| 国产一区二区三区不卡av| 91九色视频在线观看| 精品众筹模特私拍视频|