摘要:傳統的語音情感識別方式采用的語音特征具有數據量大且無關特征多的特點,因此選擇出與情感相關的語音特征具有重要意義。通過提出將注意力機制結合長短時記憶網絡(LongShortTermMemory,LSTM),根據注意力權重進行特征選擇,在兩個數據集上進行了實驗。結果發現:(1)基于注意力機制的LSTM相比于單獨的LSTM模型,識別率提高了5.4%,可見此算法有效提高了模型的識別效果;(2)注意力機制是一種有效的特征選擇方法。采用注意力機制選擇出了具有實際物理意義的聲學特征子集,此特征集相比于原有公用特征集在降低了維數的情況下,提高了識別準確率;(3)根據選擇結果對聲學特征進行分析,發現有聲片段長度特征、無聲片段長度特征、梅爾倒譜系數(Mel-FrequencyCepstralCoefficient,MFCC)、F0基頻等特征與情感識別具有較大相關性。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社