摘要:在中文關系抽取任務中,數據稀疏和噪聲傳播問題是其研究難點。基于此,提出了在文本特征組織方面融合位置特征、最短依存特征和N-gram特征等多元特征,并提升關鍵性特征的權重,以緩解傳統詞特征的數據稀疏問題。這種組合特征進一步改善了文本中噪聲傳播問題,提高了句法特征在稀疏性問題下的可靠性。此外,在傳統的雙向LSTM神經網絡中加入注意力機制,使模型更關注較為重要的特征,降低噪聲對抽取任務的影響。在人物關系公開語料集上進行實驗,結果表明采用該方法進行中文文本關系抽取的效果較好,并為信息抽取、知識圖譜等領域提供了方法支持。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社