摘要:文本數據為地理知識服務提供了海量資源。面向文本數據的地理實體關系抽取是地理知識圖譜構建的核心技術,直接影響地理知識推理與服務的質量。由于文本數據不可避免地含有噪聲,從文本中抽取的地理實體關系需要質量評價和信息過濾。本文提出一種基于通用知識庫的地理實體關系過濾方法,針對已抽取的地理實體關系從中篩選出高質量的結果:先利用"本體知識"、"事實知識"和"同義詞知識"構建地理關系知識庫,作為信息過濾的參照數據;再基于分布式向量表示模型度量已抽取的地理實體關系與參照數據之間的語義相似性,以提高地理知識圖譜的豐度與鮮度。實驗結果表明,相比業界流行的"Stanford OpenIE"工具,本文所提出的方法可將置信度區間[0, 0.2]和[0.8, 1]的MSE(Mean Square Error)從59.27%降至3.94%,AUC(Area Under the ROC Curve)從0.51提升至0.89。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社