摘要:短文本聚類在數據挖掘中發揮著重要的作用,傳統的短文本聚類模型存在維度高、數據稀疏和缺乏語義信息等問題,針對互聯網短文本特征稀疏、語義存在奇異性和動態性而導致的短文本聚類性能較差的問題,提出了一種基于特征詞向量的文本表示和基于特征詞移動距離的短文本聚類算法。首先使用Skip—gram模型(Continuous Skipgram Model)在大規模語料中韌I練得到表示特征詞語義的詞向量;然后利用歐式距離計算特征詞相似度,引入EMD(Earth Mover,SDistance)來計算短文本間的相似度;最后將其應用到Kmeans聚類算法中實現短文本聚類。在3個數據集上進行的評測結果表明,效果優于傳統的聚類算法。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社