摘要:垃圾短信已日益成為影響人們日常生活的嚴重問題,由于短信屬于短文本,長度較短,特征稀疏,尤其是垃圾短信為逃避過濾機制,其結構和內容常常不規范,所以傳統的文本特征提取方法并不能完全適用于短信分類。從短信的結構及語義兩個角度提取特征項,并建立語義特征詞表,采用基于多特征融合的方法來向量化表示短信文本。針對短信數據集中存在的噪聲及數據不平衡問題,分別比較了NB、SVM、DT、LR、MLP、RF分類器的性能差別。實驗表明,采用RF分類算法,能有效減弱噪聲干擾及數據不平衡性所帶來的影響。通過在CCF2015中國好創意競賽題目“垃圾短信基于文本內容識別”所提供的數據集上進行驗證,取得了很好的效果。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社