摘要:【目的】在傳統統計特征詞算法的基礎上,添加實體特征對10本古代典籍進行分類研究。【方法】基于支持向量機模型,分別采用傳統的TF-IDF、信息增益、卡方檢驗、互信息4種統計量計算特征詞,再加入命名實體這一特征,驗證分類器的分類效果。【結果】加入實體特征之后分類器的最高精度達98.7%。在傳統的信息增益、TF-IDF、互信息和卡方檢驗特征計算下的分類精度分別提高12.4%、12.4%、12.3%、22.8%。【局限】將實體特征遷移到其他文本有一定的局限性,需要重新標注識別實體。【結論】實體可以作為一類特征應用到文本分類模型中,具有實際的應用推廣價值。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社