摘要:為有效地分類出多個熱門主題興趣的作者群體,提出了一種基于綜合特征和最大二元組的文本分類框架,該分類框架針對DBLP數據集.分類框架的核心是構建雙邊圖和對標題進行準確分類.第一階段從DBLP數據集中提取標題,為保證提取的標題和主題的正確映射,采用綜合特征進行分類,即辨識特征和語義特征的結合;第二階段構建雙邊圖,生成多個“主題—作者”的最大二元組聚類,獲得作者集合.與其他類似方法相比,本文的分類框架在準確率、召回率和F1測度方面具有更好的優勢,能以較高精度識別出相似熱門主題的最大聚類.
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社