摘要:學(xué)術(shù)文獻(xiàn)是科學(xué)進(jìn)步與發(fā)展的載體,各種元數(shù)據(jù)信息包括作者、論文、期刊以及這些實(shí)體之間的關(guān)系,具有重要的價(jià)值,如何精準(zhǔn)構(gòu)建學(xué)者用戶畫像是一個(gè)具有挑戰(zhàn)性的問題。早期的用戶畫像相對簡單,區(qū)分度以及可用性都不高。本文在“2017開放學(xué)術(shù)精準(zhǔn)畫像大賽”TASK3的真實(shí)數(shù)據(jù)上,提取學(xué)者與期刊的關(guān)系和學(xué)者與論文的關(guān)系,設(shè)計(jì)關(guān)系模型并采用LSI降維技術(shù)以及文本相似度計(jì)算,對學(xué)者興趣標(biāo)簽進(jìn)行識別與評估,并進(jìn)行數(shù)據(jù)可視化分析。實(shí)驗(yàn)結(jié)果表明,使用本文提出的方法可準(zhǔn)確有效的識別學(xué)者興趣標(biāo)簽,準(zhǔn)確率為P@1=92%、P@2=94%、P@3=98%。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社