摘要:【目的】自動甄別科技論文中描述研究主題的關(guān)鍵語句?!痉椒ā恳哉撐男」?jié)為單位組織句子集,通過訓(xùn)練領(lǐng)域詞向量計算句子間WMD距離得到相應(yīng)語義相似度,優(yōu)化TextRank算法迭代過程,利用外部特征對所得權(quán)值進行調(diào)整,按句子權(quán)值降序選取關(guān)鍵主題句?!窘Y(jié)果】以氣候變化領(lǐng)域科技論文作為實驗數(shù)據(jù),以人工標注的結(jié)果為基準對本文的算法和傳統(tǒng)的TextRank算法進行對比實驗,初步結(jié)果表明該方法的識別效果(F值)比傳統(tǒng)TextRank算法提升約5%?!揪窒蕖烤渥犹卣魈崛∮写岣?,詞向量訓(xùn)練及方法中的相關(guān)參數(shù)需要做進一步優(yōu)化?!窘Y(jié)論】基于領(lǐng)域詞向量,融合WMD語義相似度的TextRank改進算法,能夠較好地甄別科技論文小節(jié)內(nèi)部中心句,輔以外部特征的權(quán)值調(diào)整后可以較好地識別出一篇論文的核心主題句。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社。
現(xiàn)代圖書情報技術(shù)雜志, 月刊,本刊重視學(xué)術(shù)導(dǎo)向,堅持科學(xué)性、學(xué)術(shù)性、先進性、創(chuàng)新性,刊載內(nèi)容涉及的欄目:數(shù)學(xué)圖書館 、知識組織與知識管理、情報分析與研究 、應(yīng)用實踐 、動態(tài)、特邀專欄、金融證券管理、企業(yè)信息管理技術(shù)等。于1980年經(jīng)新聞總署批準的正規(guī)刊物。