摘要:實(shí)體識別是數(shù)據(jù)集成和數(shù)據(jù)清洗的一個(gè)重要方面.針對Pay-as-you-go數(shù)據(jù)管理需求,本文提出一個(gè)基于多路分塊的Pay-as-you-go實(shí)體識別方法.該方法不要求提供最優(yōu)的分塊或排序的鍵,并且可以直接找出臟數(shù)據(jù)集中冗余度最大的區(qū)域.分為兩個(gè)階段,初始化階段和迭代階段.在初始化階段,初步地生成候選數(shù)據(jù)對象對,并按匹配可能性排序后加入到候選隊(duì)列.在迭代階段,每次選擇候選隊(duì)列隊(duì)首的候選對(即最可能匹配的)來處理,并且根據(jù)實(shí)時(shí)的實(shí)體識別結(jié)果,動態(tài)地更新候選對的匹配可能性,調(diào)整候選隊(duì)列.這樣減少了無用的數(shù)據(jù)對象比較,使得實(shí)時(shí)的識別結(jié)果最優(yōu)化.通過在真實(shí)數(shù)據(jù)集和合成數(shù)據(jù)集上的實(shí)驗(yàn)對比,說明本文提出的基于多路分塊的Pay-as-you-go實(shí)體識別方法顯著地優(yōu)于已有工作中提出的方法.
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社。
計(jì)算機(jī)學(xué)報(bào)雜志, 月刊,本刊重視學(xué)術(shù)導(dǎo)向,堅(jiān)持科學(xué)性、學(xué)術(shù)性、先進(jìn)性、創(chuàng)新性,刊載內(nèi)容涉及的欄目:研究論文與技術(shù)報(bào)告、短文、學(xué)術(shù)通信、學(xué)術(shù)活動、中國計(jì)算機(jī)學(xué)會學(xué)術(shù)動態(tài)等。于1978年經(jīng)新聞總署批準(zhǔn)的正規(guī)刊物。