摘要:地址解析是地理編碼的核心任務(wù)之一,而混亂的地址標(biāo)準(zhǔn)、隨意的中文地址表達(dá)給地址解析帶來(lái)了極大困難。該文提出一種基于條件隨機(jī)場(chǎng)的非規(guī)范化中文地址解析方法。一方面,綜合分析各種非規(guī)范化地址要素的類型特征,在現(xiàn)有標(biāo)注體系基礎(chǔ)上設(shè)計(jì)出一套優(yōu)化的地址要素分類標(biāo)注體系,并制定特征模板,然后采用自訓(xùn)練半監(jiān)督學(xué)習(xí)與人工標(biāo)注互補(bǔ)融合的策略,獲取大量高質(zhì)量的已標(biāo)注語(yǔ)料供模型訓(xùn)練;另一方面,挑選已標(biāo)注語(yǔ)料訓(xùn)練條件隨機(jī)場(chǎng)模型,實(shí)現(xiàn)對(duì)地址要素的自動(dòng)解析。選取廣東省博羅縣30 000條地址進(jìn)行算法驗(yàn)證和解析性能評(píng)測(cè)。實(shí)驗(yàn)表明,與其他語(yǔ)料標(biāo)注方法相比,該方法在獲取有效地址解析的同時(shí),顯著降低了標(biāo)注成本。結(jié)果表明,該方法適用于地理編碼領(lǐng)域中大規(guī)模非規(guī)范化中文地址的自動(dòng)解析。
注:因版權(quán)方要求,不能公開(kāi)全文,如需全文,請(qǐng)咨詢雜志社。
地理與地理信息科學(xué)雜志, 雙月刊,本刊重視學(xué)術(shù)導(dǎo)向,堅(jiān)持科學(xué)性、學(xué)術(shù)性、先進(jìn)性、創(chuàng)新性,刊載內(nèi)容涉及的欄目:地理信息系統(tǒng)理論與方法、遙感科學(xué)及其應(yīng)用、空間信息技術(shù)綜合應(yīng)用、自然地理與國(guó)土資源、經(jīng)濟(jì)地理與旅游環(huán)境等。于1985年經(jīng)新聞總署批準(zhǔn)的正規(guī)刊物。