摘要:針對(duì)傳統(tǒng)基于鏈表結(jié)構(gòu)的Top-K高效用挖掘算法在大數(shù)據(jù)環(huán)境下不能滿(mǎn)足挖掘需求的問(wèn)題,提出一種基于Spark的并行化高效用項(xiàng)集挖掘算法(STKO)。首先從閾值提升、搜索空間縮小等方面對(duì)TKO算法進(jìn)行改進(jìn);然后選擇Spark平臺(tái),改變?cè)袛?shù)據(jù)存儲(chǔ)結(jié)構(gòu),利用廣播變量?jī)?yōu)化迭代過(guò)程,在避免大量重新計(jì)算的同時(shí)使用負(fù)載均衡思想實(shí)現(xiàn)Top-K高效用項(xiàng)集的并行挖掘。實(shí)驗(yàn)結(jié)果表明,該并行算法能有效地挖掘出大數(shù)據(jù)集中的高效用項(xiàng)集。
注:因版權(quán)方要求,不能公開(kāi)全文,如需全文,請(qǐng)咨詢(xún)雜志社。
計(jì)算機(jī)工程與科學(xué)雜志, 月刊,本刊重視學(xué)術(shù)導(dǎo)向,堅(jiān)持科學(xué)性、學(xué)術(shù)性、先進(jìn)性、創(chuàng)新性,刊載內(nèi)容涉及的欄目:算法研究、圖形與圖象、計(jì)算機(jī)網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、仿真技術(shù)研究、人工智能、研究與實(shí)現(xiàn)、試題選載與博士論文摘要等。于1973年經(jīng)新聞總署批準(zhǔn)的正規(guī)刊物。