av在线播放日韩亚洲欧,av网站免费线看,bt√天堂资源在线官网,а天堂www在线忘忧草,国产成人精品97

歡迎來到優(yōu)發(fā)表網(wǎng)

購物車(0)

期刊大全 雜志訂閱 SCI期刊 期刊投稿 出版社 精品范文

數(shù)據(jù)挖掘技術(shù)分析論文范文

時間:2023-02-28 15:52:40

序論:在您撰寫數(shù)據(jù)挖掘技術(shù)分析論文時,參考他人的優(yōu)秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導您走向新的創(chuàng)作高度。

數(shù)據(jù)挖掘技術(shù)分析論文

第1篇

[關(guān)鍵詞]數(shù)據(jù)挖掘數(shù)據(jù)挖掘方法

隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫的規(guī)模不斷擴大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統(tǒng)的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價值的潛在知識,數(shù)據(jù)挖掘(DataMining)技術(shù)由此應運而生。

一、數(shù)據(jù)挖掘的定義

數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進而預測未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識發(fā)現(xiàn)的過程。

二、數(shù)據(jù)挖掘的方法

1.統(tǒng)計方法。傳統(tǒng)的統(tǒng)計學為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關(guān)系的線性回歸,還有用來為某些事件發(fā)生的概率建模為預測變量集的對數(shù)回歸、統(tǒng)計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應用中有力的工具之一。

2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡單,實用的分析規(guī)則,它描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實際應用價值,要對這些規(guī)則要進行有效的評價,篩選有意義的關(guān)聯(lián)規(guī)則。

3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標準將其劃分成幾個組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對樣本結(jié)構(gòu)做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數(shù)據(jù)的聚類趨勢進行檢驗。

4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數(shù)的方法,通過把實例從根結(jié)點排列到某個葉子結(jié)點來分類實例,葉子結(jié)點即為實例所屬的分類。樹上的每個結(jié)點說明了對實例的某個屬性的測試,該結(jié)點的每一個后繼分支對應于該屬性的一個可能值,分類實例的方法是從這棵樹的根結(jié)點開始,測試這個結(jié)點指定的屬性,然后按照給定實例的該屬性值對應的樹枝向下移動。決策樹方法是要應用于數(shù)據(jù)挖掘的分類方面。

5.神經(jīng)網(wǎng)絡。神經(jīng)網(wǎng)絡建立在自學習的數(shù)學模型基礎(chǔ)之上,能夠?qū)Υ罅繌碗s的數(shù)據(jù)進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析,神經(jīng)網(wǎng)絡既可以表現(xiàn)為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經(jīng)網(wǎng)絡中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡,具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優(yōu)點。

6.遺傳算法。遺傳算法是一種受生物進化啟發(fā)的學習方法,通過變異和重組當前己知的最好假設(shè)來生成后續(xù)的假設(shè)。每一步,通過使用目前適應性最高的假設(shè)的后代替代群體的某個部分,來更新當前群體的一組假設(shè),來實現(xiàn)各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產(chǎn)生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數(shù)據(jù)挖掘中,可以被用作評估其他算法的適合度。

7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗知識的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性,對數(shù)據(jù)庫中的元組根據(jù)各個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。

8.支持向量機。支持向量機(SVM)是在統(tǒng)計學習理論的基礎(chǔ)上發(fā)展出來的一種新的機器學習方法。它基于結(jié)構(gòu)風險最小化原則上的,盡量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現(xiàn)已成為訓練多層感知器、RBF神經(jīng)網(wǎng)絡和多項式神經(jīng)元網(wǎng)絡的替代性方法。另外,支持向量機算法是一個凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點都是包括神經(jīng)元網(wǎng)絡在內(nèi)的其他算法所不能及的。支持向量機可以應用于數(shù)據(jù)挖掘的分類、回歸、對未知事物的探索等方面。

事實上,任何一種挖掘工具往往是根據(jù)具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。

三、結(jié)束語

目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應用,并取得更加顯著的效果。

第2篇

關(guān)鍵詞 技術(shù)情報分析;數(shù)據(jù)挖掘

中圖分類號TP392 文獻標識碼A 文章編號 1674-6708(2013)92-0211-02

1 概述

在面對海量的情報信息資源時,如何高效、準確的開展分析工作,為管理決策人員提供支持,已成為當今科技工作的重要組成部分??梢哉f,情報分析方法和相關(guān)工具的合理使用決定了情報獲取的準確性和有效性,并將直接影響制定戰(zhàn)略決策的有效性和科學性。

技術(shù)情報分析系統(tǒng)主要進行與技術(shù)相關(guān)科技論文、專利、互聯(lián)網(wǎng)情報數(shù)據(jù)的分析,實現(xiàn)分析方法、算法、分析結(jié)果的表現(xiàn)形式以及分析報告自動生成等技術(shù)。該情報分析系統(tǒng)除了基本的維度統(tǒng)計分析外,更多的側(cè)重于利用知識發(fā)現(xiàn)、數(shù)據(jù)挖掘等技術(shù)進行情報數(shù)據(jù)的深度處理與分析。通過情報分析系統(tǒng)開發(fā)設(shè)計,結(jié)合數(shù)據(jù)挖掘等技術(shù)的合理使用,使得系統(tǒng)使用者能夠快速、有效、全面地獲取技術(shù)的情報信息。

2 系統(tǒng)的設(shè)計與功能描述

2.3 數(shù)據(jù)挖掘技術(shù)設(shè)計

2.3.1數(shù)據(jù)文本特征表示

在進行文本挖掘時,對文本特征進行處理,實現(xiàn)對非結(jié)構(gòu)化的文本向結(jié)構(gòu)化轉(zhuǎn)換。情報分析系統(tǒng)采用向量空間模型(Vector Space Model,VSM)進行文本的表示,并利用倒排文檔頻率TFIDF進行專利文本的特征提取,以此作為論文、專利文本挖掘的基礎(chǔ)。

2.3.2關(guān)聯(lián)算法

在挖掘論文專利作者之間、機構(gòu)之間、國家之間的研究內(nèi)容關(guān)聯(lián)性上,采用了基于文本挖掘的關(guān)聯(lián)算法。通過對技術(shù)關(guān)鍵詞的共生關(guān)系(Terms Co-occurrences)計算來識別、確定一組文獻內(nèi)部所包含的技術(shù)組(群)。

2.3.3 層次結(jié)構(gòu)可視化算法

情報分析系統(tǒng)中關(guān)于論文和專利的引證分析、專利同族分析采用了層次結(jié)構(gòu)可視化算法Hyperbolic Tree,即雙曲樹算法。其主要原理是將樹結(jié)構(gòu)在雙曲空間進行布局,然后映射到歐式空間的龐萊卡圓盤進行顯示。歐式空間中兩個相同大小的區(qū)域離龐萊卡圓盤中心越近,在雙曲空間中所占用的空間越??;反之,雙曲空間中兩個大小相同的區(qū)域離原點越近在龐萊卡圓盤中所占用的空間越大。

4 結(jié)論

本文提出運用數(shù)據(jù)挖掘方法實現(xiàn)對大量數(shù)據(jù)的分析和判斷,可有效幫助科技情報機構(gòu)和人員提高綜合情報分析能力和決策的質(zhì)量。同時,該方法可按照不同需要進行功能拓展,實現(xiàn)向更多的技術(shù)情報領(lǐng)域延伸。

參考文獻

[1]Dongpeng Yang. Application of Data Mining in the Evaluation of Credibility, 第十一屆亞太地區(qū)知識發(fā)現(xiàn)與數(shù)據(jù)挖掘國際會議(PAKDD),IOS Press出版, 2007.

[2]樂明揚.公安情報分析中的數(shù)據(jù)挖掘應用研究.信息與電腦.2012(8).

[3]蒲群瑩.基于數(shù)據(jù)挖掘的競爭情報系統(tǒng)模型[J].情報雜志.2005,1.

第3篇

數(shù)據(jù)挖掘技術(shù)是近些年發(fā)展起來的一門新興學科,它涉及到數(shù)據(jù)庫和人工智能等多個領(lǐng)域。隨著計算機技術(shù)的普及數(shù)據(jù)庫產(chǎn)生大量數(shù)據(jù),能夠從這些大量數(shù)據(jù)中抽取出有價值信息的技術(shù)稱之為數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘方法有統(tǒng)計學方法、關(guān)聯(lián)規(guī)則挖掘、決策樹方法、聚類方法等八種方法,關(guān)聯(lián)規(guī)則是其中最常用的研究方法。關(guān)聯(lián)規(guī)則算法是1993年由R.Atal,Inipusqi,Sqtm三人提出的Apriori算法,是指從海量數(shù)據(jù)中挖掘出有價值的能夠揭示實體和數(shù)據(jù)項間某些隱藏的聯(lián)系的有關(guān)知識,其中描述關(guān)聯(lián)規(guī)則的兩個重要概念分別是Suppor(t支持度)和Confi-dence(可信度)。只有當Support和Confidence兩者都較高的關(guān)聯(lián)規(guī)則才是有效的、需要進一步進行分析和應用的規(guī)則。

二、使用Weka進行關(guān)聯(lián)挖掘

Weka的全名是懷卡托智能分析環(huán)境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免費的、非商業(yè)化的、基于JAVA環(huán)境下開源的機器學習以及數(shù)據(jù)挖掘軟件[2]。它包含了許多數(shù)據(jù)挖掘的算法,是目前最完備的數(shù)據(jù)挖掘軟件之一。Weka軟件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四種模塊[2]。其中Explorer是用來探索數(shù)據(jù)環(huán)境的,Experimenter是對各種實驗計劃進行數(shù)據(jù)測試,KnowledgeFlow和Explorer類似,但該模塊通過其特殊的接口可以讓使用者通過拖動的形式去創(chuàng)建實驗方案,Simple-CLI為簡單的命令行界面。以下數(shù)據(jù)挖掘任務主要用Ex-plorer模塊來進行。

(一)數(shù)據(jù)預處理

數(shù)據(jù)挖掘所需要的所有數(shù)據(jù)可以由系統(tǒng)排序模塊生成并進行下載。這里我們下載近兩年的教師科研信息。為了使論文總分、學術(shù)著作總分、科研獲獎總分、科研立項總分、科研總得分更有利于數(shù)據(jù)挖掘計算,在這里我們將以上得分分別確定分類屬性值。

(二)數(shù)據(jù)載入

點擊Explorer進入后有四種載入數(shù)據(jù)的方式,這里采用第一種Openfile形式。由于Weka所支持的標準數(shù)據(jù)格式為ARFF,我們將處理好的xls格式另存為csv,在weka中找到這個文件并重新保存為arff文件格式來實現(xiàn)數(shù)據(jù)的載入。由于所載入的數(shù)據(jù)噪聲比較多,這里應根據(jù)數(shù)據(jù)挖掘任務對數(shù)據(jù)表中與本次數(shù)據(jù)任務不相關(guān)的屬性進行移除,只將學歷、職稱、論文等級、學術(shù)著作等級、科研獲獎等級、科研立項等級、科研總分等級留下。

(三)關(guān)聯(lián)挖掘與結(jié)果分析

WeakExplorer界面中提供了數(shù)據(jù)挖掘多種算法,在這里我們選擇“Associate”標簽下的Apriori算法。之后將“l(fā)owerBoundMinSupprot”(最小支持度)參數(shù)值設(shè)為0.1,將“upperBoundMinSupprot”(最大支持度)參數(shù)值設(shè)為1,在“metiricType”的參數(shù)值選項中選擇lift選項,將“minMetric”參數(shù)值設(shè)為1.1,將“numRules”(數(shù)據(jù)集數(shù))參數(shù)值設(shè)為10,其它選項保存默認值,這樣就可以挖掘出支持度在10%到100%之間并且lift值超過1.1且排名前10名的關(guān)聯(lián)規(guī)則。其挖掘參數(shù)信息和關(guān)聯(lián)挖掘的部分結(jié)果。

三、挖掘結(jié)果與應用

以上是針對教師基本情況和科研各項總分進行的反復的數(shù)據(jù)挖掘工作,從挖掘結(jié)果中找到最佳模式進行匯總。以下列出了幾項作為參考的關(guān)聯(lián)數(shù)據(jù)挖掘結(jié)果。

1、科研立項得分與論文、科研總得分關(guān)聯(lián)度高,即科研立項為A級的論文也一定是A。這與實際也是相符的,因為科研立項得A的教師應該是主持了省級或是國家級的立項的同時也參與了其他教師的科研立項,在課題研究的過程中一定會有國家級論文或者省級論文進行發(fā)表來支撐立項,所以這類教師的論文得分也會很高。針對這樣的結(jié)果,在今后的科研工作中,科研處要鼓勵和幫助教師搞科研,為教師的科研工作提供精神上的支持和物質(zhì)上的幫助,這樣在很大程度上能夠帶動整個學校科研工作的進展。

2、副教授類的教師科研立項得分很高,而講師類教師和助教類教師的科研立項得分很低,這樣符合實際情況。因為副教授類的教師有一定的教學經(jīng)驗,并且很多副教授類的教師還想晉職稱,所以大多數(shù)副教授類教師都會申請一些課題。而對于講師類和助教類的教師,由于教學經(jīng)驗不足很少能進行省級以上的課題研究,因此這兩類教師的科研立項分數(shù)不高。針對這樣的結(jié)果,在今后的科研工作中,科研處可以采用一幫一、結(jié)對子的形式來幫助年輕教師,這樣可以使青年教師參與到老教師的科研課題研究工作中去,在課題研究工程中提高科研能力和教學能力。

第4篇

統(tǒng)計學論文2000字(一):影響民族院校統(tǒng)計學專業(yè)回歸分析成績因素的研究論文

摘要:學習成績是評價學生素質(zhì)的重要方面,也是教師檢驗教學能力、反思教學成果的重要標準。利用大連民族大學統(tǒng)計學專業(yè)本科生有關(guān)數(shù)據(jù)(專業(yè)基礎(chǔ)課成績、平時成績和回歸分析期末成績),建立多元線性回歸模型,對影響回歸分析期末成績的因素進行深入研究,其結(jié)果對今后的教學方法改進和教學質(zhì)量提高具有十分重要的指導意義。

關(guān)鍵詞:多元線性回歸;專業(yè)基礎(chǔ)課成績;平時成績;期末成績

為了實現(xiàn)教學目標,提高教學質(zhì)量,有效提高學生學習成績是很有必要的。我們知道專業(yè)基礎(chǔ)課成績必定影響專業(yè)課成績,而且平時成績也會影響專業(yè)課成績,這兩類成績與專業(yè)課成績基本上是呈正相關(guān)的,但它們之間的關(guān)系密切程度有多大?它們之間又存在怎樣的內(nèi)在聯(lián)系呢?就這些問題,本文主要選取了2016級統(tǒng)計專業(yè)50名學生的四門專業(yè)基礎(chǔ)課成績以及回歸分析的平時成績和期末成績,運用SPSS統(tǒng)計軟件進行分析研究,尋求回歸分析期末成績影響因素的變化規(guī)律,擬合出關(guān)系式,從而為強化學生的后續(xù)學習和提高老師的教學質(zhì)量提供了有利依據(jù)。

一、數(shù)據(jù)選取

回歸分析是統(tǒng)計專業(yè)必修課,也是統(tǒng)計學中的一個非常重要的分支,它在自然科學、管理科學和社會、經(jīng)濟等領(lǐng)域應用十分廣泛。因此研究影響統(tǒng)計學專業(yè)回歸分析成績的相關(guān)性是十分重要的。

選取了統(tǒng)計專業(yè)50名學生的專業(yè)基礎(chǔ)課成績(包括數(shù)學分析、高等代數(shù)、解析幾何和概率論)、回歸分析的平時成績和期末成績,結(jié)合多元線性回歸的基礎(chǔ)理論知識[1-2],建立多元回歸方程,進行深入研究,可以直觀、高效、科學地分析各種因素對回歸分析期末成績造成的影響。

二、建立多元線性回歸模型1及數(shù)據(jù)分析

運用SPSS統(tǒng)計軟件對回歸分析期末成績的影響因素進行研究,可以得到準確、科學合理的數(shù)據(jù)結(jié)果,全面分析評價學生考試成績,對教師以后的教學工作和學生的學習會有較大幫助。自變量x1表示數(shù)學分析成績,x2表示高等代數(shù)成績,x3表示解析幾何成績,x4表示概率論成績,x5表示平時成績;因變量y1表示回歸分析期末成績,根據(jù)經(jīng)驗可知因變量y1和自變量xi,i=1,2,3,4,5之間大致成線性關(guān)系,可建立線性回歸模型:

(1)

線性回歸模型通常滿足以下幾個基本假設(shè),

1.隨機誤差項具有零均值和等方差,即

(2)

這個假定通常稱為高斯-馬爾柯夫條件。

2.正態(tài)分布假定條件

由多元正態(tài)分布的性質(zhì)和上述假定可知,隨機變量y1服從n維正態(tài)分布。

從表1描述性統(tǒng)計表中可看到各變量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的標準差分別為10.847,11.531,8.929,9.018,9.221,y1的標準差為8.141;有效樣本量n=50。

回歸分析期末成績y1的多元回歸模型1為:

y1=-5.254+0.221x1-0.4x2+0.154x3

+0.334x4+0.347x5

從表2中可以看到各變量的|t|值,在給定顯著水平?琢=0.05的情況下,通過t分布表可以查出,自由度為44的臨界值t?琢/2(44)=2.015,由于高等代數(shù)x2的|t|值為0.651小于t?琢/2(44),因此x2對y1的影響不顯著,其他自變量對y1都是線性顯著的。下面利用后退法[3]剔除自變量x2。

三、后退法建立多元線性回歸模型2及數(shù)據(jù)分析

從模型1中剔除了x2變量,多元回歸模型2為:

y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)

在表4中,F(xiàn)統(tǒng)計量為90.326,在給定顯著水平?琢=0.05的情況下,查F分布表可得,自由度為p=4和n-p-1=45的臨界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自變量的|t|值都大于t?琢/2(45)=2.014,因此,多元回歸模型2的線性關(guān)系是顯著的。

四、結(jié)束語

通過對上述模型進行分析,即各個自變量對因變量的邊際影響,可以得到以下結(jié)論:在保持其他條件不變的情況下,當數(shù)學分析成績提高一分,則回歸分析成績可提高0.242分[4-5];同理,當解析幾何成績、概率論成績和平時成績每提高一分,則回歸分析成績分別提高0.149分、0.377分和0.293分。

通過對學生專業(yè)基礎(chǔ)課成績、平時成績與回歸分析期末成績之間相關(guān)關(guān)系的研究,一方面有利于教師把控回歸分析教學課堂,提高教師意識,注重專業(yè)基礎(chǔ)課教學的重要性,同時,當學生平時成績不好時,隨時調(diào)整教學進度提高學生平時學習能力;另一方面使學生認識到,為了更好地掌握回歸分析知識,應加強專業(yè)基礎(chǔ)課的學習,提高平時學習的積極性。因此,通過對回歸分析期末成績影響因素的研究能有效的解決教師教學和學生學習中的許多問題。

統(tǒng)計學畢業(yè)論文范文模板(二):大數(shù)據(jù)背景下統(tǒng)計學專業(yè)“數(shù)據(jù)挖掘”課程的教學探討論文

摘要:互聯(lián)網(wǎng)技術(shù)、物聯(lián)網(wǎng)技術(shù)、云計算技術(shù)的蓬勃發(fā)展,造就了一個嶄新的大數(shù)據(jù)時代,這些變化對統(tǒng)計學專業(yè)人才培養(yǎng)模式的變革起到了助推器的作用,而數(shù)據(jù)挖掘作為拓展和提升大數(shù)據(jù)分析方法與思路的應用型課程,被廣泛納入統(tǒng)計學本科專業(yè)人才培養(yǎng)方案。本文基于數(shù)據(jù)挖掘課程的特點,結(jié)合實際教學經(jīng)驗,對統(tǒng)計學本科專業(yè)開設(shè)數(shù)據(jù)挖掘課程進行教學探討,以期達到更好的教學效果。

關(guān)鍵詞:統(tǒng)計學專業(yè);數(shù)據(jù)挖掘;大數(shù)據(jù);教學

一、引言

通常人們總結(jié)大數(shù)據(jù)有“4V”的特點:Volume(體量大),Variety(多樣性),Velocity(速度快)和Value(價值密度低)。從這樣大量、多樣化的數(shù)據(jù)中挖掘和發(fā)現(xiàn)內(nèi)在的價值,是這個時代帶給我們的機遇與挑戰(zhàn),同時對數(shù)據(jù)分析技術(shù)的要求也相應提高。傳統(tǒng)教學模式并不能適應和滿足學生了解數(shù)據(jù)處理和分析最新技術(shù)與方法的迫切需要。對于常常和數(shù)據(jù)打交道的統(tǒng)計學專業(yè)的學生來說,更是如此。

二、課程教學探討

針對統(tǒng)計學本科專業(yè)的學生而言,“數(shù)據(jù)挖掘”課程一般在他們?nèi)昙壔蛘咚哪昙壦_設(shè),他們在前期已經(jīng)學習完統(tǒng)計學、應用回歸分析、多元統(tǒng)計分析、時間序列分析等課程,所以在“數(shù)據(jù)挖掘”課程的教學內(nèi)容選擇上要有所取舍,同時把握好難度。不能把“數(shù)據(jù)挖掘”課程涵蓋了的所有內(nèi)容不加選擇地要求學生全部掌握,對學生來說是不太現(xiàn)實的,需要為統(tǒng)計學專業(yè)本科生“個性化定制”教學內(nèi)容。

(1)“數(shù)據(jù)挖掘”課程的教學應該偏重于應用,更注重培養(yǎng)學生解決問題的能力。因此,教學目標應該是:使學生樹立數(shù)據(jù)挖掘的思維體系,掌握數(shù)據(jù)挖掘的基本方法,提高學生的實際動手能力,為在大數(shù)據(jù)時代,進一步學習各種數(shù)據(jù)處理和定量分析工具打下必要的基礎(chǔ)。按照這個目標,教學內(nèi)容應以數(shù)據(jù)挖掘技術(shù)的基本原理講解為主,讓學生了解和掌握各種技術(shù)和方法的來龍去脈、功能及優(yōu)缺點;以算法講解為輔,由于有R語言、python等軟件,學生了解典型的算法,能用軟件把算法實現(xiàn),對軟件的計算結(jié)果熟練解讀,對各種算法的改進和深入研究則不作要求,有興趣的同學可以自行課下探討。

(2)對于已經(jīng)學過的內(nèi)容不再詳細講解,而是側(cè)重介紹它們在數(shù)據(jù)挖掘中的功能及綜合應用。在新知識的講解過程中,注意和已學過知識的融匯貫通,既復習鞏固了原來學過的知識,同時也無形中降低了新知識的難度。比如,在數(shù)據(jù)挖掘模型評估中,把混淆矩陣、ROC曲線、誤差平方和等知識點就能和之前學過的內(nèi)容有機聯(lián)系起來。

(3)結(jié)合現(xiàn)實數(shù)據(jù),讓學生由“被動接收”式的學習變?yōu)椤爸鲃犹骄俊毙偷膶W習。在講解每種方法和技術(shù)之后,增加一個或幾個案例,以加強學生對知識的理解。除了充分利用已有的國內(nèi)外數(shù)據(jù)資源,還可以鼓勵學生去搜集自己感興趣的或者國家及社會大眾關(guān)注的問題進行研究,提升學生學習的成就感。

(4)充分考慮前述提到的三點,課程內(nèi)容計劃安排見表1。

(5)課程的考核方式既要一定的理論性,又不能失掉實踐應用性,所以需要結(jié)合平時課堂表現(xiàn)、平時實驗項目完成情況和期末考試來綜合評定成績。采取期末閉卷理論考試占50%,平時實驗項目完成占40%,課堂表現(xiàn)占10%,這樣可以全方位的評價學生的表現(xiàn)。

三、教學效果評估

經(jīng)過幾輪的教學實踐后,取得了如下的教學效果:

(1)學生對課程的興趣度在提升,課下也會不停地去思考數(shù)據(jù)挖掘有關(guān)的方法和技巧,發(fā)現(xiàn)問題后會一起交流與討論。

(2)在大學生創(chuàng)新創(chuàng)業(yè)項目或者數(shù)據(jù)分析的有關(guān)競賽中,選用數(shù)據(jù)挖掘方法的人數(shù)也越來越多,部分同學的成果還能在期刊上正式發(fā)表,有的同學還能在競賽中取得優(yōu)秀的成績。

(3)統(tǒng)計學專業(yè)本科生畢業(yè)論文的選題中利用數(shù)據(jù)挖掘有關(guān)方法來完成的論文越來越多,論文的完成質(zhì)量也在不斷提高。

(4)本科畢業(yè)生的就業(yè)崗位中從事數(shù)據(jù)挖掘工作的人數(shù)有所提高,說明滿足企業(yè)需求技能的人數(shù)在增加。繼續(xù)深造的畢業(yè)生選擇數(shù)據(jù)挖掘研究方向的人數(shù)也在逐漸增多,表明學生的學習興趣得以激發(fā)。

教學實踐結(jié)果表明,通過數(shù)據(jù)挖掘課程的學習,可以讓學生在掌握理論知識的基礎(chǔ)上,進一步提升分析問題和解決實際問題的能力。

第5篇

關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹;C4.5算法;教學管理;高校教學

中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2012)30-7150-04

隨著數(shù)字信息化社會的飛速發(fā)展,計算機技術(shù)和數(shù)據(jù)庫管理系統(tǒng)被廣泛應用于科學探索、商業(yè)、金融業(yè)、電子商務、企業(yè)生產(chǎn)等各種行業(yè),已逐漸發(fā)展成為一種智能管理過程。數(shù)據(jù)挖掘作為一種新興的數(shù)據(jù)分析技術(shù),它的研究成果取得了令人矚目的成就[1]。利用數(shù)據(jù)庫技術(shù),通過對教務管理的大量數(shù)據(jù)進行多層次、多維度的加工處理,從而實現(xiàn)人性化管理,為科學決策提供支持。

畢業(yè)論文在教學體系中占有十分重要的位置,是本科生培養(yǎng)計劃中衡量教學質(zhì)量的重要指標。提高畢業(yè)論文教學質(zhì)量是一項系統(tǒng)工程,為研究在當前的教學條件下如何提高畢業(yè)論文教學質(zhì)量,本文采用數(shù)據(jù)挖掘技術(shù)對影響畢業(yè)論文成績管理的多方面因素進行了深入分析和挖掘,以期發(fā)現(xiàn)對學校畢業(yè)論文教學管理有用的知識,將這些知識應用于本科學生畢業(yè)論文教學實踐中,為學校管理者提供有用的信息,進而獲得更好的管理效益,為學校未來的發(fā)展提供更廣闊的空間,發(fā)揮重要的作用。

1 數(shù)據(jù)挖掘簡介

數(shù)據(jù)挖掘(Data Mining),又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge discovery in Database. KDD)[2],是通過分析每一個具體數(shù)據(jù),從大量的、有噪聲的、模糊的、隨機的海量數(shù)據(jù)中尋找其規(guī)律的技術(shù),它是數(shù)據(jù)庫研究中的一個很有應用價值的新領(lǐng)域。

1.1 數(shù)據(jù)挖掘的定義

H包含如下功能:

綜上所述,數(shù)據(jù)挖掘具有三大特點:其一是處理大型數(shù)據(jù);其二應用數(shù)據(jù)挖掘的目的是發(fā)現(xiàn)未知的、有意義的模式或規(guī)律;其三是一個對大量數(shù)據(jù)處理的過程,有特定的步驟[3]。

1.2 數(shù)據(jù)挖掘的主要方法

數(shù)據(jù)挖掘是一個多學科交叉領(lǐng)域,它由人工智能、機器學習的方法起步,并與統(tǒng)計分析方法、模糊數(shù)學和可視化技術(shù)相融合,以數(shù)據(jù)庫為研究對象,圍繞面對應用,為決策者提供服務。

數(shù)據(jù)挖掘的方法主要可分為六大類:統(tǒng)計分析方法、歸納學習方法、仿生物技術(shù)、可視化技術(shù)、聚類方法和模糊數(shù)學方法。歸納學習法是目前重點研究的方向,本文根據(jù)給定的訓練樣本數(shù)據(jù)集,采用歸納學習法中的決策樹技術(shù)構(gòu)造分類模型,將事例分類成不同的類別。

2 決策樹算法基本理論

2.1 決策樹方法介紹

決策樹[4]方法是以事例學習為基礎(chǔ)的歸納推算法,著眼于從一組無序的,無規(guī)則的事例中推斷出類似條件下會得到什么值這類規(guī)則的方法,它是一種逼近離散值函數(shù)的方法,也可以看作一個布爾函數(shù)[5]。決策樹歸納方法是目前許多數(shù)據(jù)挖掘商用系統(tǒng)的基礎(chǔ),可以應用于分析數(shù)據(jù),同樣也可以用來作預測。建模過程中,即樹的生長過程是不斷的把數(shù)據(jù)進行切分,采用“自頂向下,分而治之”的方法將問題的搜索空間劃分為若干個互不交叉的子集,通常用來形成分類器和預測模型。如圖1所示,為決策樹的示意圖。

決策樹一種類似流程圖的樹形結(jié)構(gòu),是一種知識的表現(xiàn)形式。為了對未知樣本進行分類,生成具體的分類規(guī)則,信息樣本的各個屬性值要在決策樹上進行測試。主要分為兩個階段:在第一階段中生成樹。決策樹最上面的節(jié)點為根節(jié)點,是整個決策樹的開始,然后遞歸的進行數(shù)據(jù)分區(qū),每次切分對應一個問題,也對應著一個節(jié)點;在第二階段中對樹進行修剪,此過程中去掉一些可能是噪音或異常的數(shù)據(jù),防止決策樹的過匹配,進而保證生成決策樹的有效性和合理性。當一個節(jié)點中的所有數(shù)據(jù)都屬于同一類別,或者沒有屬性可以再用于數(shù)據(jù)進行分割時,分割工作停止。具體的工作流程如圖2所示。

2.2 C4.5算法

1986年Ross Quinlan首次提出了ID3決策樹算法,它是最早的決策樹算法之一。ID3算法運用信息熵理論,選擇當前樣本中具有信息增益值的屬性作為測試屬性,對樣本的劃分則依據(jù)測試屬性的取值[6]。C4.5算法是在ID3算法基礎(chǔ)上發(fā)展起來的,它繼承了ID3算法的全部優(yōu)點,并增加了新的功能改進了ID3算法中的不足,可以進行連續(xù)值屬性處理并處理未知值的訓練樣本。在應用單機的決策樹算法中,C4.5算法不僅分類準確而且執(zhí)行速度快。

C4.5通過兩個步驟來建立決策樹:第一階段樹的生成,第二階段樹的剪枝。C4.5算法采用信息增益率來記錄字段不同取值的選擇,首先計算各個屬性的信息增益率,尋找到規(guī)則信息的優(yōu)劣,選出信息增益率最大的屬性作為結(jié)點,自頂向下生成決策樹。C4.5算法構(gòu)造決策樹的基本策略如下:

首先計算出給定樣本所需的期望信息,設(shè)S為一個包含s個數(shù)據(jù)樣本的集合,對于類別屬性,可以取m個不同取值,分別對應于m個不同的類別[Ci(i∈1,2,...,m)]。假設(shè)類別[Ci]中的樣本個數(shù)為[si],期望信息為:

其中,[Pi]是任意樣本屬于[Ci]的概率,并用[sis]估計。

接著,計算當前樣本集合所需用的信息熵,設(shè)一個屬性A具有n個不同的值[(a1,a2,...an)],利用屬性A可以將集合S劃分為n個子集[S1,S2,...Sn],其中[Sj]包含了S集合中屬性A取[aj]值的樣本數(shù)據(jù)。如果屬性A被選作測試屬性,設(shè)[Sij]為[Sj]中屬于[Ci]類別的樣本集,根據(jù)A劃分計算的熵為:

然后利用屬性A對當前分支結(jié)點進行相應樣本集合劃分計算信息增益:

最后,求信息增益率,表達式為:

C4.5算法的偽代碼如下:

輸入:訓練樣本Samples;目標屬性Target—attribute;候選屬性的集合Attributes

輸出:一棵決策樹

1)創(chuàng)建根節(jié)點root;

2)If Samples都在同一類C Then;

3)返回label=類C的單結(jié)點樹root;

4)If Attributes為空Then;

5)返回單結(jié)點樹root,[label=Samples]中最普遍的Target-Atribute值;

6)Else;

7)For each測試屬性列表Attributes中的屬性;

8)IF測試屬性是連續(xù)的Then;

9)對測試屬性進行離散化處理,找出使其信息增益比率最大的分割閾值;

10)Else;

11)計算測試屬性的信息增益比率;

20)添加子樹Generate Tree C4.5;

21)對已建立的決策樹計算每個結(jié)點的分類錯誤,進行剪枝,并返回根結(jié)點Root。

3 畢業(yè)論文成績管理系統(tǒng)的設(shè)計和實現(xiàn)

利用數(shù)據(jù)挖掘技術(shù)對學生的成績數(shù)據(jù)進行提煉,所產(chǎn)生的結(jié)果和信息會對以后的教學管理工作提供有用的信息,進而獲得更好的管理效益。解決問題的重點在于怎樣對學生的畢業(yè)論文成績進行全面且深度的分析,從而挖掘出成績與其他因素之間隱藏的內(nèi)在聯(lián)系。本文采用決策樹技術(shù)挖掘信息時,主要操作步驟如下:

1)確定挖掘來源:清晰地定義挖掘?qū)ο?,明確挖掘目標是數(shù)據(jù)挖掘所有工作中重要的一步。本文中應用于挖掘的數(shù)據(jù)信息是畢業(yè)生的畢業(yè)論文成績,旨在通過對大量成績數(shù)據(jù)進行各層次的挖掘,全面了解具體影響學生畢業(yè)論文成績的各方面因素,正確的針對問題擬定分析過程。

2)獲取相關(guān)知識:數(shù)據(jù)是挖掘知識最原始的資料,根據(jù)確定的數(shù)據(jù)分析對象,抽象出數(shù)據(jù)分析中所需要的特征信息模型。領(lǐng)域問題的數(shù)據(jù)收集完成之后,與目標信息相關(guān)的屬性也隨之確定。這些數(shù)據(jù)有些是可以直接獲得的,有些則需要對學生進行調(diào)查才能的得到。

3)數(shù)據(jù)預處理:此過程中是對已收集的大量數(shù)據(jù)進行整合與檢查。因為存放在數(shù)據(jù)庫中的數(shù)據(jù)一般是不完整的、不一致的,通常還含有噪聲的存在。因此就需要對數(shù)據(jù)庫中數(shù)據(jù)進行清理、整理和歸并,以提高挖掘過程的精度和性能。

4)數(shù)據(jù)轉(zhuǎn)換:對預處理后的數(shù)據(jù)建立分析模型,對于特定的任務,需要選擇合適的算法來建立一個準確的適合挖掘算法的分析模型。本文采用決策樹技術(shù)進行分類建模來解決相應的問題。

5)分類挖掘知識和信息:此階段的工作目的是根據(jù)系統(tǒng)最終要實現(xiàn)的功能和任務來確定挖掘的分類模型。選擇合適的數(shù)據(jù)挖掘技術(shù)及算法,并采用恰當?shù)某绦蛟O(shè)計語言來實現(xiàn)該算法,對凈化和轉(zhuǎn)換過得數(shù)據(jù)訓練集進行挖掘,獲得有價值的分析信息。

6)知識表示:將數(shù)據(jù)挖掘得到的分析信息進一步的解釋和評價,生成可用的、正確的、可理解的分類規(guī)則呈現(xiàn)給管理者,應用于實踐。

7)知識應用:將分析得到的規(guī)則應用到教學管理中,教師可以利用所得到的知識針對性的開展畢業(yè)設(shè)計的教學活動,進一步指導教學工作,提高教學水平和學生的畢業(yè)論文質(zhì)量。

4 結(jié)論

最終發(fā)現(xiàn)影響學生畢業(yè)論文成績主要的因素不是指導教師的職稱,學生的基礎(chǔ)及感興趣程度,而是指導教師的學歷高低。根據(jù)具體分類規(guī)則的結(jié)論,學校教學管理工作應加重對教師的素質(zhì)及能力培養(yǎng),合理的分配每個教師的畢業(yè)論文指導工作,不僅能夠有效的完成畢業(yè)課題指導工作,更有助于學生整體論文質(zhì)量的提高。

在高校教學數(shù)字化的時代趨勢下,利用數(shù)據(jù)挖掘技術(shù)來挖掘提取教學工作中的全面而有價值信息,可以為教育管理者的教學工作提供有效的參考信息,改進教學管理方法,提高教學質(zhì)量和學生的綜合素質(zhì),是高校保持良好的可持續(xù)發(fā)展的有力工具。

參考文獻:

[1] 劉玉文.數(shù)據(jù)挖掘在高校招生中的研究與應用[D].上海:上海師范大學,2008.

[2] 魏萍萍,王翠茹,王保義,張振興.數(shù)據(jù)挖掘技術(shù)及其在高校教學系統(tǒng)中的應用[J].計算機工程,2003.29(11):87-89.

[3] 劉林東. Web挖掘在考試系統(tǒng)中的應用[J].計算機應用研究,2005(2):150-154.

[4] Tom M Mitchell.(美)卡內(nèi)基梅隆大學.機器學習[D].曾華軍,張銀奎,譯,北京:機械工業(yè)出版社,2003.

第6篇

關(guān)鍵詞:醫(yī)學院校;目標驅(qū)動;課程設(shè)計;畢業(yè)論文

中圖分類號:G642.0 文獻標志碼:A 文章編號:1674-9324(2012)12-0218-02

一、背景

“數(shù)據(jù)倉庫與數(shù)據(jù)挖掘”是國內(nèi)外高等院校一門重要的課程,是國家基礎(chǔ)教育較為重視的一門學科,受到不同專業(yè)學生的喜愛。其教學目標是提高學生的數(shù)據(jù)分析水平和能力,除了教授學生數(shù)據(jù)分析的常見方法之外,還將引導學生如何對實際的問題進行建模,如何對模型進行簡化和求解。利用實例教學等方法,可以很好地將數(shù)據(jù)挖掘中的抽象概念、模型、公式等闡述清楚,讓學生易于理解和接受。近年來,數(shù)據(jù)挖掘技術(shù)在醫(yī)學領(lǐng)域中的應用越來越廣泛。在疾病診斷、治療、器官移植、基因研究、圖像分析、康復、藥物開發(fā)、科學研究等方面都獲得了可喜的成果。運用各種數(shù)據(jù)挖掘技術(shù)了解各種疾病之間的相互關(guān)系、各種疾病的發(fā)展規(guī)律,總結(jié)各種治療方案的治療效果,以及對疾病的診斷、治療和醫(yī)學研究都是非常有價值的。因此,我們學院也把這門課程作為計算機專業(yè)及信息管理與信息系統(tǒng)專業(yè)的必修課。把計算機與醫(yī)學結(jié)合,使得學生的培養(yǎng)方案全面包括了計算機與醫(yī)學的知識點。由于該課程原本屬于研究生階段開設(shè)的專業(yè)課程,教材也大多側(cè)重于介紹體系結(jié)構(gòu)、算法原理、效率分析與改進等理論知識,其中所涉及的內(nèi)容大多比較深,許多知識都超出了本科生的接受范圍,此外,教材對相關(guān)理論在實際應用方面的說明也比較少,不利于安排實驗教學。因此要實現(xiàn)“數(shù)據(jù)倉庫與數(shù)據(jù)挖掘”課程的教學目標,必須在理論教學和實驗教學環(huán)節(jié)綜合考慮學時多少、教學條件以及學生的接受情況等因素,靈活地加以選擇安排。

二、存在的問題

主要包括以下幾方面:①課堂上以教師講、學生聽的教學形式為主,學生學習處于被動狀態(tài),他們的創(chuàng)造性因此被嚴重扼殺;②教師對專業(yè)課程體系和學生的知識體系不夠重視,對課程體系的講解不到位,造成學生在學習時課程之間聯(lián)系不上,知識銜接不好,對知識的運用和融會貫通比較差;③實驗與理論脫節(jié)?!皵?shù)據(jù)倉庫與數(shù)據(jù)挖掘”課程理論講授的算法與實驗軟件中的算法有很大差距,使得學生難以理解。比如對于理論上講授的關(guān)聯(lián)規(guī)則算法,實驗中使用SQL SERVER 2005中的商務智能工具做實驗,學生發(fā)現(xiàn)有很多參數(shù)與理論上講授的有很大不同;④醫(yī)學院校的學生對純粹計算機理論知識接受困難。由于該門課程是交叉學科,涉及計算機、數(shù)學、統(tǒng)計學等知識,如果學生的其他學科學得不好,就會對該課程的學習產(chǎn)生障礙;⑤教師講授沒有把理論課程結(jié)合到實際應用中。有很多學生不知道學習這門課的意義,老師沒有很好引導學生,激活他們的學習熱情。

三、目標驅(qū)動的教學框架

對于以上問題,本文提出了一個新的教學體系,設(shè)計了一套基于目標驅(qū)動的教學框架,把教師與學生緊密聯(lián)系起來,從教學大綱的設(shè)置,教材的選擇,理論教學,實驗教學,課程設(shè)計及畢業(yè)論文,全面引導學生從初步了解到深入學習的過程。對于我們學校的實際情況,有兩個專業(yè)的學生要學習這門課程。一個是計算機科學與技術(shù)專業(yè),一個是信息管理與信息系統(tǒng)專業(yè)。對于兩個不同的專業(yè),我們設(shè)置不同的教學大綱。比如對于計算機專業(yè)的學生,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘教學總時數(shù)為72學時,其中理論為54學時,實驗為36學時。

1.理論教學。對于信息管理與信息系統(tǒng)專業(yè)的學生,我們可以設(shè)置如下的教學計劃,可分為三個主要部分。我們教材選擇韓家煒的《數(shù)據(jù)挖掘概念與技術(shù)》,第一部分:第一至四章為數(shù)據(jù)挖掘的基礎(chǔ)知識,包括數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的基本概念和相關(guān)知識介紹;第二部分:第五、六章介紹了數(shù)據(jù)挖掘的算法和工具;第三部分:第七章是數(shù)據(jù)挖掘的聚類分析的實際應用。本課程是信息管理與信息系統(tǒng)專業(yè)本科生專業(yè)必修課。通過該課程的學習,要求學生掌握數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的基本概念,了解基本方法和應用背景。掌握數(shù)據(jù)倉庫的設(shè)計和建立,掌握數(shù)據(jù)挖掘的主要步驟和實現(xiàn)方法,數(shù)據(jù)挖掘的常用算法,實現(xiàn)數(shù)據(jù)挖掘的具體操作。理論學時的安排,第一章緒論(6學時);第二章數(shù)據(jù)倉庫(4學時);第三章數(shù)據(jù)預處理(8學時);第四章數(shù)據(jù)挖掘發(fā)現(xiàn)知識的類型(8學時);第五章數(shù)據(jù)挖掘中常用算法(12學時);第六章數(shù)據(jù)挖掘的工具及其應用(8學時);第七章數(shù)據(jù)挖掘應用實例(8學時)。

2.實驗教學。本課程配合理論教學,通過系統(tǒng)的實踐教學鍛煉,著重培養(yǎng)學生的獨立分析問題和解決問題的能力,熟練掌握數(shù)據(jù)倉庫的設(shè)計和建立以及各類數(shù)據(jù)挖掘方法,使學生具有一定的數(shù)據(jù)分析和挖掘能力,能在認識基礎(chǔ)上,提出有效的數(shù)據(jù)挖掘方法,依據(jù)實際例子,寫出解決方案。學生應在實驗課前明確實驗的目的和要求,然后針對相關(guān)問題寫出解決方案。實驗時對實際方案的運行結(jié)果應能進行分析并提出改進方法,最終寫出實驗報告。通過實驗教學應達到以下基本要求:①理解數(shù)據(jù)倉庫的工作機理及其構(gòu)建過程;②掌握典型的數(shù)據(jù)倉庫系統(tǒng)及其開發(fā)工具的使用;③理解數(shù)據(jù)挖掘技術(shù)的工作原理與流程;④掌握典型數(shù)據(jù)挖掘工具的使用;⑤掌握幾種典型的數(shù)據(jù)挖掘算法;⑥掌握使用SQL SERVER 2000和SPSS工具解決實際問題。實驗成績包括:實驗教學過程成績、實驗報告成績,各占50%。實驗過程表現(xiàn)成績包括:學習態(tài)度是否認真、實驗操作是否正確規(guī)范、基本技能掌握程度是否具有創(chuàng)新意識等方面。實驗報告成績包括:實驗報告格式是否正確、原理是否論述清楚、實驗結(jié)果分析討論是否符合邏輯,報告字跡是否清楚等方面。

3.課程設(shè)計。理論課和實驗課接近結(jié)束時,我們把最后三周作為本門課程的課程設(shè)計。課程設(shè)計的目的是讓學生進一步深刻理解所學知識。由于本門課程很多算法不容易理解,如何讓學生把所學知識結(jié)合到醫(yī)學應用中是課程設(shè)計的關(guān)鍵。比如我們對信息管理與信息系統(tǒng)專業(yè)的學生課程設(shè)計,要求學生每人選擇一個老師給定的題目,課程設(shè)計有詳細的要求,比如題目“數(shù)據(jù)挖掘在醫(yī)學診斷中的應用”要求學生能把本門課程相關(guān)的算法結(jié)合使用,最后給出詳細的分析。通過課程設(shè)計,我們發(fā)現(xiàn),學生對本門課程更有興趣。

4.畢業(yè)論文。我們把課程一般開設(shè)在大三的下學期,也就是說學生學完這門課程后,就做了該門課的課程設(shè)計,使得學生對數(shù)據(jù)挖掘相關(guān)知識有了比較深刻的認識。這樣,我們可以引導學生畢業(yè)論文的選擇。畢業(yè)論文畢竟是反映學生大學四年所學知識,也對他們將來就業(yè)起到提前培訓的作用。把理論結(jié)合實踐,老師對學生的引導也十分重要。

我們根據(jù)醫(yī)學院校的特征,提出了一套目標驅(qū)動的教學理念,從學生認識這門課程到學生理論課的學習,實驗課的學習,課程設(shè)計及畢業(yè)論文的完成,在老師的指導下,使用我們的考核體系,可提高學生對所學課程的興趣。

參考文獻:

第7篇

關(guān)鍵詞:遠程開放教育,數(shù)據(jù)挖掘,應用,智能化

 

1 前言

現(xiàn)代遠程開放教育的全過程基本上都是通過瀏覽網(wǎng)站的形式進行的,學生在Web上的行為都會產(chǎn)生大量的信息,這些信息在遠程教育的全過程中十分寶貴,充分挖掘這些信息及其背后潛在的信息,反饋來指導遠程教育中的各個環(huán)節(jié),以此來為學生提供個性化的服務內(nèi)容,增強遠程開放教育的競爭力。利用數(shù)據(jù)庫技術(shù)來存儲管理數(shù)據(jù),利用網(wǎng)絡和計算機學習的方法來分析數(shù)據(jù),從而挖掘出大量的隱藏在數(shù)據(jù)背后的知識,即數(shù)據(jù)庫中的知識發(fā)現(xiàn)---KDD(Knowledge Discovery in Databases),其中,數(shù)據(jù)挖掘技術(shù)便是最為關(guān)鍵的環(huán)節(jié)。論文參考網(wǎng)?;谶h程開放教育將是當前和未來教育的重要輔助系統(tǒng),本文提出并介紹信了把數(shù)據(jù)挖掘技術(shù)應用于現(xiàn)代遠程開放教育系統(tǒng)中。

2 數(shù)據(jù)挖掘概述

2.1數(shù)據(jù)挖掘(DataMining)定義

數(shù)據(jù)挖掘就是從大量存儲的數(shù)據(jù)中,利用模式識別、統(tǒng)計和數(shù)學的技術(shù),篩選發(fā)現(xiàn)新的有意義的關(guān)系、模式和趨勢的方法。就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。它主要依靠人工智能、機器學習和統(tǒng)計學技術(shù),對數(shù)據(jù)進行歸納推理,從中挖掘出潛在的模式,預測未來趨勢,為決策提供支持。

2.2數(shù)據(jù)挖掘的主要任務

(1)關(guān)聯(lián)分析。兩個或兩個以上變量的取值之間存在的規(guī)律性稱為關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的、可被發(fā)現(xiàn)的知識。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。

(2)聚類分析。聚類是把數(shù)據(jù)按照相似性歸納成若干類別,同一類中的數(shù)據(jù)彼此相似,不同類中的數(shù)據(jù)相異。

(3)分類。分類就是找出一個類別的概念描述,它代表了這類數(shù)據(jù)的整體信息。

(4)預測。預測是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型對未來數(shù)據(jù)的種類及特征進行預測。

(5)時序模式。時序模式是指通過時間序列搜索出的重復發(fā)生概率較高的模式。它是用己知的數(shù)據(jù)預測未來的值,但這些數(shù)據(jù)的區(qū)別是變量所處時間的不同。

(6)偏差分析。在偏差中包括很多有用的知識,數(shù)據(jù)庫中的數(shù)據(jù)存在很多異常情況,發(fā)現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)存在的異常情況是非常重要的。偏差檢驗的基本方法就是尋找觀察結(jié)果與參照之間的差別。

2.3數(shù)據(jù)挖掘?qū)ο?/p>

根據(jù)信息存儲格式,用于挖掘的對象有關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、數(shù)據(jù)倉庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫以及Internet等。

2.4數(shù)據(jù)挖掘技術(shù)實施的步驟

(1)確定業(yè)務對象。清晰地定義出業(yè)務問題,認清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。挖掘的最后結(jié)構(gòu)是不可預測的,但要探索的問題應是有預見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有評價,并以用戶能理解和觀察的方式將發(fā)現(xiàn)的知識呈現(xiàn)給用戶。

(2)數(shù)據(jù)準備。這個階段的工作包括數(shù)據(jù)集成、數(shù)據(jù)選擇、預分析和轉(zhuǎn)換。要對Web服務器上的數(shù)據(jù)進行挖掘,必須研究站點之間異構(gòu)數(shù)據(jù)的集成問題,只有將這些站點的數(shù)據(jù)都集成起來,提供給用戶一個統(tǒng)一的視圖,才有可能從巨大的數(shù)據(jù)資源中獲取所需的東西。

(3)數(shù)據(jù)挖掘。這個階段就是利用數(shù)據(jù)挖掘工具對經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進行挖掘和發(fā)現(xiàn)知識的過程。不同的數(shù)據(jù)挖掘工具有不同的算法,面向不同的分析需求,并且當具體使用操作時,也在一定程度上受到數(shù)據(jù)分析人員的思維方式和行為習慣的影響。數(shù)據(jù)挖掘利用人工智能領(lǐng)域中一些已經(jīng)成熟的算法和技術(shù)。如:人工神經(jīng)網(wǎng)絡、遺傳算法、決策樹方法、鄰近搜索算法、規(guī)則推理、模糊邏輯、公式發(fā)現(xiàn)等來進行數(shù)據(jù)的挖掘。

(4)結(jié)果分析。論文參考網(wǎng)。數(shù)據(jù)挖掘的結(jié)果由分析人員根據(jù)發(fā)現(xiàn)知識的領(lǐng)域重要性、可信度和支持度等閥值來對發(fā)現(xiàn)結(jié)果進行評價,并以用戶能理解和觀察的方式將發(fā)現(xiàn)的知識呈現(xiàn)給用戶。通常會用到可視化技術(shù)。

(5)知識的同化。將分析所得到的知識集成到業(yè)務信息系統(tǒng)的組織結(jié)構(gòu)中去。

3 現(xiàn)代遠程開放教育系統(tǒng)簡介

遠程開放教育系統(tǒng)能實現(xiàn)個性化學習、實時教學、實時考試和智能答疑。為每一個接受網(wǎng)絡遠程教育的學習者提供個性化的學習進程。能根據(jù)與當前學習者相類似的學生的學習模式自動地對其后繼知識的學習進行預測以及合理推薦,并對學習者的學習過程進行分階段的評價,依據(jù)其績效信息動態(tài)調(diào)整其學習難度、練習與測試內(nèi)容,對學生提出的問題實現(xiàn)智能化答疑,對該學習者薄弱環(huán)節(jié)進行有效指導,做到因材施教和全天候?qū)W習。

遠程開放教育系統(tǒng)由用戶系統(tǒng)、WEB服務器、應用服務器、數(shù)據(jù)服務器、用戶數(shù)據(jù)庫和資源數(shù)據(jù)庫組成。

用戶系統(tǒng)用于實現(xiàn)遠程開放教育系統(tǒng)的顯示功能,其功能是:實現(xiàn)信息的和接受,管理員通過它來實現(xiàn)系統(tǒng)的管理、更新、維護等,主要是通過XML語言和HTTP協(xié)議實現(xiàn)WEB瀏覽器與WEB服務器的鏈接和信息通訊。WEB服務器用于完成遠程開放教育系統(tǒng)的事務處理,用于處理學習過程中的各種事務。應用服務器直接為WEB服務器提供相關(guān)服務,處理WEB服務器以及XML文檔組成的用戶的事務請求信息。論文參考網(wǎng)。數(shù)據(jù)庫服務器用于完成數(shù)據(jù)處理,為應用服務器提供相關(guān)服務,完成數(shù)據(jù)查詢、修改和更新等服務,并把運行結(jié)果反饋給應用服務器。資源數(shù)據(jù)庫中主要由遠程開放教育系統(tǒng)中要使用的課件庫、答疑庫、作業(yè)庫、試題庫和必要的超級鏈接等構(gòu)成。用戶數(shù)據(jù)庫主要用于存儲遠程開放教育系統(tǒng)中要使用的的注冊檔案、用戶目前的學習內(nèi)容、學習進展、作業(yè)情況和考試情況等信息。

4 數(shù)據(jù)挖掘技術(shù)在遠程開放教育中的應用

現(xiàn)代遠程開放教育是隨著現(xiàn)代信息技術(shù)的發(fā)展而產(chǎn)生的一種新型教育形式,其基本特征是利用計算機網(wǎng)絡和多媒體技術(shù),提供豐富的教學資源供學習者選用,教學形式由原來的以教為主變?yōu)橐詫W為主。數(shù)據(jù)挖掘技術(shù)在現(xiàn)代遠程開放教育中的應用主要有以下幾方面:

(1)在個性化學習方面的應用

由于每個學習者的知識背景、學習習慣和學習目標都不一樣,故個性化學習在遠程開放教育中就顯得非常重要。為了實現(xiàn)此功能,基于WEB的智能遠程開放教育系統(tǒng)首先要根據(jù)學習者的特點和學習目標來收集學習者的數(shù)據(jù)信息,然后對收集到的信息進行預處理,再應用一種合理的挖掘算法或綜合應用不同的算法,如關(guān)聯(lián)規(guī)則分析、聚類和分類技術(shù)、統(tǒng)計分析以及時序模式技術(shù)等,來處理此數(shù)據(jù),最終發(fā)現(xiàn)用戶的訪問模式,但是通過模式挖掘后,生成的規(guī)則數(shù)目大、表達晦澀且不好用,這時就需要用到智能查詢機制、可視化和聯(lián)機分析等技術(shù)對模式進行分析評價,經(jīng)過模式分析和應用技術(shù)處理后,選擇一種學習者易于理解和接受的表達方式將知識數(shù)據(jù)顯現(xiàn)出來。利用數(shù)據(jù)挖掘與學習內(nèi)容綁定的技術(shù),系統(tǒng)就可以以可視化方式來指導學習者學習和個性化發(fā)展,這樣系統(tǒng)就實現(xiàn)了個性化學習功能。

(2)在資源庫建設(shè)方面的應用

資源庫建設(shè)在整個系統(tǒng)中至關(guān)重要,為了建立覆蓋面廣、功能齊全的資源庫,我們就必須編制信息資源目錄,征集種類資源信息,并進行資源、資源信息篩選、資源信息整理和存儲;同時按學科門類建設(shè)積件庫。當老師在系統(tǒng)內(nèi)制作課件,為了有針對性和避免重復,我們可以對所有學習者已選的課程進行聚類,并通過聚類學習算法來自動確定每門課程的類別標記。接著利用數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則,估計出一組相關(guān)同位類課程,再利用泛化關(guān)聯(lián)規(guī)則,找到其上位類課程,或利用序列模式,預測出與之有關(guān)的學生未來可能選擇的同級課程,最后圍繞學習者的需求權(quán)限進行課程設(shè)置。

(3)在實時教學方面的應用

在本系統(tǒng)中,由于引入了互聯(lián)網(wǎng)技術(shù)、人工智能技術(shù)、數(shù)據(jù)庫技術(shù)和知識發(fā)現(xiàn)技術(shù),通過機器學習、統(tǒng)計分析等方法設(shè)計出了個性化處理引擎,從大量的數(shù)據(jù)中進行數(shù)據(jù)挖掘,提取有用的、潛在的信息。學生可以通過網(wǎng)絡實現(xiàn)每天24小時的學習,而且本系統(tǒng)可以更多且及時的了解到學生的學習學習進度、需求、能力、興趣愛好等方面的信息,并動態(tài)地根據(jù)這些信息調(diào)整學習計劃和進度,讓學生得到針對其“個性”的教育,實現(xiàn)因材施教。

(4)在智能答疑方面的應用

基于WEB的遠程教學系統(tǒng)中的智能答疑系統(tǒng)只要用戶能上網(wǎng),就可解答學生在學習過程中產(chǎn)生的問題。它能根據(jù)學生用戶訪問日志、問題記錄等數(shù)據(jù)進行數(shù)據(jù)挖掘,用智能抽取的方法實現(xiàn)智能答疑。從用戶訪問日志和提問信息里面可以分析出學生的行為。智能答疑系統(tǒng)后臺存儲了大量的由經(jīng)驗豐富的教師精心挑選的問題答案,對于用戶提出的問題.系統(tǒng)首先通過對問題的分析自動在數(shù)據(jù)庫中尋找最適合的答案。這樣通過數(shù)據(jù)挖掘,針對學生用戶提問記錄、日志不斷更新和調(diào)整學生用戶知識庫,使問題的回答更加精確。

(5)在實時考試方面的應用

本系統(tǒng)的實時考試系統(tǒng)是一個基于數(shù)據(jù)庫和WEB的遠程在線式實時的測試系統(tǒng)。它能考慮個別學習者的能力和特性,按照考試的目的和必要性,提供各種問項信息,如難易程度、辨別程度等。并且還能同步打分,提供成績進展情況,根據(jù)個人特性解釋問題,按個人及科目對考試結(jié)果進行各種統(tǒng)計分析和評價,并存入學生用戶數(shù)據(jù)中。這些功能的實現(xiàn)是由于系統(tǒng)采用關(guān)聯(lián)規(guī)則、聚類和分類工具對數(shù)據(jù)庫中抽取的數(shù)據(jù)進行處理,分析出學生的特性及其對課程各知識點的掌握程度,并結(jié)合學生的考試目的恰當?shù)胤答伣o學生,這樣提高了學生學習的效率。

5 結(jié)束語

在現(xiàn)代遠程開放教育網(wǎng)站設(shè)計中,基于XML(ExtensibleMarkup Language,可擴展標記語言)的新一代系統(tǒng)設(shè)計環(huán)境,可以更好地描述半結(jié)構(gòu)化和結(jié)構(gòu)化的數(shù)據(jù),更有利于進行數(shù)據(jù)搜索和挖掘。如何整合XML和Web服務技術(shù),以此為契機開展數(shù)據(jù)挖掘和知識獲取,在現(xiàn)代遠程開放教育網(wǎng)站的設(shè)計中以學習者為中心,提供一種基于資源的學習,教學資源可以適應各種學習者的需要和背景進行不同的組合,提供更加優(yōu)良的、個性化的服務。

參考文獻:

[1]李爽,陳麗.國內(nèi)外網(wǎng)上智能答疑系統(tǒng)比較研究[J].北京,中國電化教育,2003(5)

[2]蘇新寧.數(shù)據(jù)挖掘理論與技術(shù)[M].北京:科學技術(shù)文獻出版社,2003

[3]趙丹群.數(shù)據(jù)挖掘:原理、方法及其應用[J].現(xiàn)代圖書情報技術(shù),2000,(6)

[4]周云真,舒建文,王平根.據(jù)挖掘在基于WEB的智能遠程教育系統(tǒng)中的的應用[J] .南京:文教資料,2006(10)