時間:2023-09-07 17:40:06
導語:在人工智能網絡教育的撰寫旅程中,學習并吸收他人佳作的精髓是一條寶貴的路徑,好期刊匯集了九篇優秀范文,愿這些內容能夠啟發您的創作靈感,引領您探索更多的創作可能。
關鍵詞:數據挖掘;教學系統;關聯規則;決策樹
中圖分類號:TP301文獻標識碼:A文章編號:1009-3044(2009)24-6933-02
The Application of Data Mining in Distance Teaching System
WU Bin1,WU Chen2
(1.School of Information Science & Technology, Jiujiang University,Jiujiang 332005,China;2.Shandong Laigang Construction Co. , Ltd, Laiwu 271126, China)
Abstract: With the continuous development of Web technology, the research and use of Web-based distance education system receive increasing attention,Data mining, artificial intelligence technology in distance teaching system has become increasingly widespread, Data mining technology such as association rules,statistics analysis,classification technology etc. can be used in teching system and improve the intelligence of the system, The service of distance teaching system can be improved better, and to help students raise their study efficiency.
Key words: data mining; teaching system; association system; decision tree
隨著網絡技術的深入發展,人們對于各種網絡應用的需求正在急劇增加,基于網絡的遠程教育站點在國內外如雨后春筍般迅速崛起。如何充分發揮網絡教學功能,利用現代技術,構建功能強大的遠程教學系統是現在研究的重點。
在遠程教育中,會有海量的信息產生,但這些信息存儲分散,記錄凌亂,數據龐大,而采用數據挖掘技術可以從這些大量的數據中發現學生的訪問習慣、學習興趣、學習傾向等,然后根據學生的訪問規律調整系統的結構,動態地為學生定制個性化的網站。據此可以給學生推薦課程和學習資料,也可以將學生的反饋建議提供給教師,使教師能夠及時調整教學內容。總之,數據挖掘知識的采用為現代遠程教育系統的智能化、個性化提供了重要的技術手段[1-2]。
1 數據挖掘概念和技術
1.1 數據挖掘概念
數據挖掘(Data Mining),是指從大量數據中提取隱含的、未知的、非平凡的及有潛在應用價值的信息,這些信息的表現形式為:規則、概念、規律及模式等。許多人把數據挖掘視為另一個常用的術語數據中的知識發現或KDD的同義詞,而另一些人只是把數據挖掘視為知識發現過程的一個基本步驟。數據挖掘是一門涉及面很廣的交叉性新興學科,涉及到數據庫、人工智能、數理統計、可視化、并行計算等領域。通過數據挖掘,可以從數據庫提取有趣的知識、規律等高層信息,并可以從不同的角度觀察或瀏覽他們。發現的知識可以用于做決策、過程控制、信息管理和查詢處理[3]。
隨著Internet的發展,大量的信息都是從Web上獲取的,因此Web挖掘成為一個新的研究內容。Web挖掘指利用數據挖掘技術從Web文檔和訪問數據中發現和抽取知識。按照挖掘對象的不同,將Web數據挖掘分為三類:Web內容挖掘(Web Content Mining),Web結構挖掘(Web Structure Mining),Web使用挖掘(Web Usage Mining), 如圖1所示。
1.2 數據挖掘技術
數據挖掘的研究融合了多個不同學科領域的技術與成果,使得目前的數據挖掘方法表
現出多種多樣的形式。由于數據易受噪聲、不一致等因素的影響,所以在進行數據挖掘前要進行數據預處理,以降低原始數據的維數,提高數據的質量和挖掘的速度。知識發現類數據挖掘技術是一種與統計分析類數據挖掘技術完全不同的挖掘技術,包括關聯規則、遺傳算法、決策樹等[4]。
1.2.1 關聯規則
關聯規則是一種簡單、實用的分析規則,它描述了一個事物中某些屬性同時出現的規律和模式,是數據挖掘中最成熟的主要技術之一。
定義1 設集合I ={i1 , i2 , ..., im },由m個不同項目組成,事務數據庫記為D,D中的每一條事務記為T, T?哿I。關聯規則是形如A?圯B的蘊涵式,其中A?奐I ,B?奐I,并且A∩B=Φ。
定義2 支持度:如果X?圯Y在T 中的S % 成立,則稱X?圯Y的支持度為S %, 即:S % = (| { t | t 中含有X , Y} | / | T | ) ×100 %;支持度S %表示X?圯Y 中出現的普遍程度[5]。
定義3 置信度C%:Confidence (X?圯Y) = P(Y|X) = P(X∪Y)/P(X), C% = (| { t | t 中含有X , Y} | / | { t | t 中含有X } | ) ×100 %,置信度表征的是規則的強度[5]。
關聯規則挖掘算法中最基本的算法是Apriori算法。Apriori采用了層次搜索的方法,通過第k-1個頻繁集搜索生成第k個頻繁集,同時使用了Apriori性質,即頻繁項集的所有非空子集都是頻繁項集,任何非頻繁的(k-1)-項集都不可能是頻繁k-項集的子集[6]。
1.2.2 遺傳算法
遺傳算法是一種受生物進化啟發的學習方法,通過變異和重組當前己知的最好假設來生成后續的假設。每一步,通過使用目前適應性最高的假設的后代替代群體的某個部分,來更新當前群體的一組假設,來實現各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產生新種群(后代)的過程;交叉(重組)選擇兩個不同個體(染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數據挖掘中,可以被用作評估其他算法的適合度[4]。
1.2.3 決策樹
決策樹是一種通過逼近離散值目標函數的方法,通過把實例從根結點排列到某個葉子結點來分類實例,葉子結點即為實例所屬的分類。決策樹方法中最為著名的算法是Quinlan提出的ID3算法[7],該算法以信息熵的增益進行屬性選擇,增益率能克服增益偏向于多值屬性的特點。決策樹分類的其它算法還有FACT, QUEST,CHAIR及ID3的增量版本ID4和ID5等。
ID3算法的核心思想是在決策樹中各級節點上選擇屬性,用信息增益作為屬性選擇標準,使得在每一非葉節點進行測試時,能獲得關于被測試例子最大的類別信息,使用該屬性將例子集分成子集后,系統的熵值最小。同時,期望非葉節點到達各后代葉節點的平均路徑最短,生成的決策樹平均深度最小,提高分類速度和準確率。
2 數據挖掘在遠程教學系統中的應用
2.1 遠程教育概述
現代遠程教育是隨著現代信息技術的發展而產生的一種新型教育方式。計算機技術、多媒體技術、通信技術的發展,特別是Intemet的迅猛發展,使遠程教育的手段有了質的飛躍,成為高新技術條件下的遠程教育。現代遠程教育是一種相對于面授教育、師生分離、非面對面組織的教學活動,它是一種跨學校、跨地區的教育體制和教學模式,它的特點有:學生與教師分離;學習的場所和形式靈活多變等。與面授教育相比,遠距離教育的優勢在于它可以突破時空限制,提供更多的學習機會,擴大教學規模,提高教學質量,降低教學的成本。網絡和信息技術對現代社會生活的影響非常大,對遠程教育的發展也有很大的影響。人們在網絡遠程教學中很方便地接受知識、掌握知識,大大提高了效率。由于遠程教育本身的特征,它的確比其他的教育形式能夠更加滿足終身教育所要求的“任何地方、任何人、任何時間、任何需要”等特點[8]。
2.2 數據挖掘在遠程教學系統中的應用
在教學活動中,教學質量的好壞除與教學條件、教師業務水平有關外,更重要的是學習的主體-學生。學生學習成績好壞除智力因素外,還有多方面的因素,最重要的是學習方法。因此,使用關聯規則挖掘出知識點之間的關聯規則,采用決策樹方法,將學生按照學習成績進行分類,通過此方法來實現知識點的主動推薦,進而達到幫助學生提高學生學習成績的目的[9]。
通過數據的收集與描述找出影響學生學習成績的因素,然后進行數據采集,將數據加以處理進行分析;接著通過數據預處理步驟對包含有噪聲、不完整、不一致數據進行處理;然后通過關聯規則對數據進行分析,挖掘知識點之間的關聯規則,為學生推薦某些應該學習的知識點,幫助學生提高學習效率;通過分類技術的使用將學生按照學習成績進行分類,當學生通過教學系統進行學習時,系統主動為其推薦應該學習的知識。
3 結論
伴隨著科學技術和教育的不斷發展,利用互連網進行遠程教育是必然趨勢,尤其是Web數據挖掘技術的應用,使個性化、智能化的遠程教育成為可能。隨著新的數據挖掘方法的不斷出現,數據挖掘工具也將不斷產生和完善。盡管數據挖掘知識在遠程教育中的應用剛剛起步[10],還有許多理論問題和技術問題有待于進一步的深入探究,但我們相信數據挖掘技術在教育系統中的應用前景是非常光明的。
參考文獻:
[1] 張震.基于Web的智能網絡教學框架模型的設計與實現[J].現代教育技術,2004,14(3):64-67.
[2] 何典,宋中山.基于Web 挖掘的個性化網絡教育研究[J].計算機與現代化,2005,(5):100-102.
[3] Jiawei Han,Micheline Kamber.數據挖掘概念與技術[M].2版.北京:機械工業出版社,2007,3:3-6.
[4] 王桂芹,黃道.數據挖掘技術綜述[J].電腦應用技術,2007,,69: 1-6.
[5] 陳京民.數據倉庫與數據挖掘技術[M].北京:電子工業出版社:2002.11-20.
[6] 黃明,魏靜波,牛娃.對Apriori算法的進一步改進[J].大連鐵道學院學報,2003,24(4):48-49
[7] J.R.Quinlan. Induction of Decision Trees[J].Machine learning, 1986,(1): 81-106.
[8] 張成,石雪萍,張瑞. 遠程教育系統在網絡時代的應用[J].中國成人教育,2008,5:1-2.