2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩65頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、當今社會伴隨信息產業(yè)和技術的迅猛發(fā)展,互聯(lián)網技術和應用已經成為信息傳遞的最主要手段和平臺,而隨著數據庫應用的規(guī)模、范圍和深度不斷擴大,數據挖掘工作變得尤為重要。數據挖掘集合了機器學習、模式識別、統(tǒng)計、數據庫等技術,廣泛運用在電子商務系統(tǒng)、銀行信用系統(tǒng)、保險行業(yè)、電信業(yè)務系統(tǒng)、醫(yī)療系統(tǒng)等方方面面。而決策樹分類算法是數據挖掘算法體系中比較常用也較為經典的算法。
  決策樹分類算法體系有很多種算法,包括比較經典的ID3、C4.5、CAR

2、T算法等,當前形勢下,對算法效率的提升,是一個很重要的研究課題。本文在學習決策樹分類 C4.5算法的基礎上,以 C4.5V1算法為研究重點,在此基礎上,展開進一步的研究和創(chuàng)新。首先,充分學習分析了數據挖掘平臺WEKA的功能和系統(tǒng)框架,在該平臺下對各經典算法進行數據演練和性能評估,遵照決策樹分類算法性能的評價標準,對各算法性能進行比較和分析。其次,對C4.5算法進行深入研究,并且設計出算法系統(tǒng)的模塊組成部分,實現(xiàn)了代碼,集成到Weka平臺

3、下。使用網上公開的用于數據挖掘的數據集進行測試,與經典的C4.5進行性能上的對比,驗證了C4.5V1算法很好地集成到Weka平臺下,且性能明顯優(yōu)于經典算法。不足的是,建模時間復雜度卻增大了。接著,本文在C4.5V1算法的基礎上,提出了改進的C4.5V2算法和C4.5V3算法,分別從算法的分類準確率和算法的建模時間兩個方面進行了改進。C4.5V2算法通過引入屬性間冗余度的概念,削弱了其他屬性對當前屬性的分類影響程度,從而提高了算法的分類準

4、確率。但與此同時,C4.5V2算法在建模時間上有了更多的消耗,它的準確率的提高是以犧牲建模時間為代價的。改進的C4.5V3算法很好地解決這一問題,通過將公式中大量的對數運算簡化成四則運算,簡化了算法體系的計算過程,從而極大地壓縮了算法的建模時間。最后,將改進后的C4.5V2、C4.5V3算法實現(xiàn)代碼化,集成到WEKA平臺下,進行算法性能測試,同時,應用到電商系統(tǒng)的數據集中,分別使用C4.5算法以及改進的各個版本,在分類準確率和算法建模時

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論