聚類分析及其在Web日志挖掘中的應用研究.pdf_第1頁
已閱讀1頁,還剩61頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、隨著互聯(lián)網(wǎng)的快速發(fā)展及數(shù)據(jù)庫的廣泛應用,信息的供給能力和對信息的分析能力之間的矛盾日益突出,人們迫切需要一種能夠對數(shù)據(jù)信息進行深入研究和分析的自動化技術。數(shù)據(jù)挖掘技術正是在這種信息廣泛而知識貧乏的情況下應運而生的。聚類分析是數(shù)據(jù)挖掘中的一個重要分支,屬于無監(jiān)督學習的范疇,是人們認識現(xiàn)實世界的一種重要方法。聚類分析可以作為一個獨立的工具來獲得數(shù)據(jù)的分布情況,觀察每個類的特點,以便于集中對某些特定的類做深入的分析。此外,聚類分析還可以作為其

2、它算法的預處理步驟。傳統(tǒng)的聚類分析是一種硬劃分,分類的類別界限是分明的,具有非此即彼的性質(zhì)。然而在現(xiàn)實世界中,許多事物并沒有嚴格的區(qū)分界限,因此在對事物進行聚類分析時就必然伴隨著模糊性,模糊聚類分析技術由此產(chǎn)生。
  Web日志挖掘是數(shù)據(jù)挖掘領域中一個新的研究熱點,Web日志中記錄了大量網(wǎng)絡用戶的行為信息,通過對Web日志的挖掘能夠發(fā)現(xiàn)用戶訪問行為特征和潛在規(guī)律,分析得到的特征和規(guī)律可以識別潛在的客戶群,提高網(wǎng)站服務質(zhì)量。將聚類分

3、析技術應用于Web日志挖掘中,通過深入分析用戶的訪問行為可以將具有相同興趣的用戶自動分類以及發(fā)現(xiàn)被相同用戶訪問的頁面組,進而可以幫助優(yōu)化網(wǎng)站結構、推薦個性化服務等。同時由于Web數(shù)據(jù)的無結構化特征,在進行聚類之前必須對日志數(shù)據(jù)進行預處理。
  本文在介紹數(shù)據(jù)挖掘、聚類分析、模糊理論及Web日志挖掘的基本概念和相關知識的基礎之上,主要針對模糊聚類分析中的模糊 C-均值(FCM)聚類算法及其存在的不足進行了深入的研究。模糊 C-均值聚

4、類算法是模糊聚類分析中應用最廣泛的算法之一。該算法是一種基于目標函數(shù)的聚類算法,并通過極小化目標函數(shù)來求得最優(yōu)解。算法設計簡單,應用范圍廣,但同時也存在著許多需要解決的問題,如:需要人為定義聚類原型參數(shù)、聚類結果易陷入局部最優(yōu)、對球狀簇以外的數(shù)據(jù)集的發(fā)現(xiàn)能力差等。
  在眾多研究成果的基礎上,本文針對FCM算法存在的不足,進行了深入的研究,并通過具體的分析過程給出了相應的改進措施。文章主要從兩方面對算法進行了改進:一方面,在選擇初

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論