畢業(yè)設計數(shù)據(jù)挖掘技術(shù)開題報告_第1頁
已閱讀1頁,還剩7頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、<p><b>  摘要 </b></p><p>  在Internet飛速發(fā)展的今天,人們已經(jīng)將互聯(lián)網(wǎng)作為一個日常溝通,生活不可或缺的平臺。隨之而生的網(wǎng)上購物這一電子商務的具體模式之一,自然而然地便成為一種時尚、流行的購物方式。一個好的網(wǎng)上購物系統(tǒng)除了基本的商品瀏覽、搜索、購買和評價等功能外,還要具備一些數(shù)據(jù)挖掘的功能,這是在系統(tǒng)后臺運行中實現(xiàn)的功能,能夠從日常的客戶資料,交易

2、數(shù)據(jù)中得到挖掘分析的結(jié)果,給客戶提供與他們選購的商品相關(guān)聯(lián)的商品信息,給購物系統(tǒng)的經(jīng)營者提供商業(yè)分析的決策支持,從而提高購物系統(tǒng)的交易量和客戶的光顧頻率。本文從關(guān)聯(lián)規(guī)則和聚類分析這兩種數(shù)據(jù)挖掘技術(shù)中得到啟示,將商品之間按照一定的規(guī)則進行匹配連接,將用戶按照層層條件進行分類,從而實現(xiàn)了商品推薦和目標用戶群郵件投遞的功能。在購物系統(tǒng)這個主體功能實現(xiàn)的基礎(chǔ)上,加以修飾,完善系統(tǒng)功能。數(shù)據(jù)挖掘思路與B/S結(jié)構(gòu)的網(wǎng)頁設計的相結(jié)合,是這個網(wǎng)上購物系

3、統(tǒng)的核心技術(shù)。</p><p>  關(guān)鍵詞:網(wǎng)上購物系統(tǒng);數(shù)據(jù)挖掘;決策支持</p><p><b>  Abstract</b></p><p>  Nowadays, with the rapid development of Internet, people have regarded WEB as an indispensable pl

4、atform for everyday communication and life. Thus, on-line shopping, one concrete pattern of E-business is becoming a fashionable and popular way of shopping naturally. Except for searching for, purchasing, evaluating goo

5、ds, an advanced on-line shopping system should have the function of data mining. Data mining is implemented at background, which can produce an analysis result on the basic of the cli</p><p>  Key words: on-

6、line shopping system; data mining; decision support</p><p>  學位論文題目:基于數(shù)據(jù)挖掘技術(shù)的WEB推薦系統(tǒng)設計</p><p>  課 題 來 源:指導老師協(xié)商分配</p><p>  1、課題意義及國內(nèi)外研究現(xiàn)狀綜述</p><p><b>  課題意義</b

7、></p><p>  近年來,Internet使計算機、網(wǎng)絡、通信合而為一。網(wǎng)絡經(jīng)濟、注意力經(jīng)濟等新概念的出現(xiàn),以其巨大的社會效益和極富挑戰(zhàn)與機遇的內(nèi)涵,成為信息科學最引人注目的研究課題。然而,網(wǎng)絡在快捷、方便地帶來大量信息的同時,也帶來了一大堆的問題:諸如信息過量難以消化;信息真假難以辨識;信息安全難以保證;信息形式不一致,難以統(tǒng)一處理等等。如何快速、準確地獲得有價值的網(wǎng)絡信息,如何理解已有的歷史數(shù)據(jù)并

8、用于預測未來的行為,如何從這些海量數(shù)據(jù)中發(fā)現(xiàn)知識,導致了知識發(fā)現(xiàn)和數(shù)據(jù)挖掘領(lǐng)域的出現(xiàn)。知識發(fā)現(xiàn)(Knowledge Discovery,簡稱KD)和數(shù)據(jù)挖掘(Data Mining,簡稱DM)是集統(tǒng)計學、人工知識、模式識別、并行計算、機器學習、數(shù)據(jù)庫等技術(shù)的一個交叉性的研究領(lǐng)域。</p><p>  知識是當今世界一種最重要的財富。數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database

9、,即KDD)方法和數(shù)據(jù)挖掘技術(shù),近幾年受到人們的高度重視,并對其進行了深入的研究,得到了許多有效的方法和技術(shù)。隨著Internet技術(shù)的迅猛發(fā)展,WEB(World Wide WEB)已發(fā)展成為擁有3億頁面的分布式信息空間,而且這個數(shù)字仍以每4至6個月翻一番的速度增加著。面對這海量的數(shù)據(jù)和信息,人們卻感知識的匱乏,難怪John Naisbett感嘆道:“We are drowning in information, but starvi

10、ng for knowledge”(“信息爆炸但知識匱乏”)。</p><p>  現(xiàn)代社會的競爭趨勢要求必須對WEB大量復雜的信息進行實時的和深層次的分析,從中找出真正有價值的信息知識,用于科學研究、決策支持、過程控制、趨勢預測、偏差預防等,但是,現(xiàn)有的KDD方法和技術(shù)已不能滿足人們從WEB獲取知識的需要,這是因為:</p><p>  ◆WEB數(shù)據(jù)是異質(zhì)、異構(gòu)、動態(tài)、模糊的半結(jié)構(gòu)化、非

11、結(jié)構(gòu)化或數(shù)據(jù)庫信息;</p><p>  ◆異質(zhì)、異構(gòu)以及動態(tài)性給數(shù)據(jù)倉儲帶來極大困難;</p><p>  ◆語義理解難度加大,造成基于內(nèi)容的信息檢索難以實現(xiàn);</p><p>  ◆挖掘算法、信息模型的動態(tài)性以及大樣本空間搜索能力要求很高;</p><p>  ◆現(xiàn)有的DM方法和技術(shù)不能直接運用于WEB挖掘。</p><

12、;p>  因此,人們迫切感到需要一種新的技術(shù)———基于WEB的數(shù)據(jù)挖掘技術(shù),以便從WEB海量的數(shù)據(jù)中自動地,智能地抽取隱藏于這些數(shù)據(jù)中的知識。</p><p><b>  國內(nèi)外研究現(xiàn)狀綜述</b></p><p>  DM是近年來一個十分活躍的研究領(lǐng)域。從數(shù)據(jù)庫中發(fā)現(xiàn)知識(Knowledge Discovery in database,簡稱KDD)一詞首先出現(xiàn)

13、在1989年舉行的第十一屆國際聯(lián)合人工智能學術(shù)會議上。到目前為止,由美國人工智能協(xié)會主辦的KDD國際研討會已召開了8次,規(guī)模由原來的專題討論會發(fā)展到國際學術(shù)大會,僅以1999年為例,就有近20個國際會議列有DM專題。</p><p>  這兩年國內(nèi)也有相當多的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)方面的研究成果,許多學術(shù)會議上都設有專題進行學術(shù)交流。目前, DM的研究重點逐漸從發(fā)現(xiàn)方法的研究轉(zhuǎn)向?qū)嶋H的系統(tǒng)應用,國際上有影響的典型數(shù)據(jù)

14、挖掘系統(tǒng)有SAS公司的Enterprise Miner, IBM公司的Intelligent Miner, SGI公司的Set Miner等。</p><p>  現(xiàn)有的數(shù)據(jù)挖掘技術(shù)分為5類,即預測模型化、聚類、數(shù)據(jù)歸納、依賴模型化以及發(fā)現(xiàn)變化和偏差。從國內(nèi)外目前的研究進展來看,各學科的研究自成一派,沒有突破各個領(lǐng)域的技術(shù)界限;沒有融合各領(lǐng)域的不同方法;尤其是未將并行優(yōu)化的諸方法集成用于數(shù)據(jù)庫中的數(shù)據(jù)挖掘,從而提

15、高實時性,并解決隨機的、動態(tài)的、不完全的及混沌數(shù)據(jù)的數(shù)據(jù)挖掘,即所謂智能數(shù)據(jù)挖掘。而且以往多數(shù)技術(shù)都是在駐留于內(nèi)存的數(shù)據(jù)之上進行挖掘,沒有把這些技術(shù)與數(shù)據(jù)庫技術(shù)相集成。</p><p>  近年來,有些技術(shù)已開始定位于大型數(shù)據(jù)庫上的挖掘,即基于磁盤存貯進行挖掘。從而出現(xiàn)了關(guān)系數(shù)據(jù)庫的數(shù)據(jù)挖掘、面向?qū)ο髷?shù)據(jù)庫的數(shù)據(jù)挖掘等。由于Internet和WEB的廣泛應用,出現(xiàn)了基于異構(gòu)數(shù)據(jù)源的數(shù)據(jù)挖掘,如文檔數(shù)據(jù)挖掘、時間序

16、列數(shù)據(jù)挖掘、電子商務系統(tǒng)中的數(shù)據(jù)挖掘。伴隨數(shù)據(jù)庫技術(shù)的發(fā)展,多媒體數(shù)據(jù)庫的數(shù)據(jù)挖掘、時態(tài)數(shù)據(jù)庫的數(shù)據(jù)挖掘、空間數(shù)據(jù)庫的數(shù)據(jù)挖掘等也引起了許多人的關(guān)注。</p><p>  預計在21世紀還會形成更大的高潮,研究焦點可能會集中到以下幾個方面:研究專門用于知識發(fā)現(xiàn)的數(shù)據(jù)挖掘語言,也許會像SQL語言一樣走向形式化和標準化;尋求數(shù)據(jù)挖掘過程中的可視化方法,使得知識發(fā)現(xiàn)的過程能夠被用戶理解 ,也便于在知識發(fā)現(xiàn)過程中的人機交

17、互;研究在網(wǎng)絡環(huán)境下的數(shù)據(jù)挖掘技術(shù),特別是在Internet上建立DM服務器,與數(shù)據(jù)庫服務器配合,實現(xiàn)數(shù)據(jù)挖掘;加強對各種非結(jié)構(gòu)化數(shù)據(jù)的挖掘,如文本數(shù)據(jù)、圖形圖像數(shù)據(jù)、多媒體數(shù)據(jù)。但是,無論怎樣,需求牽引,市場驅(qū)動是永恒的,DM將首先滿足信息時代用戶的急需,大量基于DM的決策支持軟件工具產(chǎn)品將會問世 。</p><p>  2、學術(shù)構(gòu)想與思路、主要實現(xiàn)內(nèi)容及擬解決的關(guān)鍵技術(shù)</p><p>

18、;<b>  學術(shù)構(gòu)想與思路</b></p><p>  研究內(nèi)容主要包括:WEB上數(shù)據(jù)挖掘的用途、WEB上數(shù)據(jù)挖掘的分類、WEB上數(shù)據(jù)挖掘的實現(xiàn)與工具、WEB數(shù)據(jù)挖掘的BN實現(xiàn)方法。最后給出了一個WEB數(shù)據(jù)挖掘在電子商務網(wǎng)站中的應用實例。畢業(yè)設計充分的將理論研究和實際應用結(jié)合起來,做到了理論和實踐的相結(jié)合。</p><p>  該電子商務網(wǎng)站是基于Jsp/JavaB

19、ean的模式的一個網(wǎng)絡購物系統(tǒng),這種模式以其穩(wěn)定性和優(yōu)越的速度,被全球企業(yè)證明公認為可以高效穩(wěn)定的進行企業(yè)運算開發(fā)的平臺。這種平臺最大的優(yōu)勢在于可以跨系統(tǒng),真正的“一次編寫、 到處運行”的特點,在這種平臺上開發(fā)的產(chǎn)品,可以輕松移植到其他的平臺,例如:Unix、Linux、Windows系統(tǒng),這樣,在企業(yè)更換平臺的時候可以最大的節(jié)約成本,提高運算質(zhì)量。 Jsp網(wǎng)絡購物系統(tǒng)基于jsp+javabean+數(shù)據(jù)庫三層結(jié)構(gòu)的動態(tài)購物網(wǎng)站。網(wǎng)站用戶

20、接口(即界面)由jsp完成,數(shù)據(jù)和邏輯處理由beans完成,數(shù)據(jù)儲存由數(shù)據(jù)庫完成。因為beans獨立負責處理整個網(wǎng)站的全部數(shù)據(jù)邏輯運算,所以整個網(wǎng)站的負載量和速度都將大大提高,所以基于這種語言和結(jié)構(gòu)開發(fā)的購物系統(tǒng)的優(yōu)勢是其它語言無法比擬的。這就更進一步保證了網(wǎng)站的穩(wěn)定性和安全性,而這些,對于一個購物網(wǎng)站來說是非常重要的!</p><p><b>  主要實現(xiàn)內(nèi)容</b></p>

21、<p><b>  主要功能介紹: </b></p><p>  (1)網(wǎng)站前臺功能: </p><p>  產(chǎn)品列表:詳細介紹(名稱,圖片,市場價,會員價,是否推薦,功能介紹)等</p><p>  產(chǎn)品搜索:關(guān)鍵字模糊搜索 </p><p>  定購產(chǎn)品:選擇商品--確認定購--填寫收貨人信息--選擇付款

22、方式--訂單號自動生成</p><p><b>  (限登錄用戶)</b></p><p>  用戶管理:修改資料 查看購物車(限登錄用戶) </p><p>  數(shù)據(jù)挖掘:通過對用戶瀏覽商品的情況進行分析進而向用戶推薦商品</p><p> ?。?)網(wǎng)站后臺功能: </p><p>  商品管

23、理:添加 刪除 修改 圖片上傳</p><p>  用戶管理:查看修改用戶資料,刪除用戶</p><p><b>  擬解決的關(guān)鍵技術(shù)</b></p><p>  WEB挖掘是數(shù)據(jù)挖掘在WEB上的應用,它利用數(shù)據(jù)挖掘技術(shù)從與WEB相關(guān)的資源和行為中抽取感興趣的、有用的模式和隱含信息,涉及WEB技術(shù)、數(shù)據(jù)挖掘、計算機語言學、信息學等多個領(lǐng)域,是一

24、項綜合技術(shù)。</p><p>  WEB內(nèi)容挖掘。WEB內(nèi)容挖掘是指對WEB頁面內(nèi)容及后臺交易數(shù)據(jù)庫進行挖掘,從WEB文檔內(nèi)容及其描述中的內(nèi)容信息中獲取有用知識的過程。</p><p>  同時還可以對WEB的組織結(jié)構(gòu)和鏈接關(guān)系進行挖掘,從人為的鏈接結(jié)構(gòu)中獲取有用的知識。由于文檔之間的互連,WEB能夠提供除文檔內(nèi)容之外的有用信息。利用這些信息,可以對頁面進行排序,發(fā)現(xiàn)重要的頁面。</

25、p><p>  WEB使用記錄挖掘。WEB使用記錄挖掘是通過挖掘相應站點的日志文件和相關(guān)數(shù)據(jù)來發(fā)現(xiàn)該站點上的瀏覽者的行為模式,獲取有價值的信息的過程。</p><p><b>  如何實現(xiàn)WEB挖掘</b></p><p>  WEB挖掘發(fā)展自數(shù)據(jù)挖掘。數(shù)據(jù)挖掘方法通??梢苑譃閮深悾阂活愂墙⒃诮y(tǒng)計模型的基礎(chǔ)上,采用的技術(shù)有決策樹、分類、聚類、關(guān)聯(lián)

26、規(guī)則等;另一類是建立一種以機器學習為主的人工智能模型,采用的方法有神經(jīng)網(wǎng)絡、自然法則計算方法等。</p><p>  WEB內(nèi)容挖掘?qū)崿F(xiàn)技術(shù)</p><p>  WEB上的內(nèi)容挖掘多為基于文本信息的挖掘,它和通常的平面文本挖掘的功能和方法比較類似。利用WEB文檔中部分標記,如Title、Head等包含的額外信息,可以提高WEB文本挖掘的性能。</p><p>  文

27、本總結(jié)。文本總結(jié)是指從文檔中抽取關(guān)鍵信息,用簡潔的形式對文檔內(nèi)容進行摘要或解釋。其目的是對文本信息進行濃縮,給出它的緊湊描述。這樣,用戶不需要瀏覽全文就可以了解文檔或文檔集合的總體內(nèi)容。</p><p>  文本分類。分類是在已有數(shù)據(jù)的基礎(chǔ)上學會一個分類函數(shù)或構(gòu)造出一個分類模型,即通常所說的分類器。</p><p>  文本聚類。文本聚類把一組文檔按照相似性歸成若干類別。方法大致可分為層次

28、凝聚法和平面劃分法兩種類型。</p><p>  關(guān)聯(lián)規(guī)則。發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法通常要經(jīng)過以下三個步驟:連接數(shù)據(jù),作數(shù)據(jù)準備;給定最小支持度和最小可信度,利用數(shù)據(jù)挖掘工具提供的算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則;可視化顯示、理解、評估關(guān)聯(lián)規(guī)則。</p><p>  WEB使用記錄挖掘?qū)崿F(xiàn)技術(shù)</p><p>  在挖掘WEB用戶使用記錄時描述用戶訪問的數(shù)據(jù)包括:IP地址、參考頁面、訪問

29、日期和時間、用戶WEB站點及配置信息。</p><p>  發(fā)現(xiàn)用戶使用記錄信息的方法有兩種。一種方法是通過對日志文件進行分析,包含兩種方式:一是先進行預處理,即將日志數(shù)據(jù)映射為關(guān)系表并采用相應的數(shù)據(jù)挖掘技術(shù)來訪問日志數(shù)據(jù);二是直接訪問日志數(shù)據(jù)以獲取用戶的導航信息。另一種方法是通過對用戶點擊事件的搜集和分析發(fā)現(xiàn)用戶導航行為。</p><p><b>  能挖到什么</b&g

30、t;</p><p>  獲取競爭對手和客戶信息。WEB不僅由頁面組成,而且還包含了從一個頁面指向另一個頁面的超鏈接。一個WEB頁面的作者建立指向另一個頁面的指針,就可以看作是作者對另一頁面的認可。把另一頁面的來自不同作者的注解收集起來,就可以用來反映該頁面的重要性,并可以很自然地用于權(quán)威頁面的發(fā)現(xiàn)。另外一種重要的WEB頁面是一個或多個WEB頁面,它提供了指向權(quán)威頁面的鏈接集合,稱為Hub。Hub頁面本身可能并不

31、突出,或者說可能沒有幾個鏈接指向它們,但是 Hub頁面卻提供了指向就某個話題而言最為突出的站點的鏈接。通過分析這類信息,企業(yè)可以獲得零售商、中間商、合作商以及競爭對手的信息。</p><p>  發(fā)現(xiàn)用戶訪問模式。通過分析和探究WEB日志記錄中的規(guī)律,可以識別電子商務的潛在客戶,提高對最終用戶的服務質(zhì)量,并改進WEB服務器系統(tǒng)的性能。 WEB日志記錄數(shù)據(jù)庫提供了有關(guān)WEB動態(tài)的,基于URL、時間、IP地址和WEB

32、頁面內(nèi)容的豐富信息,對它們進行分析,有助于發(fā)現(xiàn)潛在客戶、用戶和市場,有助于聚類用戶并將用戶分門別類,以實現(xiàn)個性化的市場服務。</p><p>  3、所需實驗手段、研究條件和實驗條件</p><p><b>  硬件環(huán)境要求:</b></p><p>  計算機必須滿足的條件:</p><p>  [1] CPU: In

33、tel Pentium 1GHz或更高的處理器(推薦酷睿2或更高的處理器),或任何運行于Microsoft Windows NT Workstation的Alpha的處理器。</p><p>  [2] 操作系統(tǒng): Microsoft Windows XP/vista/7或 Microsoft Windows NT Service/Workstation 4.0(推薦Service Pack 5)或更高版本,

34、或者Unix,Linux操作系統(tǒng)。</p><p>  [3] 監(jiān)視器: Microsoft Windows支持的VGA或分辨率更高的監(jiān)視器。</p><p>  [4] 內(nèi)存:512MB內(nèi)存以上。</p><p><b>  軟件環(huán)境要求: </b></p><p>  本系統(tǒng)適用于Microso

35、ft Windows XP/vista/7 或者Unix,Linux 下開發(fā)的,所采用的開發(fā)工具是JSDK1.60 及 Tomcat 6.0。由于考慮到該企業(yè)每天的數(shù)據(jù)處理量,我們后臺采用SqlSever2008 。</p><p>  瀏覽器推薦Microsoft IE8.0 瀏覽器</p><p>  推薦桌面顯示方式:1280*800像素</p><p>&

36、lt;b>  4、計劃進度</b></p><p>  3月 1日—3月9日 完成畢業(yè)設計開題報告</p><p>  3月 10日—3月25日 調(diào)研,準備各種參考資料、充實所需知識;</p><p>  3月26 日—4月5日 閱讀相關(guān)書籍資料,提出可行性的設計方案;</p><p> 

37、 4月 6 日—4月25日 具體設計與制作工作;</p><p>  4月26 日—5月25日 畢業(yè)設計論文的撰寫,交由指導老師修改;</p><p>  5月25日以后 論文答辯</p><p><b>  5、主要參考文獻</b></p><p>  [1] 陳國青.企業(yè)

38、資源計劃教程.清華大學出版社,2008</p><p>  [2] 吳建安.市場營銷學(第二版).高等教育出版社, 2004</p><p>  [3] 劉業(yè)政.電子商務概論. 高等教育出版社,2007</p><p>  [4] (美)齊克芒德 吉爾伯特.客戶關(guān)系管理. 中國人民大學出版社,2005</p><p>  [5] 韓佳煒.數(shù)據(jù)

39、挖掘概念與技術(shù)(第二版).機械工業(yè)出版社,2007</p><p>  [6] 貝里.數(shù)據(jù)挖掘——客戶關(guān)系管理的科學與藝術(shù).中國財經(jīng)出版社,2004</p><p>  [7] 紀希禹.數(shù)據(jù)挖掘技術(shù)應用與實例.機械工業(yè)出版社,2009</p><p>  [8] 王永貴.客戶關(guān)系管理.清華大學出版社,2007</p><p>  [9] 武延

40、軍 黃飛躍. 精通JSP編程技術(shù)[M]. 北京:人民郵電出版社,2001.8</p><p>  [10] 柏亞軍. JSP編程基礎(chǔ)及應用實例集錦[M].北京:人民郵電出版社,2001.7</p><p>  [11] 清宏計算機工作室.JSP編程技巧[M].北京:機械工業(yè)出版社,2000.1</p><p>  [12] 周影 .網(wǎng)絡編程語言JSP實例教程[M].

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論