基于人工智能的知識發(fā)現(xiàn).pdf_第1頁
已閱讀1頁,還剩92頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、知識發(fā)現(xiàn)本質(zhì)是建立在高維空間中的數(shù)學計算問題,人類對于傳統(tǒng)空間的研究已經(jīng)經(jīng)過數(shù)千年,但是對于高維空間的數(shù)學研究才剛剛開始。盡管如此,借助于其核心技術人工智能的發(fā)展,知識發(fā)現(xiàn)已經(jīng)取得了非常豐碩的成果。傳統(tǒng)數(shù)學所無法解決的問題,例如圖象識別,垃圾郵件攔截,網(wǎng)頁相似度匹配等問題都得到了一定程度上的解決。但是,從技術本身來看,這些都是支持向量機(SupportVector Machine,SVM)的一些低級別的應用,對于更廣闊的未來而言,技術的

2、發(fā)展帶來了無限的可能。 本文盡可能詳盡地回顧了知識與知識發(fā)現(xiàn)的理論與沿革,人工智能技術的發(fā)展與核心算法:BP網(wǎng)絡(Back-propagation Neutral Network)與支持向量機。在此基礎上,本文提出了知識發(fā)現(xiàn)所面臨的三大問題:學科交叉不足,局限于理工科等傳統(tǒng)領域,而對文科和商科覆蓋不足,對非結構化數(shù)據(jù)處理能力欠缺,尤其是類似于WORD和WEB的非結構化和半結構化數(shù)據(jù);知識表示混亂,至今沒有統(tǒng)一的標準。 針

3、對以上三個問題,本文設計了三個實驗: 1本文以WORD文件《說文·玉篇》中的一章作為數(shù)據(jù)源,采用規(guī)則提取的方式,將WORD文件字典中的字進行了量化抽取。以量化后的結果載入Matlab,并使用SVM工具箱進行了異體字分類識別。最后用Z語言對異體字分類的定義進行了闡述。 2本文針對上海國拍勁標網(wǎng)(www.alltobid.com)上的上海市車牌歷次競標記錄,采用WEB抓取的方式,獲得自開始拍賣以來至今的所有數(shù)據(jù)。將這些數(shù)據(jù)作

4、為數(shù)據(jù)源,用BP網(wǎng)絡對車牌價格所形成的多元函數(shù)進行了擬合,對后期的車牌價格走勢進行了預測。與此同時,將本文中獲得的結果與傳統(tǒng)經(jīng)濟學方法進行了對比,證明了AI算法相對于傳統(tǒng)經(jīng)濟學方法的優(yōu)越性。最后,針對本文的函數(shù)用Z語言進行了描述。 3作為管理學碩士,本文對管理學中參數(shù)化評估以及它的多種進化形態(tài)進行了回顧,并將BP網(wǎng)絡和SVM分類技術相結合,提出了動態(tài)參數(shù)化評估的概念。這種新評估方式主要認為:舊有的評估方法存在參數(shù)人為任意設定,權

5、值僵化,而容易被有所針對性的回避而不能產(chǎn)生正確的評估效果。 為了避免上述現(xiàn)象的發(fā)生,本文認為,應該從樣本自身出發(fā),由樣本自身描述問題的本質(zhì)。首先使用SVM對樣本的特征進行提取,得出參數(shù)項;其次根據(jù)參數(shù)項對樣本進行循環(huán)計算,得到每個項的權值;最后依據(jù)不同的權值,對權值進行函數(shù)擬合和預測。這樣構成的參數(shù)評估系統(tǒng),每當產(chǎn)生新的樣本的時候,則系統(tǒng)重新計算并對權重和參數(shù)進行調(diào)節(jié)。無疑具有更好的自適應能力和更符合現(xiàn)實要求的特點。 本

6、文進行了一次針對上海房價指數(shù)的動態(tài)參數(shù)實證研究:針對上海市房產(chǎn)交易中心(Fangdi.com.cn)上的成交數(shù)據(jù),以WEB抓取的形式獲得;以不同區(qū)域?qū)ι虾7績r的影響作為參數(shù),以影響的程度作為權重進行計算;最后以Z語言對整個動態(tài)參數(shù)化評估系統(tǒng)作出了描述。本文以如上述三個實驗的方式對本文提出的問題進行了討論和解釋。針對學科交叉問題,本文結合中文學科,提取WORD文件中的異體字,并使用SVM技術進行了識別;結合筆者本科時代的經(jīng)濟學背景,使用B

7、P網(wǎng)絡對來自WEB的上海車牌拍賣數(shù)據(jù)進行了函數(shù)擬合: 最后作為一名管理學的碩士,將SVM的分類技術和BP網(wǎng)絡的函數(shù)擬合技術結合而提出了動態(tài)參數(shù)化評估,對管理學中參數(shù)化評估進行了改進。針對非結構化數(shù)據(jù)源問題,本文實驗中所采用的WORD文件,WEB數(shù)據(jù),都是非結構化數(shù)據(jù),采用規(guī)則抽取方式,將非結構化數(shù)據(jù)轉(zhuǎn)化為準結構化或者結構化數(shù)據(jù)進行知識發(fā)現(xiàn);對于知識表示問題,本文使用了Z語言對每次實驗所得到的知識進行了結構化描述。 雖然本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論