文本挖掘的若干關(guān)鍵算法研究.pdf_第1頁
已閱讀1頁,還剩97頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、文本挖掘是一個(gè)非?;钴S的研究領(lǐng)域,是數(shù)據(jù)挖掘領(lǐng)域的一個(gè)重要分支。文本挖掘采用了很多傳統(tǒng)的數(shù)據(jù)挖掘技術(shù),但又有自己的特性。本文試圖采用支持向量機(jī),流形學(xué)習(xí)與圖論等理論,以網(wǎng)絡(luò)文本為研究對(duì)象,全面開展文本分類、聚類、壓縮、可視化及排序等方面的算法研究。全文的主要工作包括以下幾個(gè)方面:
   1)在定理證明的基礎(chǔ)上,提出一種連分式Mercer核,它可以方便地應(yīng)用于支持向量分類機(jī)和其它支持向量機(jī)算法。在5個(gè)UCI數(shù)據(jù)庫實(shí)驗(yàn)中取得了比傳統(tǒng)

2、核支持向量機(jī)更好的綜合水平,而且它還可以方便地被用于合成復(fù)雜核,將此連分式核的支持向量機(jī)應(yīng)用到網(wǎng)絡(luò)文本分類中,提高了網(wǎng)絡(luò)文本分類正確率。
   2)提出了兩個(gè)判別性的特征提取方法– 判別性PCA和判別性KPCA。基于PCA和MMC理論,構(gòu)造了一個(gè)多目標(biāo)規(guī)劃模型作為特征提取的目標(biāo)。隨后,該模型被轉(zhuǎn)化成一個(gè)單目標(biāo)規(guī)劃問題并通過特征分解的方法求解。此外,將一個(gè)近似分塊對(duì)角核矩陣K分成c個(gè)小矩陣并求出它們的特征值和特征向量,在此基礎(chǔ)上,

3、通過張量代數(shù)處理得到一種映射矩陣V,核矩陣投影到V上后能最大程度上保持同類樣本間的相似信息,同時(shí)還能讓類間距離變得更大。
   3)提出了一種新的基于支持向量回歸的偏好學(xué)習(xí)算法。它克服了偏好學(xué)習(xí)不一致問題并改善了排序的泛化能力。同時(shí),WMW統(tǒng)計(jì)量被引入以評(píng)價(jià)算法的排序表現(xiàn)。在一個(gè)人工數(shù)據(jù)集和幾個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)顯示了方法的有效性。最后,該方法還被應(yīng)用到網(wǎng)絡(luò)搜索系統(tǒng)的排序問題中,獲得了較高的排序準(zhǔn)確率。
   4)共享最

4、近鄰(SNN)相似度是一種新的相似性度量,它能克服樣本間相似性低和類密度差異大的問題。目前,基于SNN相似度的聚類算法有JP聚類和基于SNN密度聚類兩種。它們的聚類結(jié)果完全依賴于單鏈的強(qiáng)度,因而算法非常脆弱。引入計(jì)算幾何學(xué)中的光滑拼接思想,設(shè)計(jì)了一種新的基于SNN相似度的光滑拼接聚類算法。它內(nèi)含強(qiáng)度-光滑度互補(bǔ)機(jī)制,相比已有的兩種算法,該算法的泛化能力較高。在公開的文本數(shù)據(jù)集上做比較實(shí)驗(yàn),結(jié)果顯示,該算法在多個(gè)類別上取得了最高的聚類準(zhǔn)確

5、率和召回率。
   5)針對(duì)互聯(lián)網(wǎng)開放性、層次性、演化性、巨量性等本質(zhì)特性,從復(fù)雜自適應(yīng)系統(tǒng)這一全新的角度,以農(nóng)業(yè)垂直搜索為應(yīng)用背景,提出一種新的復(fù)雜自適應(yīng)搜索模型。該搜索模型的主要特點(diǎn)是通過建立信息采集、分類、清洗與服務(wù)智能體聯(lián)盟,組成多智能體實(shí)驗(yàn)環(huán)境;通過建立模型的學(xué)習(xí)機(jī)制與進(jìn)化機(jī)制,改善搜索模型對(duì)網(wǎng)絡(luò)環(huán)境的動(dòng)態(tài)適應(yīng)能力。經(jīng)過與現(xiàn)有主流搜索引擎的比較實(shí)驗(yàn)發(fā)現(xiàn),它在查準(zhǔn)率方面具有明顯的優(yōu)勢(shì)。同時(shí),由于該搜索模型具備通用的結(jié)構(gòu)體

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論