大規(guī)模文本分類(lèi)的若干問(wèn)題研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩140頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、文本分類(lèi)是文本信息處理的基礎(chǔ)性工作,早就受到很多關(guān)注。但是,隨著社會(huì)網(wǎng)絡(luò)化的發(fā)展,大規(guī)模的甚至海量的文本信息急劇增加,導(dǎo)致文本分類(lèi)問(wèn)題面臨著巨大挑戰(zhàn)。本文從文本的表示和支持向量機(jī)的高效訓(xùn)練兩個(gè)方面展開(kāi)了創(chuàng)新性和探索性研究:
  1.文本通常表示為單詞特征上的權(quán)值向量的形式。每個(gè)特征的權(quán)值一般用單詞在文本中出現(xiàn)的頻率及在不同文本間出現(xiàn)的次數(shù)來(lái)計(jì)算。本文在實(shí)際數(shù)據(jù)集上觀察了這些度量取值的分布特點(diǎn),得到了兩個(gè)啟發(fā)式的規(guī)則:在做特征選擇時(shí)

2、,宜選擇中間頻率的特征,或者按特征頻率分為高中低三組;而傳統(tǒng)的IDF權(quán)因子可以用訓(xùn)練集上總的TF來(lái)加強(qiáng)。
  2.短語(yǔ)表達(dá)的語(yǔ)義比單詞更豐富,但傳統(tǒng)上是用特征選擇算法來(lái)選取一個(gè)短語(yǔ)子集作為文本的特征集。本文從語(yǔ)法分析樹(shù)的節(jié)點(diǎn)層次的角度來(lái)選擇短語(yǔ),這種方法能夠可更好地反映短語(yǔ)在句子結(jié)構(gòu)中的語(yǔ)義地位和作用。對(duì)比實(shí)驗(yàn)表明,新的表示方法提高了正例的召回率。
  3.向量空間模型的語(yǔ)義化改造通常都利用相鄰單詞間的語(yǔ)義關(guān)系,或者非相鄰甚

3、至不出現(xiàn)的單詞間的詞典語(yǔ)義關(guān)系。本文利用上下文中的指代關(guān)系所給出的不相鄰單詞間的語(yǔ)義關(guān)系來(lái)改善特征的權(quán)度量。這種增強(qiáng)的加權(quán)度量可以從語(yǔ)義層面上更準(zhǔn)確地表達(dá)特征的真實(shí)頻率。經(jīng)驗(yàn)研究表明,新表示方法提高了正例的召回率。
  4.核矩陣的 cache緩沖是 SVM分解優(yōu)化求解的重要加速技術(shù)。但是傳統(tǒng)的分解算法未必總表現(xiàn)出很好的局部性特點(diǎn)。本文提出了一種三層工作集選擇框架,以直接控制迭代過(guò)程的局部化。結(jié)合多種工作集選擇算法,有效地實(shí)現(xiàn)了對(duì)

4、分解優(yōu)化算法進(jìn)一步加速的效果。
  5.對(duì)于大規(guī)模文本分類(lèi)問(wèn)題,利用逐步求精的思路,把它化為兩階段來(lái)處理是一個(gè)有效策略。直觀上,兩分類(lèi)問(wèn)題中每類(lèi)數(shù)據(jù)的分布輪廓對(duì)于分類(lèi)任務(wù)才是最重要的。本文用一個(gè)平面擬合每類(lèi)數(shù)據(jù),并把擬合問(wèn)題轉(zhuǎn)化為一個(gè)最小包球問(wèn)題。進(jìn)一步注意到,若用核集優(yōu)化求解,則所產(chǎn)生的核集coreset能反映分布輪廓。對(duì)比實(shí)驗(yàn)表明,在這種很小的子集上訓(xùn)練SVM分類(lèi)器具有非常高的效率,也可以得到非常稀疏的解。
  6.不同

5、于前面用一個(gè)平面孤立地?cái)M合其中一類(lèi)數(shù)據(jù),進(jìn)一步納入兩類(lèi)數(shù)據(jù)間的分離性來(lái)建立新的平面擬合模型。即平面不僅要擬合指定類(lèi)別的數(shù)據(jù),還要使得另一類(lèi)數(shù)據(jù)盡量位于它的一側(cè)。實(shí)驗(yàn)表明,改進(jìn)的算法保持了與問(wèn)題規(guī)模和維度無(wú)關(guān)的處理效率,同時(shí)具有與標(biāo)準(zhǔn)SVM類(lèi)似的平均泛化能力。
  7.進(jìn)一步探討另外一種結(jié)合分離性的方法。即除了要求平面擬合指定類(lèi)別的數(shù)據(jù)外,不僅要求另一類(lèi)數(shù)據(jù)要盡量位于它的一側(cè),還要求離該平面盡量遠(yuǎn)。實(shí)驗(yàn)結(jié)果顯示,新的改進(jìn)算法平均泛化

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論