版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、文本分類(lèi)是文本信息處理的基礎(chǔ)性工作,早就受到很多關(guān)注。但是,隨著社會(huì)網(wǎng)絡(luò)化的發(fā)展,大規(guī)模的甚至海量的文本信息急劇增加,導(dǎo)致文本分類(lèi)問(wèn)題面臨著巨大挑戰(zhàn)。本文從文本的表示和支持向量機(jī)的高效訓(xùn)練兩個(gè)方面展開(kāi)了創(chuàng)新性和探索性研究:
1.文本通常表示為單詞特征上的權(quán)值向量的形式。每個(gè)特征的權(quán)值一般用單詞在文本中出現(xiàn)的頻率及在不同文本間出現(xiàn)的次數(shù)來(lái)計(jì)算。本文在實(shí)際數(shù)據(jù)集上觀察了這些度量取值的分布特點(diǎn),得到了兩個(gè)啟發(fā)式的規(guī)則:在做特征選擇時(shí)
2、,宜選擇中間頻率的特征,或者按特征頻率分為高中低三組;而傳統(tǒng)的IDF權(quán)因子可以用訓(xùn)練集上總的TF來(lái)加強(qiáng)。
2.短語(yǔ)表達(dá)的語(yǔ)義比單詞更豐富,但傳統(tǒng)上是用特征選擇算法來(lái)選取一個(gè)短語(yǔ)子集作為文本的特征集。本文從語(yǔ)法分析樹(shù)的節(jié)點(diǎn)層次的角度來(lái)選擇短語(yǔ),這種方法能夠可更好地反映短語(yǔ)在句子結(jié)構(gòu)中的語(yǔ)義地位和作用。對(duì)比實(shí)驗(yàn)表明,新的表示方法提高了正例的召回率。
3.向量空間模型的語(yǔ)義化改造通常都利用相鄰單詞間的語(yǔ)義關(guān)系,或者非相鄰甚
3、至不出現(xiàn)的單詞間的詞典語(yǔ)義關(guān)系。本文利用上下文中的指代關(guān)系所給出的不相鄰單詞間的語(yǔ)義關(guān)系來(lái)改善特征的權(quán)度量。這種增強(qiáng)的加權(quán)度量可以從語(yǔ)義層面上更準(zhǔn)確地表達(dá)特征的真實(shí)頻率。經(jīng)驗(yàn)研究表明,新表示方法提高了正例的召回率。
4.核矩陣的 cache緩沖是 SVM分解優(yōu)化求解的重要加速技術(shù)。但是傳統(tǒng)的分解算法未必總表現(xiàn)出很好的局部性特點(diǎn)。本文提出了一種三層工作集選擇框架,以直接控制迭代過(guò)程的局部化。結(jié)合多種工作集選擇算法,有效地實(shí)現(xiàn)了對(duì)
4、分解優(yōu)化算法進(jìn)一步加速的效果。
5.對(duì)于大規(guī)模文本分類(lèi)問(wèn)題,利用逐步求精的思路,把它化為兩階段來(lái)處理是一個(gè)有效策略。直觀上,兩分類(lèi)問(wèn)題中每類(lèi)數(shù)據(jù)的分布輪廓對(duì)于分類(lèi)任務(wù)才是最重要的。本文用一個(gè)平面擬合每類(lèi)數(shù)據(jù),并把擬合問(wèn)題轉(zhuǎn)化為一個(gè)最小包球問(wèn)題。進(jìn)一步注意到,若用核集優(yōu)化求解,則所產(chǎn)生的核集coreset能反映分布輪廓。對(duì)比實(shí)驗(yàn)表明,在這種很小的子集上訓(xùn)練SVM分類(lèi)器具有非常高的效率,也可以得到非常稀疏的解。
6.不同
5、于前面用一個(gè)平面孤立地?cái)M合其中一類(lèi)數(shù)據(jù),進(jìn)一步納入兩類(lèi)數(shù)據(jù)間的分離性來(lái)建立新的平面擬合模型。即平面不僅要擬合指定類(lèi)別的數(shù)據(jù),還要使得另一類(lèi)數(shù)據(jù)盡量位于它的一側(cè)。實(shí)驗(yàn)表明,改進(jìn)的算法保持了與問(wèn)題規(guī)模和維度無(wú)關(guān)的處理效率,同時(shí)具有與標(biāo)準(zhǔn)SVM類(lèi)似的平均泛化能力。
7.進(jìn)一步探討另外一種結(jié)合分離性的方法。即除了要求平面擬合指定類(lèi)別的數(shù)據(jù)外,不僅要求另一類(lèi)數(shù)據(jù)要盡量位于它的一側(cè),還要求離該平面盡量遠(yuǎn)。實(shí)驗(yàn)結(jié)果顯示,新的改進(jìn)算法平均泛化
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于機(jī)器學(xué)習(xí)的大規(guī)模文本分類(lèi).pdf
- 大規(guī)模層次文本分類(lèi)解決方案
- 文本分類(lèi)和聚類(lèi)中若干問(wèn)題的研究.pdf
- 大規(guī)模層次文本分類(lèi)的解決方案.pdf
- 大規(guī)模Web信息抽取與文本分類(lèi)研究.pdf
- 大規(guī)模異構(gòu)環(huán)境下的文本分類(lèi)算法研究及應(yīng)用.pdf
- 基于支持向量機(jī)的大規(guī)模文本分類(lèi)研究與設(shè)計(jì).pdf
- 自動(dòng)文本分類(lèi)若干基本問(wèn)題研究.pdf
- 基于大規(guī)模人工神經(jīng)網(wǎng)絡(luò)的可擴(kuò)展文本分類(lèi)算法研究.pdf
- 【碩士論文】大規(guī)模平衡語(yǔ)料的收集分析及文本分類(lèi)方法研究
- 中文文本自動(dòng)分類(lèi)中的若干問(wèn)題研究.pdf
- 大規(guī)模定制下敏捷供應(yīng)鏈的若干問(wèn)題研究.pdf
- 大規(guī)模短文本的分類(lèi)過(guò)濾方法研究.pdf
- 大規(guī)模社會(huì)網(wǎng)絡(luò)可視化若干問(wèn)題及算法研究.pdf
- 文本分類(lèi)相關(guān)問(wèn)題研究.pdf
- 科技文本分類(lèi)問(wèn)題的研究.pdf
- 面向大規(guī)模短文本的分類(lèi)技術(shù)研究.pdf
- 文本分類(lèi)和聚類(lèi)若干模型的研究.pdf
- 文本情感分析若干問(wèn)題研究.pdf
- 文本聚類(lèi)分析若干問(wèn)題研究.pdf
評(píng)論
0/150
提交評(píng)論