版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、眾所周知,比較是人類認(rèn)識(shí)世界的一種重要手段和有說服力的表達(dá)方式,是世界各種語(yǔ)言的最重要的組成部分。隨著Web2.0的深入發(fā)展,Internet技術(shù)更加注重與普通用戶的交互,用戶不僅是網(wǎng)站內(nèi)容的讀者,也是網(wǎng)站內(nèi)容的作者。尤其最近幾年,微博、播客、日志、維基、論壇等新型網(wǎng)絡(luò)元素異軍突起,使得網(wǎng)絡(luò)信息更加個(gè)性化和多元化。這些信息中不乏是對(duì)各種新事物、新理論、新技術(shù)、新產(chǎn)品、新觀點(diǎn)、新藝術(shù)的評(píng)論比較的文本信息。利用自然語(yǔ)言處理技術(shù),高效地從這些
2、信息中識(shí)別比較句和比較關(guān)系已成為近年來一個(gè)新穎的研究課題。
論文在已有研究的基礎(chǔ)上,對(duì)比較句與比較關(guān)系的自動(dòng)識(shí)別做了系統(tǒng)深入的研究。主要包括以下幾個(gè)方面的工作:
①提出熵值平衡算法(EBA)用來對(duì)語(yǔ)料的類別偏斜問題進(jìn)行平衡處理。該算法基于熵是度量一個(gè)系統(tǒng)有序程度的原理,通過計(jì)算每個(gè)詞匯的熵值,選擇滿足閾值的詞匯構(gòu)造平衡關(guān)鍵字集合,再用這個(gè)集合過濾每個(gè)類別的語(yǔ)料文本數(shù)據(jù),使得大類的樣本規(guī)模與小類的樣本規(guī)模接近于1:1。
3、該算法在對(duì)語(yǔ)料庫(kù)中比較句與非比較句比例為796:8010的平衡結(jié)果為701:1226,達(dá)到了平衡的預(yù)期目標(biāo)。
②提出基于信息熵的比較句識(shí)別方法。該方法提取類間分布不均勻而類內(nèi)分布均勻的詞匯作為比較句的統(tǒng)計(jì)特征;利用Apriori算法挖掘滿足最小支持度minsup和最小置信度minconf的詞性序列模式作為比較句的序列特征。然后使用信息增益(IG)對(duì)得到的特征進(jìn)行特征選擇。最后使用SVM和NB分類器對(duì)語(yǔ)料的特征向量進(jìn)行分類。實(shí)驗(yàn)
4、表明該方法的F1值為81%,能有效地識(shí)別比較句。
③提出基于語(yǔ)義角色句法分析樹的比較關(guān)系識(shí)別方法。該方法將句法分析樹和語(yǔ)義角色標(biāo)注相融合,構(gòu)造一種新的語(yǔ)義角色分析樹,并設(shè)計(jì)了子樹間的匹配相似度計(jì)算函數(shù),計(jì)算最大可能的抽取結(jié)果,旨在提取比較關(guān)系中比較主體,比較客體,比較內(nèi)容和比較結(jié)果。實(shí)驗(yàn)結(jié)果顯示,對(duì)只含有一個(gè)關(guān)系的比較關(guān)系抽取效果較好,對(duì)含有多個(gè)關(guān)系的比較關(guān)系抽取,效果有待進(jìn)一步提高。
?、軐?shí)現(xiàn)了產(chǎn)品評(píng)論挖掘中比較句與
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 面向比較句的比較要素缺省識(shí)別與抽取研究.pdf
- 比較句識(shí)別及觀點(diǎn)要素抽取方法研究.pdf
- 《論衡》比較句研究.pdf
- “沒有”比較句研究.pdf
- 《宋書》比較句研究.pdf
- 比較概念與英語(yǔ)比較句的生成及擴(kuò)展.pdf
- 漢法比較句對(duì)比研究.pdf
- 《聊齋俚曲》比較句研究.pdf
- 《喻世明言》比較句研究.pdf
- 中韓被動(dòng)句比較研究.pdf
- 高密方言比較句研究.pdf
- “更”族比較句多維研究.pdf
- 《祖堂集》比較句研究.pdf
- 《五燈會(huì)元》比較句研究.pdf
- “有”、“沒有”型比較句研究.pdf
- 藏緬語(yǔ)的比較句研究.pdf
- 緬漢比較句對(duì)比研究.pdf
- 《世說新語(yǔ)》比較句研究.pdf
- 漢維比較句對(duì)比研究.pdf
- 壯語(yǔ)否定句比較研究.pdf
評(píng)論
0/150
提交評(píng)論