一種頻率增強的語句語義相似度計算

上傳人：奔*** IP屬地：河北更新時間：2024-07-30 格式：doc 頁數：5 大小：106.50KB 人氣指數：12 舉報 版權申訴

已閱讀1頁，還剩4頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

1、　　一種頻率增強的語句語義相似度計算　　摘要：目前，在基于HowNet進行語句語義相似度計算的算法中，沒有考慮語句中的不同詞語對語句之間相似度值的不同貢獻程度，以致計算結果不理想.為了更好地解決上述缺陷，提出了一種頻率增強語句語義相似度算法.該算法利用HowNet作為詞典庫，在同時考慮義原距離和義原深度的條件下，進行詞語相似度計算；在此基礎上算法進一步將詞語在語料庫中的頻率函數

2、作為權重值，引入至語句的語義相似度計算中，以降低高頻率詞語在語句相似度值中的比重.實驗表明，改進的算法在語句相似度計算結果上與人們的主觀判斷更接近，結果更合理. 　　關鍵詞：HowNet；義原樹狀結構；語料庫；語義相似度 　　中圖分類號：TP39 文獻標識碼：A 　　文本相似度＼[1＼]是表示兩個或多個文本之間匹

3、配程度的一個度量參數，相似度越大，說明對比的內容相似程度越高，反之越低.文本相似度計算廣泛應用于文本挖掘、Web信息搜索和機器翻譯等，是自然語言處理中的一個重要研究領域＼[2＼].在長文本句子相似度計算中，主要分析相同的句子并且將句子分類＼[1＼]；在圖像修復中，根據嵌入圖像的描述文字進行修復可以達到更高的精度＼[3＼]，在web內容進行搜索時，計算web頁面中的語句相似度能夠更加有效地推薦搜索結果＼[4＼].

4、　　當前的文本相似度計算包括詞語相似度計算，語句相似度計算等，詞語相似度計算是指詞語之間在語義上的相似度計算，狹義地說，是指從字面上來計算兩個詞語之間的相似度＼[5＼]，其研究方法主要包括利用語義詞典以及詞典中數據的樹狀層次結構關系，來計算詞語之間的語義相似度值；其次是利用統(tǒng)計學中的概率分布思想，結合語料庫，通過詞語在語料庫中出現(xiàn)的頻率來反應詞語間的相似度.第一類方法的基礎是語義詞典庫，根據義原或者詞語本身構成的樹狀結

5、構，來得到詞語的相似度值，這類方法的一個較明顯的缺點是詞典庫中經常存在一些沒有登錄或記錄的詞匯.第二類方法的基礎是語料庫，該方法中假定當詞語所在的上下文環(huán)境相似時，詞語之間才是相似的.但是這個方法中的一個缺陷是有時語料庫中的詞語頻率函數并不滿足某種概率分布＼[6＼]. 　　但是，單純的詞語之間語義相似度計算還不足以滿足日常需要，人們在平常的工作生活中，接觸到的通常是以文本形式出現(xiàn)的信息，因此，詞

6、語語義相似度計算還需要過渡到語句語義相似度計算層面上.在語義相似度計算方法中，主要包括將詞性和詞序結合的方法＼[7＼]、依存樹法、編輯距離方法和基于HowNet的方法＼[8＼]等，我們從復雜度、詞語權重信息、同義詞反義詞、數據稀疏、語義信息、語句結構和算法可行度進行分析發(fā)現(xiàn)，這些方法并不能完全滿足這些因素. 　　在以往的文本或者長句相似度匹配中，可以通過上下文關系中推斷出文本的語義，但是在短句中

7、，由于詞匯量的問題，以往的語句相似度計算法在短句中的語義相似度計算中有效性不高＼[9＼]，因而文本中短句中相似度計算，如5～25個詞語組成的不講究語法的短句，已逐漸成為自然語言處理中的一個重要領域. 　　本文將HowNet作為語義詞典庫， HowNet是由董振東先生創(chuàng)立， HowNet的描述對象是漢語詞語和英語詞語所代表的概念，它揭示了概念之間以及概念屬性之間的復雜關系，并以此構成一個組織龐大

8、、內容豐富的知識庫. 　　4結論 　　本文以HowNet為語義詞典庫，介紹了HowNet中義原相似度計算、概念相似度計算以及詞語相似度計算的細節(jié)和公式.最終，以此為基礎，研究了改進的語句語義相似度計算. 　　在對語句相似度算法改進時，將詞語在語料庫中的頻率函數作為權重系數加入

9、到計算公式中.語料庫中詞語出現(xiàn)的頻率越大，對語句整體所起的作用越小，反之則越大，這個規(guī)律與人們日常的觀念也相符合.本文改進的算法在一定程度上解決了目前基于HowNet的語句相似度算法中存在的計算結果不合理現(xiàn)象.最后，通過三種方法的對比實驗證明，改進后的語句相似度計算方法更合理. 　　參考文獻 　　[1]ALIGULI

10、YEV R M. A new sentence similarity measure and sentence based extractive technique for automatic text summarization＼[J＼]. Expert Systems with Application ，2009，36 （4）： 7764-7772. 　?。躘2＼]涂承勝，魯明羽，陸玉昌.W

11、eb內容挖掘技術研究＼[J＼].計算機應用研究，2003，20（11）：5-9. 　　TU Chengsheng， LU Mingyu， LU Yucang. Web content mining technology＼[J＼]. Computer Application Research， 2003，20（11）：5-9.（In Chinese）

12、＼[3＼]CHIANG J H，YU H C. Literature extraction of protein functions using sentence pattern mining＼[J＼]. IEEE Transactions on Knowledge and Data Engineering，2005，17（8）：1088-1098. 　?。躘4＼]KO Y， PARK J， S

13、EO J. Improving text categorization using the importance of sentences＼[J＼]. Information Processing and Management，2004，40： 65-79. 　?。躘5＼]LIN Dekang. An information theoretic definition of similarity

14、semantic distance in wordnet ＼[C＼]//Proceedings of the Fifteenth International Conference on Machine Learning1998：296-304. 　　＼[6＼]田久樂，趙蔚.基于同義詞詞林的詞語相似度計算方法＼[J＼].吉林大學學報，2010，28（6）：602-608. 　　TIAN Jiul

15、e，ZHAO Wei. Words similarity algorithm based on tongyici cilin in semantic web adaptive learning system＼[J＼]. Journal of Jilin University， 2010，28（6）：602-608.（In Chinese） 　?。躘7＼]車萬翔，劉挺，秦兵，等.基于改進編輯距離的

16、中文相似句子檢索＼[J＼].高技術通訊，2004（7）：15-19. 　　CHE Wangxiang，LIU Ting， QIN Bing. Similar chinese sentence retrieval based on improved editdistance＼[J＼].High Technology Letters，2004（7）：15-19. （In Chinese） </

17、p>　　＼[8＼]劉群，李素建.基于《知網》的詞匯語義相似度計算＼[C＼]//第三語義學研討會論文集.臺北：臺北中央研究院，2002：149-163. 　　LIU Qun， LI Sujian How netbased lexical semantic similarity calculation＼[C＼]//Third Semantics Workshop Proc

18、eedings. Taipei： Academia Sinica， 2002：149-163.（In Chinese） 　?。躘9＼]AMINUL Islam，DIANA Inkpen. Semantic text similarity using corpusbased word similarity and string similarity＼[R＼]. Ottawa， Canada：Uni

19、versity of Ottawa，2008. 　　＼[10＼]LIAO Zhining， ZUHAIR A. Bandar， James D. O’Shea，Keeley Crockett. Termbased approach for semantic similarity of short texts＼[R＼].Manchester， England：Manchester Metropol

眾賞文庫> 全部分類> 畢業(yè)設計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

一種頻率增強的語句語義相似度計算

文檔簡介

溫馨提示

最新文檔

評論

一種頻率增強的語句語義相似度計算

文檔簡介

溫馨提示

最新文檔

評論

免費下載