版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、自然語言對象在很多情況下存在著語義上的相關(guān)關(guān)系,這種相關(guān)關(guān)系可以使多種研究問題受益,如自然語言處理、信息檢索、機器翻譯、自動問答,等等。語義相關(guān)計算是語義相關(guān)關(guān)系的量化手段,而語義相關(guān)關(guān)系的廣泛應(yīng)用對語義相關(guān)計算算法在理論上、實踐上均提出了挑戰(zhàn),例如語言對象語義的模型化表示、語義相關(guān)計算模型的設(shè)計、信息來源與特征質(zhì)量的分析、針對問題場景的特殊形式語義相關(guān)性、計算方法的跨語言通用性,等等。
本文首先明確了“語義相關(guān)”的定義,以統(tǒng)
2、一的數(shù)學(xué)形式給出了語義相關(guān)計算的表示,并提出了研究中面臨的三個要點:語義連接的選擇、特征映射的設(shè)計,以及對比映射的設(shè)計。圍繞這些要點,本文針對詞匯級的語言對象,包括詞匯、命名實體,以及網(wǎng)頁搜索查詢,基于統(tǒng)計方法對語義相關(guān)計算問題展開研究。本文的研究工作組織為如下四部分。
針對詞匯語義相關(guān)度計算問題,研究異構(gòu)特征線索下相關(guān)度計算函數(shù)的設(shè)計問題。使用方式(上下文)上的近似性、語義關(guān)系上的關(guān)聯(lián)性均為詞匯語義相關(guān)度的重要指示。這兩類特
3、征線索的形式迥異,為了充分利用其中的指導(dǎo)信息,本文設(shè)計了一種語義關(guān)系增強的層次化上下文相似度算法,使用上下文相似度量化詞匯在語義關(guān)系上的關(guān)聯(lián)性,從而將兩類特征線索統(tǒng)一起來。實驗證明語義關(guān)系與上下文相似度的結(jié)合可以有效提高語義相關(guān)度計算結(jié)果與人工評價的一致性,而且本文提出的特征線索融合方法優(yōu)于簡單地疊加異構(gòu)特征的方法。
圍繞普通文本上的相關(guān)命名實體挖掘問題,研究如何在特定應(yīng)用場景下有效表示語言對象的語義相關(guān)關(guān)系。本文提出,命名實
4、體之間的語義相關(guān)關(guān)系無法脫離其對應(yīng)的客觀世界對象之間的關(guān)聯(lián)關(guān)系。本文通過考察命名實體的篇章級共現(xiàn)現(xiàn)象,量化了命名實體在事件中的語義互動強度。輔以上下文的相似度,以及行文上的近鄰度等特征,基于篇章級共現(xiàn)的相關(guān)命名實體挖掘結(jié)果在質(zhì)量上好于基于關(guān)系抽取的挖掘結(jié)果。
在知識庫支持的命名實體相關(guān)度計算問題中,研究在語言對象本身的統(tǒng)計特性較弱時,如何對其特征項賦權(quán)的問題。本文首次提出了基于實體-屬性-屬性值記錄的命名實體相關(guān)度計算方法。實
5、體-屬性-屬性值記錄由于受其內(nèi)在設(shè)計原則的影響,一些在常規(guī)文本中有效的統(tǒng)計方法無法直接應(yīng)用。為此,本文提出通過查詢?nèi)罩局械挠脩襞d趣信息對命名實體的語義特征項進(jìn)行賦權(quán)的方法。與基于知識庫內(nèi)部數(shù)據(jù)的統(tǒng)計方法相比,本文方法在相關(guān)實體推薦應(yīng)用上達(dá)到了更好的準(zhǔn)確率。此外,本文還討論了賦權(quán)策略在不同規(guī)模、質(zhì)量、領(lǐng)域的知識庫條目上的有效性,以及相關(guān)度計算函數(shù)應(yīng)如何利用這種賦權(quán)結(jié)果。
以查詢語義相關(guān)性判斷問題為代表,研究語義相關(guān)計算策略的分析
6、與改進(jìn)問題,包括特征的有效性問題和模型的適應(yīng)性問題。查詢語義相關(guān)性判斷是對兩條網(wǎng)頁搜索查詢是否針對同一信息需求的判斷。不同用戶的搜索習(xí)慣有較大差異,這使得判斷模型所采用的特征在不同用戶上的有效性不同,并進(jìn)一步需要判斷模型體現(xiàn)出對用戶個體差異的適應(yīng)性。本文首先根據(jù)常見的兩類相關(guān)性線索——時間近鄰性、內(nèi)容相似性——設(shè)計了多種分類特征,并由此建立了有效的判斷模型。然后,本文通過獨立于具體模型的ROC曲線分析考察了諸特征的內(nèi)在判別能力,并根據(jù)分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于知網(wǎng)的詞匯語義計算研究及應(yīng)用.pdf
- 基于知識整合的詞匯語義相似度計算方法研究.pdf
- 基于《知網(wǎng)》的詞匯語義相似度計算doc
- 中文詞匯語義相似度計算研究.pdf
- 基于漢語概念圖的詞匯語義相似度計算.pdf
- 基于詞匯語義樹的語義檢索排名算法.pdf
- 基于維基百科的語義相關(guān)度計算研究.pdf
- 詞語語義相關(guān)度計算研究.pdf
- 基于共振理論的詞匯相關(guān)性計算.pdf
- 基于上古文獻(xiàn)的詞匯級語義知識挖掘研究.pdf
- 六歲幼兒的詞匯統(tǒng)計及語義分類.pdf
- 跨語言詞匯語義相似度計算研究.pdf
- 基于概念格的語義相關(guān)度計算及應(yīng)用.pdf
- 詞匯語義變化的認(rèn)知研究.pdf
- 詞匯文化語義的認(rèn)知研究.pdf
- 基于統(tǒng)計學(xué)習(xí)的圖像語義挖掘研究.pdf
- 基于詞匯集聚的網(wǎng)絡(luò)文本相關(guān)度計算.pdf
- 語義相關(guān)與語義無關(guān)的詞匯呈現(xiàn)方式對高中生二語詞匯習(xí)得的影響.pdf
- 基于知網(wǎng)語義相關(guān)度計算的漢語自動分詞方法的研究.pdf
- 基于語義的圖像檢索相關(guān)問題研究.pdf
評論
0/150
提交評論